pandas 面试题挑战六

作者: 人工智能人话翻译官 | 来源:发表于2019-05-25 23:01 被阅读57次

从Series的字符串中过滤出email地址

现有Series如下:

emails = pd.Series(['buying books at amazom.com', 'rameses@egypt.com', 'matt@t.co', 'narendra@modi.com'])

解决办法:

import re
pattern ='[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\\.[A-Za-z]{2,4}'
mask = emails.map(lambda x: bool(re.match(pattern, x)))
emails[mask]

结果如下:

1    rameses@egypt.com
2            matt@t.co
3    narendra@modi.com
dtype: object

重点解读:
这题的重点是对正则表达式的使用,这个建议还是先把pattern ='[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Za-z]{2,4}'这个看懂,如果不懂就去学学正则吧,花点心思,问题不大。
mask = emails.map(lambda x: bool(re.match(pattern, x))), 这个重点是对map的理解,map就是把Series中的每个元素都交给内部的函数处理进行,获得一个mask。
然后根据mask做过滤就好了。
mask如下:

0    False
1     True
2     True
3     True
dtype: bool

把一个Series按照另外一个Series的元素进行分组,并求均值。

现有两个Series如下:

fruit = pd.Series(np.random.choice(['apple', 'banana', 'carrot'], 10))
weights = pd.Series(np.linspace(1, 10, 10))
print(weights)
print(fruit)

输出:

0     1.0
1     2.0
2     3.0
3     4.0
4     5.0
5     6.0
6     7.0
7     8.0
8     9.0
9    10.0
dtype: float64
0    banana
1    banana
2    carrot
3     apple
4    carrot
5     apple
6    banana
7     apple
8     apple
9    banana
dtype: object

现在把weights中的元素按照fruit的元素为进行分组,并求平均值
解决办法:

weights.groupby(fruit).mean()

输出:

apple     6.75
banana    5.00
carrot    4.00
dtype: float64

求两个Series的模值差

现有两个Series如下:

p = pd.Series([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])
q = pd.Series([10, 9, 8, 7, 6, 5, 4, 3, 2, 1])

其实就是把p,q看成是两个向量,然后可以方便的使用np.linalg.norm()来解决问题。

p = pd.Series([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])
q = pd.Series([10, 9, 8, 7, 6, 5, 4, 3, 2, 1])
np.linalg.norm(p-q)

结果如下:

18.16590212458495

找到出现最少的字符,并使用它填充字符串的空白位置

现有Series如下:

my_str = 'dbc deb abed gade'

找到出现最少的字符,并使用它填充字符串的空白位置。
解决如下:

ser = pd.Series(list('dbc deb abed gade'))
freq = ser.value_counts()

least_freq = freq.dropna().index[-1]
"".join(ser.replace(' ', least_freq))

结果如下:

'dbccdebcabedcgade'

重点解读:
freq = ser.value_counts(),首先通过ser.value_counts()计算出所有字符出现的频率。
least_freq = freq.dropna().index[-1], freq.dropna()可以删除关于空白的统计,然后找到索引的最后的位置,这个就是出现最少的字符。
"".join(ser.replace(' ', least_freq)),最后就容易了,通过ser.replace就搞定了。

创建Series,索引按照week 递进,值为随机数,范围1 - 10

产生类似的输出:


image.png

解决方式如下:

ser = pd.Series(np.random.randint(1,10,10),pd.date_range('2000-01-01', periods=10, freq='7D'))
ser

重点解读:
pd.date_range('2000-01-01', periods=10, freq='7D') 代表从'2000-01-01'开始,periods=10意味一共产生10个数据,freq='7D'频率是7天,D代表天。

相关文章

  • pandas 面试题挑战六

    从Series的字符串中过滤出email地址 现有Series如下: 解决办法: 结果如下: 重点解读:这题的重点...

  • pandas 面试题挑战一

    1 查看pandas的版本 解决办法 结果如下 2 如何通过list,numpy array, dict创建ser...

  • pandas 面试题挑战五

    计算两个Series之间的均方误差 现有两个Series如下: 计算两个Series之间的均方误差解决办法: 输出...

  • pandas 面试题挑战四

    13 如何把一个 numpy array 转换成规定形状的 dataframe 现有Series如下 要求转化为7...

  • pandas 面试题挑战九

    按要求导入csv数据,每隔50行数据取一条合并成新的df 输出 重点解读:pd.read_csv中最重要的是chu...

  • pandas 面试题挑战十

    查询df中指定行与列的数据 现有数据如下: 查询最贵的价格,解决方式如下: 输出 查询最贵价格的车,相关的'Man...

  • pandas 面试题挑战二

    6 取出Series 1中独有的数据 现有两个Series, ser1和ser2 如下: 取出在ser1中出现,但...

  • pandas 面试题挑战七

    按照指定要求前向填充元素(ffill forward fill) 构建数据如下: 输出 分别使用前一行/前一列数据...

  • pandas 面试题挑战八

    求两个Series的相关性 现有两个Series如下: 求两个Series的皮尔逊系数 解决方法就是把Series...

  • pandas 面试题挑战十二

    DataFrame中的apply方法,applymap方法有什么区别 DataFrame中的apply方法 输出 ...

网友评论

    本文标题:pandas 面试题挑战六

    本文链接:https://www.haomeiwen.com/subject/umyozqtx.html