pandas 面试题挑战六

作者: 人工智能人话翻译官 | 来源:发表于2019-05-25 23:01 被阅读57次

    从Series的字符串中过滤出email地址

    现有Series如下:

    emails = pd.Series(['buying books at amazom.com', 'rameses@egypt.com', 'matt@t.co', 'narendra@modi.com'])
    

    解决办法:

    import re
    pattern ='[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\\.[A-Za-z]{2,4}'
    mask = emails.map(lambda x: bool(re.match(pattern, x)))
    emails[mask]
    

    结果如下:

    1    rameses@egypt.com
    2            matt@t.co
    3    narendra@modi.com
    dtype: object
    

    重点解读:
    这题的重点是对正则表达式的使用,这个建议还是先把pattern ='[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Za-z]{2,4}'这个看懂,如果不懂就去学学正则吧,花点心思,问题不大。
    mask = emails.map(lambda x: bool(re.match(pattern, x))), 这个重点是对map的理解,map就是把Series中的每个元素都交给内部的函数处理进行,获得一个mask。
    然后根据mask做过滤就好了。
    mask如下:

    0    False
    1     True
    2     True
    3     True
    dtype: bool
    

    把一个Series按照另外一个Series的元素进行分组,并求均值。

    现有两个Series如下:

    fruit = pd.Series(np.random.choice(['apple', 'banana', 'carrot'], 10))
    weights = pd.Series(np.linspace(1, 10, 10))
    print(weights)
    print(fruit)
    

    输出:

    0     1.0
    1     2.0
    2     3.0
    3     4.0
    4     5.0
    5     6.0
    6     7.0
    7     8.0
    8     9.0
    9    10.0
    dtype: float64
    0    banana
    1    banana
    2    carrot
    3     apple
    4    carrot
    5     apple
    6    banana
    7     apple
    8     apple
    9    banana
    dtype: object
    

    现在把weights中的元素按照fruit的元素为进行分组,并求平均值
    解决办法:

    weights.groupby(fruit).mean()
    

    输出:

    apple     6.75
    banana    5.00
    carrot    4.00
    dtype: float64
    

    求两个Series的模值差

    现有两个Series如下:

    p = pd.Series([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])
    q = pd.Series([10, 9, 8, 7, 6, 5, 4, 3, 2, 1])
    

    其实就是把p,q看成是两个向量,然后可以方便的使用np.linalg.norm()来解决问题。

    p = pd.Series([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])
    q = pd.Series([10, 9, 8, 7, 6, 5, 4, 3, 2, 1])
    np.linalg.norm(p-q)
    

    结果如下:

    18.16590212458495
    

    找到出现最少的字符,并使用它填充字符串的空白位置

    现有Series如下:

    my_str = 'dbc deb abed gade'
    

    找到出现最少的字符,并使用它填充字符串的空白位置。
    解决如下:

    ser = pd.Series(list('dbc deb abed gade'))
    freq = ser.value_counts()
    
    least_freq = freq.dropna().index[-1]
    "".join(ser.replace(' ', least_freq))
    

    结果如下:

    'dbccdebcabedcgade'
    

    重点解读:
    freq = ser.value_counts(),首先通过ser.value_counts()计算出所有字符出现的频率。
    least_freq = freq.dropna().index[-1], freq.dropna()可以删除关于空白的统计,然后找到索引的最后的位置,这个就是出现最少的字符。
    "".join(ser.replace(' ', least_freq)),最后就容易了,通过ser.replace就搞定了。

    创建Series,索引按照week 递进,值为随机数,范围1 - 10

    产生类似的输出:


    image.png

    解决方式如下:

    ser = pd.Series(np.random.randint(1,10,10),pd.date_range('2000-01-01', periods=10, freq='7D'))
    ser
    

    重点解读:
    pd.date_range('2000-01-01', periods=10, freq='7D') 代表从'2000-01-01'开始,periods=10意味一共产生10个数据,freq='7D'频率是7天,D代表天。

    相关文章

      网友评论

        本文标题:pandas 面试题挑战六

        本文链接:https://www.haomeiwen.com/subject/umyozqtx.html