美文网首页
《利用python进行数据分析》读书笔记1

《利用python进行数据分析》读书笔记1

作者: omuraisu | 来源:发表于2017-09-06 15:23 被阅读0次

    读取json内容:

    import json
    
    path='路径\文件名.txt'
    records=[json.loads(line) for line in open(path)]
    #records为由字典组成的列表。每个字典为一个实例
    

    建立只有‘tz’时区字段的列表。因为不是每个字典实例都有tz字段,所以要加上if 'tz' in rec。否则会报错。

    time_zone=[rec['tz'] for rec in records if 'tz' in rec]
    

    统计每种时区的出现次数:
    方法一:
    先统计次数,生成{时区1:次数,时区2:次数....}形式的字典。
    再对字典进行排序。

    统计次数方法(1):

    from collections import defaultdict #次数统计函数
    def get_counts(sequences)
        counts=defaultdict(int) #初始化次数统计字典,将其初始值设为0
        for x in sequences:
            counts[x]+=1
        return counts
    

    统计次数方法(2):

    from collections import defaultdict
    def get_count2(sequence):
        counts=defaultdict(int)
        for x in sequence:
            counts[x]+=1
        return counts
    

    排序

    def top_count(counts,n=10) #字典排序函数,两个参数里一个是计数字典,一个是排序取前几。默认为前10。
        value_key_pairs=[(count,tz) for tz, count in counts.items()]
        value_key_pairs.sort()
        return value_key_pairs[-10:]
    
    counts=get_counts(time_zone)
    top10=top_count(counts)
    

    其中counts.items()是将字典中的键值对以元组的形式放进列表里。
    例:counts:
    {u'America/Montreal': 9, u'America/Anchorage': 5, u'Asia/Seoul': 5}
    counts.items():
    [(u'America/Montreal', 9), (u'America/Anchorage', 5), (u'Asia/Seoul', 5)]

    而这句:value_key_pairs=[(count,tz) for tz, count in counts.items()]则是对返回的键,值对元组的位置做了调换。
    例:[(9, u'America/Montreal'), (5, u'America/Anchorage'), (5, u'Asia/Seoul')]

    value_key_pairs.sort()中 list.sort()方法只能用于列表,是对原列表进行排序。默认升序。需要降序则value_key_pairs.sort(reverse=False)

    关于排序的知识详细参考:http://www.cnblogs.com/freemao/p/3869994.html

    方法二:使用Counter类

    from collections import Counter
    counts=Counter(time_zone)
    top10=counts.most_common(10)
    

    Counter类的目的是用来跟踪值出现的次数。它是一个无序的容器类型,以字典的键值对形式存储,其中元素作为key,其计数作为value。计数值可以是任意的Interger(包括0和负数)。Counter类和其他语言的bags或multisets很相似。
    详细参考:http://www.jb51.net/article/85542.htm

    方法三:用pandas计数

    import pandas as pd
    import numpy as np
    frame=pd.DataFrame(records)
    tz_counts=frame['tz'].value_counts() #计数并且排序,默认降序。tz_counts如下:
    
    image.png

    注意里面有空值

    clear_tz=frame['tz'].fillna('Missing') #替换掉frame里缺失tz字段的NA
    clear_tz[clear_tz=='']='Unknown #通过布尔型数组索引替换空字符串
    tz_counts=clear_tz.value_counts()
    

    此时的tz_counts如下。注意空字符串变成了unknow。以及增加了missing计数。

    image.png

    使用前十的数据,利用plot方法生成一张水平条形图。

    tz_counts[:10].plot(kind='barh',rot=0)
    
    image.png

    总结:
    1.往字典里存数据需要先初始化字典。可使用defaultdict函数:

    from collections import defaultdict 
    counts=defaultdict(int) #初始化次数统计字典,将其初始值设为0
    

    2.清洗数据,有的数据没有某个字段,一是要替换掉这些缺失值,可用fillna方法替换。二是要注意有没有空字符串,这种数据可通过布尔型数组索引来替换掉。

    3.对某个字段的值的出现次数进行统计,可使用三种方法
    (1)新建一个字典,用以统计每个值的出现次数。再将该字典转换为列表,对列表进行排序。
    (2)使用counter类进行次数统计并排序。
    (3)先将json转换为DataFrame对象,再对其tz字段使用pandas的value_counts()方法进行次数统计并排序。

    相关文章

      网友评论

          本文标题:《利用python进行数据分析》读书笔记1

          本文链接:https://www.haomeiwen.com/subject/lnkndxtx.html