美文网首页
《利用Python进行数据分析学习笔记》学习笔记(三)

《利用Python进行数据分析学习笔记》学习笔记(三)

作者: 卜地锦 | 来源:发表于2017-09-17 18:08 被阅读0次

    1.工具和环境
    语言: python3.6
    系统:win7 64位
    数据库:MongoDB
    IDE:IPython notebook

    2.数据加载、存储与文件格式
    pandas 提供了一些用于将表格型数据读取为DataFrame对象的函数。

    首先看一个以逗号分隔的CSV文本文件:

    !type user_info.csv  #如果是UNIX系统,要把'!type'改成'!cat'
    
    ,用户,粉丝,答题,专栏文章,个人简介
    0,张佳玮,1429532,3060,730,公众号:张佳玮写字的地方
    1,李开复,1015013,107,2,
    2,黄继新,810619,782,95,和知乎在一起
    3,周源,777991,339,8,知乎 001 号员工
    4,yolfilm,768913,1619,0,发,然后禁,则扞格而不胜。
    5,丁香医生,759397,243,56,身体上的问题,来问丁香医生
    6,张亮,721254,1437,110,birth of cool
    7,张小北,667155,1337,66,电影爱好者
    8,李淼,662989,1172,191,我拉黑的 都是智力发展有问题的
    9,朱炫,653648,205,52,闷骚而近妖 微博:大师兄_朱炫
    
    import pandas as pd
    df = pd.read_csv('user_info.csv', encoding = 'gb18030') #这里出现了一点中文编码的问题,所以我指定了解码方式。
    df
    
    image.png

    再试一下用read_table,需要指定分隔符

    df = pd.read_table('user_info.CSV', sep = ',', encoding = 'gb18030')
    df
    
    image.png

    效果看起来跟read_csv完全一样。

    注意到这里出现了一栏Unnamed: 0,应该是CSV文本文件开头的逗号引起的,我们可以用del 把这多余的一列删除。

    del df['Unnamed']
    df
    
    image.png

    成功的删除了不要的‘Unnamed’。

    将数据写出到文本格式

    df.to_csv('data.csv')
    !type data.csv
    
    ,用户,粉丝,答题,专栏文章,个人简介
    0,张佳玮,1429532,3060,730,公众号:张佳玮写字的地方
    1,李开复,1015013,107,2,
    2,黄继新,810619,782,95,和知乎在一起
    3,周源,777991,339,8,知乎 001 号员工
    4,yolfilm,768913,1619,0,发,然后禁,则扞格而不胜。
    5,丁香医生,759397,243,56,身体上的问题,来问丁香医生
    6,张亮,721254,1437,110,birth of cool
    7,张小北,667155,1337,66,电影爱好者
    8,李淼,662989,1172,191,我拉黑的 都是智力发展有问题的
    9,朱炫,653648,205,52,闷骚而近妖 微博:大师兄_朱炫
    

    重新将DataFrame写出到文本文件中。
    此外,还有Json数据。
    通过json.loads()将JSON数据转化为python形式,json.dumps()则将python形式转化为JSON数据。

    相关文章

      网友评论

          本文标题:《利用Python进行数据分析学习笔记》学习笔记(三)

          本文链接:https://www.haomeiwen.com/subject/dhlmsxtx.html