Pandas 导入各种格式的数据文件

作者: 小飞牛_666 | 来源:发表于2019-05-15 12:32 被阅读64次
    我们知道我想分析数据的话我们必须首先要有数据,那么数据从哪里来呢?一般就是使用爬虫采集或者直接从开源的数据网站下载后保存到相应的文件中去,然后我们在根据这些文件中的数据进行分析。
    那么在 Python 中如何对文件中的数据进行获取并分析呢?有两种方式,一种是:用我们常用的 open 打开文件,然后去操作,但是效率比较低;那么接下来我们就用第二种方式:使用 Pandas 对数据的读取即导入文件中的数据 然后分析。
    一、使用 Pandas 读取 CSV 格式的文件
    # 1 导入 csv 文件
    i = pda.read_csv("C:/Users/Administrator/Desktop/myfiledata/blog.csv",encoding="gbk") #由于文件中有中文,因此必须编码
    print(i.describe())  # 统计分析
    
    
    

    文件的数据格式 及 运行结果 分别如下:


    image.png image.png
    二、Pandas 读取 xlsx 格式的文件
    # 2 导入 excel 文件   需要导入模块: pip3 install xlrd
    j = pda.read_excel("C:/Users/Administrator/Desktop/myfiledata/score.xlsx")
    print(j)
    print(j.sort_values(by="分数", ascending=False))  # #根据“分数”降序排列
    
    

    数据文件 及 运行结果 分别如下:


    image.png image.png
    三、Pandas 导入 html 文件 先安装相关的依赖库:pip install html5lib、pip install beautifulsoup4
    k = pda.read_html('C:/Users/Administrator/Desktop/myfiledata/abc.html')  # 本地
    print(k)    # 输出
    print("-------------------------------------------")
    l = pda.read_html('https://book.douban.com/')  # 网络
    print(l)    # 输出
    
    

    本地数据文件 及 运行结果 分别如下:


    image.png image.png

    四、导入 文本文件

    n = pda.read_table("C:/Users/Administrator/Desktop/myfiledata/lcy.txt",encoding="gbk")    # 有中文的话记得编码
    print(n)
    
    

    数据文件 及 运行结果 分别如下:


    image.png
    image.png

    好了,常见的文件格式导入方式基本上都用上了,嘿嘿,接下来我们就可以愉快的进行数据分析咯。。。

    相关文章

      网友评论

        本文标题:Pandas 导入各种格式的数据文件

        本文链接:https://www.haomeiwen.com/subject/mssmsftx.html