美文网首页
数据处理 | csvkit安装与简单使用

数据处理 | csvkit安装与简单使用

作者: 水土七口刀 | 来源:发表于2020-11-01 17:37 被阅读0次

    _文{}_\equiv{}_{\nabla \Delta \nabla \Delta \nabla \Delta} {}^{皮}{}_{实}{}^{乐}{}_{观} {}^思_考 {}^有{}_{人^{生}}{}^{才_{有}}{}_{精^{彩}}
    {}^{\star\star}{}^\equiv{}^{水土七口刀} {}_{生}{}^{活}{}_{阅}{}^{读} {}^运_动 {}_有{}^{兴_{趣}}{}_{才^{有}}{}^{人_{生}}


    【走在成长的路上】总纲

    csvkit安装

    • 使用pip安装:运行以下命令
    sudo pip install csvkit
    
    • 在wsl使用pip安装,经测试不能正常识别,故使用apt安装:运行以下命令
    sudo apt install csvkit
    

    csvkit使用

    • 将excel文件转换为csv:运行以下命令
    in2csv data.xls > data.csv 
    
    • 将json文件转换为csv:运行以下命令
    in2csv data.json > data.csv
    
    • 屏幕打印csv列名:运行以下命令
    csvcut -n data.csv
    
    • 从data.csv获取由column_a,column_c两列构成的子文件new.csv:运行以下命令
    csvcut -c column_a,column_c data.csv > new.csv
    
    • 重新排列csv列,将顺序由1/2/3变为3/2/1,结果存储至new.csv:运行以下命令
    csvcut -c column_3,column_2,column_1 data.csv > new.csv
    
    • 获得列column_3中与字符串abc(可用正则表达式)匹配的行,结果存储至new.csv:运行以下命令
    csvgrep -c column_3 -r "abc" data.csv > new.csv
    
    • 将csv转换为json,结果存储至new.csv:运行以下命令
    csvjson data.csv > data.json
    
    • 统计csv中每一列的一些简单信息:运行以下命令
    csvstat data.csv
    
    - 数据类型Type of data: Number
    - 包含空值Contains null values:  False 
    - 唯一值数量Unique values: 200000 
    - 最小值Smallest value:  0
    - 最大值Largest value: 199999 
    - 和Sum:   19999900000
    - 平均数Mean:   99999.5
    - 中位数Median:  99999.5
    - 标准差StDev: 57735.171256
    - 常见值Most common values:  0 (1x);2 (1x);3 (1x) ;4 (1x)
    
    • 使用SQL语句查询,结果存储至new.csv:运行以下命令
    csvsql --query "select name from data where age > 30" data.csv > new.csv
    
    • 导入到数据库:运行以下命令
    csvsql --db postgresql:///database --insert data.csv
    
    • 从数据库提取数据,结果存储至new.csv:运行以下命令
    sql2csv --db postgresql:///database --query "select * from data" > new.csv
    

    csvkit进阶使用

    • 通过fips列来连接两个csv表,结果存储至joined.csv:运行以下命令
    csvjoin -c fips data1.csv data2.csv > joined.csv
    
    • 将data.csv中total_cost列进行降序排序,结果存储至new.csv:运行以下命令
    csvsort -c total_cost -r data.csv > new.csv
    
    • 将两个csv表合并,一般为列数和列名相同,结果存储至region.csv:运行以下命令
    csvstack data1.csv data2.csv > region.csv
    

    相关文章

      网友评论

          本文标题:数据处理 | csvkit安装与简单使用

          本文链接:https://www.haomeiwen.com/subject/dvwkvktx.html