美文网首页
数据处理 | csvkit安装与简单使用

数据处理 | csvkit安装与简单使用

作者: 水土七口刀 | 来源:发表于2020-11-01 17:37 被阅读0次

_文{}_\equiv{}_{\nabla \Delta \nabla \Delta \nabla \Delta} {}^{皮}{}_{实}{}^{乐}{}_{观} {}^思_考 {}^有{}_{人^{生}}{}^{才_{有}}{}_{精^{彩}}
{}^{\star\star}{}^\equiv{}^{水土七口刀} {}_{生}{}^{活}{}_{阅}{}^{读} {}^运_动 {}_有{}^{兴_{趣}}{}_{才^{有}}{}^{人_{生}}


【走在成长的路上】总纲

csvkit安装

  • 使用pip安装:运行以下命令
sudo pip install csvkit
  • 在wsl使用pip安装,经测试不能正常识别,故使用apt安装:运行以下命令
sudo apt install csvkit

csvkit使用

  • 将excel文件转换为csv:运行以下命令
in2csv data.xls > data.csv 
  • 将json文件转换为csv:运行以下命令
in2csv data.json > data.csv
  • 屏幕打印csv列名:运行以下命令
csvcut -n data.csv
  • 从data.csv获取由column_a,column_c两列构成的子文件new.csv:运行以下命令
csvcut -c column_a,column_c data.csv > new.csv
  • 重新排列csv列,将顺序由1/2/3变为3/2/1,结果存储至new.csv:运行以下命令
csvcut -c column_3,column_2,column_1 data.csv > new.csv
  • 获得列column_3中与字符串abc(可用正则表达式)匹配的行,结果存储至new.csv:运行以下命令
csvgrep -c column_3 -r "abc" data.csv > new.csv
  • 将csv转换为json,结果存储至new.csv:运行以下命令
csvjson data.csv > data.json
  • 统计csv中每一列的一些简单信息:运行以下命令
csvstat data.csv
- 数据类型Type of data: Number
- 包含空值Contains null values:  False 
- 唯一值数量Unique values: 200000 
- 最小值Smallest value:  0
- 最大值Largest value: 199999 
- 和Sum:   19999900000
- 平均数Mean:   99999.5
- 中位数Median:  99999.5
- 标准差StDev: 57735.171256
- 常见值Most common values:  0 (1x);2 (1x);3 (1x) ;4 (1x)
  • 使用SQL语句查询,结果存储至new.csv:运行以下命令
csvsql --query "select name from data where age > 30" data.csv > new.csv
  • 导入到数据库:运行以下命令
csvsql --db postgresql:///database --insert data.csv
  • 从数据库提取数据,结果存储至new.csv:运行以下命令
sql2csv --db postgresql:///database --query "select * from data" > new.csv

csvkit进阶使用

  • 通过fips列来连接两个csv表,结果存储至joined.csv:运行以下命令
csvjoin -c fips data1.csv data2.csv > joined.csv
  • 将data.csv中total_cost列进行降序排序,结果存储至new.csv:运行以下命令
csvsort -c total_cost -r data.csv > new.csv
  • 将两个csv表合并,一般为列数和列名相同,结果存储至region.csv:运行以下命令
csvstack data1.csv data2.csv > region.csv

相关文章

网友评论

      本文标题:数据处理 | csvkit安装与简单使用

      本文链接:https://www.haomeiwen.com/subject/dvwkvktx.html