日常处理数据时会使用Stata、Python和R,但疏于梳理总结,常会犯迷糊或是忘记命令。趁着学校尚未允许返校,有着整块时间可做小结,边干边精进。
由于各软件命令众多,以下仅为自己常用的一些,欢迎大家补充和交流~
友情提示:命令参数比较多,建议大家使用时多看帮助文档,添加合适的参数。
使用Stata、Python、R导入数据时要确保数据文件在当前工作路径下,否则就要把文件所在路径+文件名称告诉电脑,具体查看方式是“右键点击数据文件→属性→安全→对象名称”。
一、Stata
(一)数据导入
*1.读取dta文件
*1.1系统自带
sysuse abc, clear
*1.2电脑已有文件
use abc.dta, clear
*1.3从网络中获取数据
webuse abc.dta, clear
*2.读取txt文件
import delimited using abc.txt, clear
*3.读取csv文件
import delimited using abc.csv, clear
*4.读取xls、xlsx文件
import excel using abc.xls, clear
使用以上命令读入数据时,常会遇到乱码问题,此时需要根据数据情况指定编码,常见的编码有utf-8,gb2312、gb18030等。
(二)数据导出
*1.导出dta文件
save abc.dta
*2.导出txt文件
export delimited using abc.txt
*3.导出csv文件
export delimited using abc.csv
*4.导出xls、xlsx文件
export excel using abc.xls
二、Python
(一)数据导入
#1.读取txt文件
import pandas as pd
data = pd.read_csv('abc.txt', sep = 'xxx', encoding = 'xxx')
#2.读取csv文件
import pandas as pd
data = pd.read_csv('abc.csv', sep = 'xxx', encoding = 'xxx')
#3.读取xls、xlsx文件
import pandas as pd
data = pd.read_xlsx('abc.csv', sep = 'xxx', encoding = 'xxx')
#4.读取dta文件
import pandas as pd
data = pd.read_stata('abc.dta')
通常使用pandas库来读取文件,参数中sep指的是文本分割方式,encoding指的是编码方式。此外,当文件路径含中文时,需要添加参数
(二)数据导出
#1.导出txt文件
import pandas as pd
data = pd.to_csv('abc.txt')
#2.导出csv文件
import pandas as pd
data = pd.to_csv('abc.csv')
#3.导出xls、xlsx文件
import pandas as pd
data = pd.to_xlsx('abc.xlsx')
#4.导出dta文件
import pandas as pd
data = pd.to_stata('abc.dta')
三、R
(一)数据导入
#1.读取txt文件
data <- read.table("abc.txt")
#2.读取csv文件
data <- read.csv("abc.csv")
#3.读取xls、xlsx文件
library(xlsx)
data <- read.xlsx("abc.xls")
(二)数据导出
#1.导出txt文件
data <- write.table("abc.txt")
#2.导出csv文件
data <- write.table("abc.txt")
#3.导出xls、xlsx文件
library(xlsx)
data <- write.xlsx("abc.xls")
数据导入与导出.png
网友评论