Tweets数据清理报告

作者: RossH | 来源:发表于2019-04-14 23:55 被阅读0次

Tweets数据清理报告
2019-03-10 随笔3
项目构建过程
Kafka Connect-HDFS with Hive Int
D3.js 中，data绑定数据
八爪鱼数据采集器体验
欢迎来到成年人的世界
「经济学人」Old prejudice in new tweet
Elon Musk Aims to Send 1 Million
「经济学人」how a stroll in the park c

数据整理

收集

首先是收集各个数据集。将twitter-archive-enhanced.csv、image-predictions.tsv和tweet_json.txt加载为DataFrame。
其中image-predictions.tsv需要从网络上获取，用urllib.request的urlretrieve方法获取。
三个DataFrame分别命名为twitter_archive、image_predict和extra_data。

评估

目测评估

用肉眼分别观察三个数据集。首先是twitter_archive表，很明显可以看到列['in_reply_to_status_id', 'in_reply_to_user_id', 'retweeted_status_id', 'retweeted_status_user_id', 'retweeted_status_timestamp', 'doggo', 'floofer', 'pupper', 'puppo']都有很多空值（NaN或None）。
观察timestamp列，发现每个值后面都带有+0000，但这不是我们需要的。还有就是值是由日期加时间组成的，例如2017-07-30 15:58:51。在我看来应该拆分成两列，一列为date日期，一列为time时间。
接下来观察image_predict表，列名p1[2,3], p1[2,3]_conf,p1[2,3]_dog中p意义不明。应该写成predict更加意思明确的单词。
extra_data表目测评估没看出来问题。

编程评估

编程评估主要是用DataFrame的info()和describe()方法打印整体表格信息，然后用value_counts()方法打印单个字段信息，以及视情况用其它代码进行评估。以下为评估结果。

日期应该为datetime类型
数据中包含了转发的数据(retweeted_status_id非空)
rating_numerator和rating_denominator有三位数和四位数，且数据类型为int
考虑增加一列rating存放 $\frac{rating\_numerator}{rating\_denominator}$
source不需要标签和链接等，保留文本内容即可
name缺少部分数据，且有一些名字为a，an，the等
缺失值填充为None，没有被当成空值

最终结果

质量

twitter_archive table

column ['in_reply_to_status_id', 'in_reply_to_user_id', 'retweeted_status_id', 'retweeted_status_user_id', 'retweeted_status_timestamp', 'doggo', 'floofer', 'pupper', 'puppo'] 缺少数据
timestamp后面多了+0000
timestamp应该为datetime类型
数据中包含了转发的数据(retweeted_status_id非空)
rating_numerator和rating_denominator有三位数和四位数，且数据类型为int
考虑增加一列rating存放 $\frac{rating\_numerator}{rating\_denominator}$
source不需要标签和链接等，保留文本内容即可
name缺少部分数据，且有一些名字为a，an，the等
缺失值填充为None，没有被当成空值

整洁度

twitter_archive表中的timestamp应该拆分成两列date和time
image_predict字段名p1,p2,p3意义不明
extra_data的favorite_count和retweet_count应合入twitter_archive表格中
将image_predict和twitter_archive合并

清理

清理第一步是要将各个DataFrame备份好。然后再按照前面评估结果清洗数据。
首先是缺失值的处理。列['in_reply_to_status_id', 'in_reply_to_user_id', 'retweeted_status_id', 'retweeted_status_user_id', 'retweeted_status_timestamp', 'doggo', 'floofer', 'pupper', 'puppo']都有很多空值，其中['doggo', 'floofer', 'pupper', 'puppo']填充的是None，且宠物狗的地位数据未确定是否进行分析，暂时保留。而另外几列是不加入分析的，考虑丢弃掉。用drop()丢弃不要的列之后，再进行测试，看代码是否有效。后面的步骤都是类似，清洗后进行测试，知道都有这个步骤就行，后面不再赘述。
timestamp用切片舍弃+0000，保留日期和时间。
用str.split将timestamp拆分成两列date和time，然后用drop删除timestamp列。
用to_datetime将列date的类型转换成datetime类型。time保持字符串（object类型），后面方便提取数据。
过滤retweeted_status_id非空的行，将转发的数据都过滤掉，然后丢弃retweeted_status_id
将rating_numerator和rating_denominator转换成正确的数字，且数据类型改为float
计算 $\frac{rating\_numerator}{rating\_denominator}$ 并存到新列rating
用str.extract提取并保留source的文本内容
用replace将name列中的a,an等不是名字的单词替换成np.NaN
用replace方法将所有None替换成np.NaN
用replace将p1,p2,p3改为predict1,predict2,predict3
用merge将twitter_archive、image_predict和extra_data三表合并

再评估

经过前面的数据清洗之后，需要再进行一次评估，确保数据是干净的。结果发现合并完的数据集还有三个数据质量问题。

质量

关于狗的地位的信息只有317条，远小于总条数
name缺失过多数据
source应该为category类型

再清理

从text中提取狗的地位存放到stage，然后删掉4列狗的地位
从text中提取狗的名字
用astype将source的数据类型换成category

最后的检查

最后再检查一下，发现从text提取狗狗地位的时候，空值并不是np.NaN。所以需要将狗的地位为空的记录替换成np.NaN

保存

最终用pandas.to_csv保存为csv文件。也可以选择保存为Excel文件或者保存到数据库。

Tweets数据清理报告
数据整理收集首先是收集各个数据集。将twitter-archive-enhanced.csv、image-pr...
2019-03-10 随笔3
冥想 Tweets
项目构建过程
企业级的项目:清理-->编译-->测试-->报告-->打包-->部署数据层-->服务层-->Dao层-->数据库层
Kafka Connect-HDFS with Hive Int
我创建了一个pipeline，如下所示：（1）将tweets流数据写入Kafka的topic（2）Confl...
D3.js 中，data绑定数据
使用数据文件：tweets.json 首先先导入文件，并将文件数据存入变量Data_中。（但是因为导入方法是异步方...
八爪鱼数据采集器体验
数据分析流程： 1、确定流程2、数据收集3、数据清理4、数据分析5、数据报告6、执行与反馈想要做好对数据的一系列...
欢迎来到成年人的世界
'###Welcome To Adulthood' Tweets That Sum Up Life As A Gr...
「经济学人」Old prejudice in new tweet
Old prejudice in new tweets Anti-Semitism and the Democra...
Elon Musk Aims to Send 1 Million
In a series of tweets, Elon Musk revealed new details abo...
「经济学人」how a stroll in the park c
Daily chart Tweets show how a stroll in the park can brin...

Tweets数据清理报告

数据整理

收集

评估

目测评估

编程评估

最终结果

质量

整洁度

清理

再评估

质量

再清理

最后的检查

保存

相关文章

Tweets数据清理报告

2019-03-10 随笔3

项目构建过程

Kafka Connect-HDFS with Hive Int

D3.js 中，data绑定数据

八爪鱼数据采集器体验

欢迎来到成年人的世界

「经济学人」Old prejudice in new tweet

Elon Musk Aims to Send 1 Million

「经济学人」how a stroll in the park c

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读