由于这是后来补上的博客,时间已经记不清楚了,在这里就不做记录了
进程 | 主要任务 | 相关博客 | 备注 |
---|---|---|---|
第一阶段 | 获取已知的名人 | 《从names.org网站获取英文名人》、《python中的代理问题》 | 大约有9万6千个姓氏,利用手上这9万6千个姓氏进行9万6千次爬取 |
第二阶段 | 获取名人的简介 | 《从百度百科中获取名人数据》 | 第一爬取到的名人大概18万,利用百度百科JSON获取名人简介信息,最后得到的数据大概7千条 |
第三阶段 | 数据清洗 | 《数据清洗--一把辛酸泪》 | 对已有数据进行一个清洗、整理 |
网友评论