我有看到一个博文是有用python对当当图书进行爬取并做一个简单的数据分析,最后有一个可视化的数据展示。
简单的数据采集小案例尝试一下下。
载入地址采集的第一页数据只需要标题和标题的一个地址,主要考虑的是进入图书详情页的具体数据统计分析。
为了时间缩短,可以清晰的看到是正在爬取,这边也在截图并进行文字编辑,目前主要考虑的是看一下哪一家出版社的占比较高,没有进行全方位数据获取,所以做一个微观。全站获取结果必然不会相像。
采集的完整数据字段
搞定收官,你可以清晰看到消灭不需要存在的冗余类:出版时间、大小分类、价格、评分、字数为主要的分析预留数据(采集格式或者是整理有误,缺失的就缺失了只跑流程)。
出版时间近三年占比较高。
考虑做一个图书标签可视化词云,大分类或许太过于宏观模糊只尝试图书标签
清除特殊符号保存为文本文档,保存格式为ANSI不然分词会有乱码,之前有讲过的哈。
用ROST来做分词,左上角功能性分析有分析“字频”和“词频”。
路径没问题点击确定会把统计的词频自动导出到文本文档。
ROST顶部工具栏有一个可视化分析打开选择路径。
很棒棒的哟!
表格中间有价格和评分因为时间就略略略吧!
图书出版社统计还是用wps的数据透视。
我印象当中前三家图书出版社,三家公司的公司地址都是北京的
好啦,更多的思路也或许是各种工具功能的实现尝试。
网友评论