美文网首页
图书畅销榜,做可视化数据分析

图书畅销榜,做可视化数据分析

作者: 一个黑客创业者 | 来源:发表于2022-12-05 11:34 被阅读0次

    我有看到一个博文是有用python对当当图书进行爬取并做一个简单的数据分析,最后有一个可视化的数据展示。

    简单的数据采集小案例尝试一下下。

    载入地址采集的第一页数据只需要标题和标题的一个地址,主要考虑的是进入图书详情页的具体数据统计分析。

    为了时间缩短,可以清晰的看到是正在爬取,这边也在截图并进行文字编辑,目前主要考虑的是看一下哪一家出版社的占比较高,没有进行全方位数据获取,所以做一个微观。全站获取结果必然不会相像。

    采集的完整数据字段

    搞定收官,你可以清晰看到消灭不需要存在的冗余类:出版时间、大小分类、价格、评分、字数为主要的分析预留数据(采集格式或者是整理有误,缺失的就缺失了只跑流程)。

    出版时间近三年占比较高。

    考虑做一个图书标签可视化词云,大分类或许太过于宏观模糊只尝试图书标签

    清除特殊符号保存为文本文档,保存格式为ANSI不然分词会有乱码,之前有讲过的哈。

    用ROST来做分词,左上角功能性分析有分析“字频”和“词频”。

    路径没问题点击确定会把统计的词频自动导出到文本文档。

    ROST顶部工具栏有一个可视化分析打开选择路径。

    很棒棒的哟!

    表格中间有价格和评分因为时间就略略略吧!

    图书出版社统计还是用wps的数据透视。

    我印象当中前三家图书出版社,三家公司的公司地址都是北京的

    好啦,更多的思路也或许是各种工具功能的实现尝试。

    相关文章

      网友评论

          本文标题:图书畅销榜,做可视化数据分析

          本文链接:https://www.haomeiwen.com/subject/wbkvfdtx.html