项目实战，蛮适合新手小白的案例

项目实战，蛮适合新手小白的案例

作者: 78c40b03ee4e | 来源:发表于2019-03-14 15:28 被阅读175次

项目实战，蛮适合新手小白的案例
UINavigationController封装
[vue最新实战] gank客户端（vue2 + vue-rou
内核编译(Linux源码研习，项目实战)
Vue 入门到实战课程
10给新手的极简股票课
对于出入门槛的Web前端工程师来说，切记这几点这会影响你的编程生
适合新手小白的网赚项目——有米日记
每天赚个零花钱的小项目
新手小白通过卖动漫手办月入10000+

前言

Python 的知识很多，基本的入门就有很多东西要学，还有各种合样的库要学习。很多同学学了一段时间，进展很慢，学了前面忘了后面！今天我就给大家介绍一个非常简单的爬虫小例子，来综合练习，非常不错！

1.爬取的目标

我们这次选择一个比较好玩的网站叫"好奇心日报",里面的内容非常有趣，而且图片都是高清，非常漂亮，今天我们就探索一下好奇心日报的爬取。

2.准备工作

前期需要对这个网站进行简单的分析，网页的结构，源码的查看，有无反爬策略等等。

1）第一步是发现好奇心日报的文章地址编码是按数字递增的，例如：http://www.qdaily.com/articles/38425.html

2）截止今天，好奇心日报的文章编码已经从1到55613了，共5万篇文章。

3）然后我发现文章的标题，分享数和文章发布日期都写死在页面里，但是评论数不在页面中。

4）为了找到评论数，我使用谷歌浏览器的F12的 network 功能，发现了评论是通过json 数据获得的，地址类似：http://www.qdaily.com/comments/article/38425/0.json 。

5）看到 json 的数据自带评论，于是我顺便把评论的内容也爬下来了，顺便做一个评论的词云

小编推荐一个学python的学习qun 740,3222,34
无论你是大牛还是小白，是想转行还是想入行都可以来了解一起进步一起学习！裙内有开发工具，很多干货和技术资料分享！

3.主体代码

1）先创建数据库

数据库我们用选择最最简单的 sqlite3 ,这个数据非常适合小白入门。这个库的详细用法。

用一个类QDaily_DB来专门处理db的创建，保存和关闭.上面的代码是创建部分：

1）创建一个数据库名字叫qdaily.db,里面分布建2张表
2）一张表qdality用来保存好奇心日报的id,标题,点赞分享数，日期和评论数
3）一张表comments用来保存好奇心日报的id和每一条评论的内容

2）网页爬取

网页的爬取，我们这里并没有用什么高深的库和爬虫框架，用简单的requests+bs4的组合，这一个一套比较适合小白上手的库，也没有用并发框架。

1).网页的下载

前面说了，好奇心日报的url的规则已经找到，只要一个一个解析就行！

我们输入一个id,来构造一个url,然后把这个url填入到requests中解析即可。
注意编码方式，获得页面的内容html_content，然后把详细的html_content内容填入parse_html类函数中进行详细处理.
为了防止出现爬取异常，一定要加入try/except和finally这样的异常保护

3).页面的解析和评论内容的获取

下面就是这个项目稍微难有点的地方，需要用BeautifulSoup来详细解析页面的内容。

评论区的内容稍微有一点点的复制，需要用构造一个header取获取，直接解析页面无法获取。

我们用两个简单数据结构，一个是primary_data这个可以是列表，元组或者字典，这是一种数据结构，用来保存我们爬取获得每一篇文章的id,日期，标题等等。另外一个是 comments_data用来存放评论区的内容，然后返回即可。

04：数据存入数据库

前面我们有一个类QDaily_DB,用了创建的类函数，现在用它的save_db函数来把数据入库。

sqlite的操作非常简单，用的也是SQL的语法，上手来说非常方便。我们用insert语句动态插入数据，然后execute去执行，最后不要忘记commit!

05.：数据的展示

爬完5万篇文章用了快一天，虽然多线程可以加快速度，但我采用单线程减轻好奇心日报服务器的压力，先是根据文章分享数排序：

然后是根据文章的评论数排序：

06：好奇心日报文章id与评论数的关系

感觉好奇心日报用的人越来越多了，那么随着id的增加，文章的平均评论数应该也会增加。

可以看出越到后面，平均每篇文章的分享数就越多，反映出好奇心日报的用户数变多

07：根据评论生成词云

用matplotlib和wordcloud库生成一个词云评论图，看看哪些关键字比较集中！

生成的词云结果如下

发现评论比较多的是"哈哈哈"，"是的"，"呵呵","谢谢"这样的短口语词汇。整个这个实战小例子还是非常有趣的，从数据爬取-数据入库，数据分析和词云，一条龙服务，还是非常值得去试试，对初学者强化基础知识，入门比较有帮助。

相关文章

项目实战，蛮适合新手小白的案例
前言 Python 的知识很多，基本的入门就有很多东西要学，还有各种合样的库要学习。很多同学学了一段时间，进展很慢...
UINavigationController封装
UINavigationController的项目实战中的封装笔记,<适合新手> 我们在iOS项目中基本上是躲...
[vue最新实战] gank客户端（vue2 + vue-rou
vue-meizi 本项目是基于vue2最新实战项目，是适合新手进阶的绝佳教程。代码简单易懂，注释多多。实现了移动...
内核编译(Linux源码研习，项目实战)
Linux源码研习，项目实战项目自主实战：自己实现的网卡上面测试c1000k案例。项目一：Linux内核编译 ...
Vue 入门到实战课程
Vue 入门到实战课程说明课程 VueCli3.0-小白入门 Vue2.0 小白入门教程 Vue 项目实战在...
10给新手的极简股票课
lip师兄的给新手的极简股票课，很适合小白
对于出入门槛的Web前端工程师来说，切记这几点这会影响你的编程生
几天在Codpen上面看到一份案例，觉得这个最适合小白。所以把这份案例Copy下来与小白分享其中小白在学CSS中所...
适合新手小白的网赚项目——有米日记
随着科技越来越发的，信息变得越来越值钱。而通过网络来创业的也越来越多，各种项目都接踵而来。虽然我不是职业网赚...
每天赚个零花钱的小项目
小项目适合新手操作的项目很多，线下的做家教、地推、电话销售，线上的自媒体、无货源店铺等等都适合新手操作。很多人在...
新手小白通过卖动漫手办月入10000+
上次说过这个手办的项目操作，今天就给大家分享一个新手小白（小Z）怎样通过在网上卖动漫手办的案例，大家可以看看他的玩...

网友评论

本文标题：项目实战，蛮适合新手小白的案例

本文链接：https://www.haomeiwen.com/subject/guzqmqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

python交流学习

热点阅读

虫虫

python交流学习

关于我们|服务条款|联系我们|项目实战，蛮适合新手小白的案例|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！