美文网首页Python GUIpython_pycham
利用Python简单的爬取百度新闻

利用Python简单的爬取百度新闻

作者: 9ba4bd5525b9 | 来源:发表于2019-03-25 15:17 被阅读95次

    前言

    要抓取新闻,首先得有新闻源,也就是抓取的目标网站。国内的新闻网站,从中央到地方,从综合到垂直行业,大大小小有几千家新闻网站。百度新闻收录的大约两千多家。那么我们先从百度新闻入手。

    基本环境配置

    版本:Python3

    系统:Windows

    相关模块:

    import re

    import time

    import requests

    import tldextract

    流程比较简单:

    完整代码

    简单解释一下上面的代码:

    1. 使用requests下载百度新闻首页;

    2. 先用正则表达式提取a标签的href属性,也就是网页中的链接;然后找出新闻的链接,方法是:假定非百度的外链都是新闻链接;

    3. 逐个下载找到的所有新闻链接并保存到数据库;保存到数据库的函数暂时用打印相关信息代替。

    4. 每隔300秒重复1-3步,以抓取更新的新闻。

    以上代码能工作,但也仅仅是能工作,槽点多得也不是一点半点。

    相关文章

      网友评论

        本文标题:利用Python简单的爬取百度新闻

        本文链接:https://www.haomeiwen.com/subject/autbvqtx.html