第五课 Python爬虫抓取新浪新闻的内容页

第五课 Python爬虫抓取新浪新闻的内容页

作者: DYBOY | 来源:发表于2017-09-06 15:12 被阅读152次

第五课 Python爬虫抓取新浪新闻的内容页
Python爬虫：抓取新浪新闻数据
大数据告诉你知乎上的帅哥美女都集中在哪个行业（附Python代码
利用jsoup爬取NBA官方网站新闻
Python实用练手小案例
Python爬虫：新浪新闻详情页的数据抓取（函数版）
Python抓取新浪新闻数据
用Python写爬虫，来来来，你也能学会
js爬虫，正则
Python爬虫之初体验

内容页结构：

以这篇文章为例子：

http://news.sina.com.cn/c/2017-09-05/doc-ifykpzey4568845.shtml

因为简短，方便观看演示：

GET请求：

http://news.sina.com.cn/c/2017-09-05/doc-ifykpzey4568845.shtml

现在的代码：

抓取标题：

title = soup.select('#artibodyTitle')[0].text

抓取时间：

涉及到拆分的过程：

.contents的用法：

拆分成两个部分

.strip()的用法：

移除特殊字符

时间格式转化：

from datetime import datetime

字符串转时间：----strptime

Dt = datetime.strptime(timesource,’%Y年%m月%d日%H:%M’)

Dt

这样我们就可以将数据转化并以正确的格式存储到数据库。

时间转字符串：

Dt.strftime(‘%Y-%m-%d’)

抓取文章来源：

source = soup.select('.time-source span a')[0].text

抓取文章正文：

正文抓取去除最后的“责任编辑”

后缀加上[:-1]即可：

article = soup.select('#artibody p')[:-1]

为了将所有的文字内容合并：

去除‘\u3000’,只需要使用.strip()

.join()合并列表为字符串：

上图是以一个空格连接内容

至此代码：

article = []

for p in soup.select('#artibody p')[:-1]:

article.append(p.text.strip())

articles = ' '.join(article)

print(articles)

说明：

为啥搞得那么复杂，其实是为了大家更充分理解各种正则操作，在实际的抓取网页时，一般是会将HTML标签等一同抓取。

更简单的写法：

获取作者：

editor = soup.select('.article-editor')[0].text.lstrip('责任编辑：')

移除责任编辑：

.strip(‘责任编辑：’)

或者：lstrip('责任编辑：')

获取评论数：

按照常规方法：

结果为空？

想到评论数可能是JavaScript动态加载的！

通过开发者工具找到：

http://comment5.news.sina.com.cn/page/info?version=1&format=js&channel=gn&newsid=comos-fykpzey4568845&group=&compress=0&ie=utf-8&oe=utf-8&page=1&page_size=20&jsvar=loader_1504672931680_10534041

分析URL，将改为：

http://comment5.news.sina.com.cn/page/info?version=1&format=js&channel=gn&newsid=comos-（文章id）&group=&compress=0&ie=utf-8&oe=utf-8&page=1&page_size=20

如何获取新闻id：

#url处理

newsurl = 'http://news.sina.com.cn/c/2017-09-05/doc-ifykpzey4568845.shtml'

newsid = newsurl.split('/')[-1].rstrip('.shtml').lstrip('doc-')

print(newsid)

或者re正则表达：

JSON数据解析获取评论数量：

comments = requests.get('http://comment5.news.sina.com.cn/page/info?version=1&format=js&channel=gn&newsid=comos-fykpzey4568845&group=&compress=0&ie=utf-8&oe=utf-8&page=1&page_size=20')

jd = json.loads(comments.text.strip('var data='))

print(jd['result']['count']['total'])

整理如下：

注：本文属于原创文章，创作不易，转载请注明本文地址！

作者QQ:1099718640

CSDN博客主页：http://blog.csdn.net/dyboy2017

Github开源项目：https://github.com/dyboy2017/spider

相关文章

第五课 Python爬虫抓取新浪新闻的内容页
内容页结构：以这篇文章为例子： http://news.sina.com.cn/c/2017-09-05/doc...
Python爬虫：抓取新浪新闻数据
案例一抓取对象：新浪国内新闻（http://news.sina.com.cn/china/），该列表中的标题名...
大数据告诉你知乎上的帅哥美女都集中在哪个行业（附Python代码
近段时间小楚在研究Python在量化投资的应用，顺带发现了Python的爬虫功能真的是非常强大，抓取微博、新浪新闻...
利用jsoup爬取NBA官方网站新闻
抓取NBA图片新闻有很多种方式，最常见用Python做爬虫较多。本文介绍用Java来抓取网页内容，用到的工具：js...
Python实用练手小案例
抓取网页信息，并生成txt文件内容！Python抓取网页技能——Python抓取网页就是我们常看见的网络爬虫，我们...
Python爬虫：新浪新闻详情页的数据抓取（函数版）
详情页抓取的6个数据：新闻标题、评论数、时间、来源、正文、责任编辑。首先，我们先将评论数整理成函数形式表示：第...
Python抓取新浪新闻数据
爬取前的准备： BeautifulSoup的导入：pip install BeautifulSoup4 reque...
用Python写爬虫，来来来，你也能学会
Python Python爬虫，一般用于抓取特定的内容，最近想学学，通过网络抓取自己想要的内容。案例程序主要功能：...
js爬虫，正则
Python爬虫学习，记一次抓包获取js，从js函数中取数据的过程昨天有小伙伴找我，新浪新闻的国内新闻页，其他部...
Python爬虫之初体验
Python爬虫，一般用于抓取特定的内容，最近想学学，通过网络抓取自己想要的内容，于是乎学习了一下Python，用...

网友评论

cemcoe:如果能把github里的教程文档用markdown写下可能会更好😀，doc无法预览很麻烦
DYBOY:doc不可以下载吗？

本文标题：第五课 Python爬虫抓取新浪新闻的内容页

本文链接：https://www.haomeiwen.com/subject/opfvjxtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

菜鸟学Python

热点阅读

菜鸟学Python

程序员

爬虫专题

关于我们|服务条款|联系我们|第五课 Python爬虫抓取新浪新闻的内容页|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！