美文网首页
python爬虫——糗事百科段子

python爬虫——糗事百科段子

作者: 小黑大大 | 来源:发表于2016-08-30 11:17 被阅读0次

# -*- coding: utf-8 -*-
import re      # re模块使 Python 语言拥有全部的正则表达式功能。
import requests  # 主要用于接收客户端发送而来的请求信息,客户端的请求信息被封装在request对象中
import html    # 用来解 析html的模块。它可以分析出html里面的标签、数据等等
import time    # 时间处理有关的模块def crawl_joke_list(page=1):
res = requests.get("http://www.qiushibaike.com/text/page/" + str(page)) # get方式提取URL信息
body = html.unescape(res.text).replace("
", "\n")      # 特殊转义字符转换 换行替换成\n
pattern = re.compile("<
div class="article block untagged mb15.*?<div class="content">.*?</div>", re.S)
#compile()函数会把一个表达式字符串转化成为一个RegexObject re.S连换行符都匹配
m = re.findall(pattern,body)          # re.findall(条件,内容)字符串正则匹配 ---------重点
user_pattern = re.compile("<
div class="author clearfix">.*?<h2>(.*?)</h2>", re.S)
# 抽取用户名的正则
content_pattern = re.compile("<
div class="content">(.*?)</*div>", re.S)
*# 抽取段子的正则
for joke in m:
user = user_pattern.findall(joke)# 提取用户名
output = []
if len(user) > 0:
output.append(user[0])# 把user数组里的第一个用户名加到output数组里
content = content_pattern.findall(joke)#提取段子
if len(content) > 0:
output.append(content[0].replace("\n", ""))
# 把content数组里的第一个用户名加到output数组里 并把换行去掉
print("
\t\t\t".join(output))
*# join() 方法用于将序列(数组)中的元素以指定的字符连接生成一个新的字符串
time.sleep(1)
if name == 'main':
for i in range(1, 36):
crawl_joke_list(i)

第一个爬虫.PNG

相关文章

  • Python爬虫实战

    注:采转归档,自己学习查询使用 Python爬虫实战(1):爬取糗事百科段子Python爬虫实战(2):百度贴吧帖...

  • python 3  爬糗事百科

    python 3 爬糗事百科(来源Python爬虫学习,实战一糗事百科(2017/7/21更新)) 关于head...

  • 爬虫学习之糗事百科

    ''' ''' 糗事百科爬虫 1.抓取糗事百科段子 2.过滤带有图片的段子 3.实现每按一次回车键显示一个段子的发...

  • python3爬虫演练-糗事百科

    今天的想的是加强一下python3爬虫的技巧,以爬糗事百科的段子作为练习目标,以下是爬虫经历。 1.导包 主要导两...

  • Python爬虫小实例

    爬虫糗事百科第一页的段子 import requests import re def comenzar(): ...

  • python爬虫——糗事百科段子

    # -*- coding: utf-8 -*-import re # re模块使 Python 语言拥有全部的正则...

  • 糗事百科爬虫

    糗事百科爬虫-爬取段子 【参考资料】 博主 http://cuiqingcai.com/1052.html

  • Python爬虫教程一爬取糗事百科段子

    这次为大家带来,Python爬取糗事百科的小段子的例子。 首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一...

  • Python 爬虫实战 -- 糗事百科段子

    早上起来闲来无事做,莫名其妙的就弹出了糗事百科的段子,转念一想既然你送上门来,那我就写个爬虫到你网站上爬一爬吧,一...

  • Python网络爬虫之爬取糗事百科案例

    项目说明 使用Python写网络爬虫之糗事百科示例 使用工具 Python2.7.X、pycharm 使用方法 在...

网友评论

      本文标题:python爬虫——糗事百科段子

      本文链接:https://www.haomeiwen.com/subject/xfmfettx.html