最近开始学习python,这里就作为学习记录,记录自己的python之路。
本条爬虫爬取的是糗事百科的24小时热门里面的,作者,内容,以及点赞数目。使用的是python3,以及requests和bs4里面的BeautifulSoup。代码如下:
import requests
from bs4 import BeautifulSoup
def trade_spider(max_page):
page = 1
while page <= max_page:
url = 'http://www.qiushibaike.com/hot/page/' + str(page)
source_code = requests.get(url)
plain_text = source_code.text
soup = BeautifulSoup(plain_text, 'html.parser')
for content in soup.findAll('div', {'class': 'article block untagged mb15'}):
author = content.h2.string
detail = content.find('div', {'class': 'content'}).get_text()
like = content.i.string
with open('duanzi.txt', 'a') as file:
file.write(author + '\n')
file.write(detail + '\n')
file.write(like + '\n')
file.write('=*=' * 50 + '\n')
page += 1
trade_spider(1)
输出结果:
子小祎
老妈和二姨用手机视频聊天,听到二姨在那边说:“信号不好,光能看到你嘎巴嘴,听不着声儿”。老爸在一旁很淡定的说:“不是信号不好,她在那吃东西呢,没说话”。老爸太跟得上节奏了!
2191
==============================================
⌒oOㄣ先聖遺風の
这画我给满分
2410
===============================================
moomer
记得上学的时候每天骑自行车,我总是不带车锁。我爸老是提醒我把车锁上,还说一定一定要把车锁好,我问他为什么,他说怕我丢车。到后来,我问我妈这件事情,我妈说:“你爸上学的时候就是个偷车的…”
4471
===============================================
好客山东人民
老婆买了一袋大米,用电动车驮回家后才发现米袋子一角烂了个口子,在路上已经漏了许多大米。儿子赶紧走到门外,看着电动车刚才行驶的轨迹,自言自语说:这就是传说中的米线吧!7265
===============================================*
可以修改max_page来达到爬取多页面的效果。
网友评论