美文网首页
requests、xpath使用-简单爬虫入门

requests、xpath使用-简单爬虫入门

作者: 小全的学习笔记 | 来源:发表于2020-04-06 18:06 被阅读0次
例子:本文使用requests、xpath库模拟爬取糗事百科的段子内容。
导入爬虫时所用的库
import requests  #导入requests 库
from lxml import etree  # 导入lxml 
建立user-agent(用户代理):,模拟浏览器访问。
headers = {'user-agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.1 (KHTML, like Gecko) Chrome/14.0.835.163 Safari/535.1'}
单页数据爬取和多页数据爬取
#爬取单页内容
url='https://www.qiushibaike.com/hot/'
r= requests.get(url,headers=headers,timeout=20).text  #使用get方法获取数据,timeout:设置设定秒数结束之后停止等待响应
s= etree.HTML(r)
xiaohua=s.xpath('//a[1]/div/span/text()')

#爬取多页内容
for page in range(9):#定义页数为9。
  r=requests.get('https://www.qiushibaike.com/hot/page/{}/'.format(page),headers=headers,timeout=100).text
  s= etree.HTML(r)
  xiaohua=s.xpath('//a[1]/div/span/text()')

爬取后导入txt文件中

with open ('xiaohua.txt','w',encoding='utf-8')as f:
    for i in xiaohao:
        f1.write(i)

爬取后导入到CSV文件中

import pandas as pd  #导入pandas库
b1=pd.DataFrame(xiaohua)#需将list内容先转化为DataFrame类型
b1.to_csv('xiaohua.csv')

本文仅做学习专用,未做商业活动,如有侵权,请联系删除

相关文章

网友评论

      本文标题:requests、xpath使用-简单爬虫入门

      本文链接:https://www.haomeiwen.com/subject/ninbphtx.html