美文网首页
python爬虫问题

python爬虫问题

作者: 代瑶 | 来源:发表于2021-03-24 14:40 被阅读0次

关于爬虫 一定要谨记两点. 1 不能对爬取对象进行攻击类型的抓取数据, 如果抓取数据导致对方服务器卡顿并且死机,这就有法律风险了 2. 不将爬取的数据用于商业用途, 自己玩一玩可以,或者整理抓取数据整理资料. 但是不能用于二次售卖等盈利用途

1 requests_html

from requests_html import HTMLSession
requests_html 模块可以帮助我们抓取js渲染的数据.

session = HTMLSession()
r = session.get(url)
r.html.render()

第一次会start chromium download 如果提示urllib3.exceptions.MaxRetryError: HTTPSConnectionPool(host='storage.googleap

打开命令行pip3 install -U "urllib3<1.25"

参考用法:

 session = HTMLSession()
 r = session.get(url)
 html = r.html
 html.render()
 html.xpath('//a[xx]/@rel')

2 requests

import requests
requests 模块帮我们抓取的是静态数据,网页右键查看源码能看到的东西

3 对于xpath的一些用法

https://www.w3school.com.cn/xpath/index.asp
咋得一看感觉很难, 其实我们常用的属性也就那么几个罢了,
//全局模式匹配
/下一级
a[@class="xx"] a标签并且class 是xx的属性
a[@class="xx"]/text a标签并且class 是xx的属性的内容123 例如<a class="xx">123</a>
a[@class="xx"]/@herf a标签的href属性 例如 <a class="xx" href="www.baidu.com">123</a>
a[@class="xx"][not(@id)]/@href class 是xx并且没有id的a标签

相关文章

网友评论

      本文标题:python爬虫问题

      本文链接:https://www.haomeiwen.com/subject/geoocltx.html