关于爬虫 一定要谨记两点.
1 不能对爬取对象进行攻击类型的抓取数据, 如果抓取数据导致对方服务器卡顿并且死机,这就有法律风险了 2. 不将爬取的数据用于商业用途, 自己玩一玩可以,或者整理抓取数据整理资料. 但是不能用于二次售卖等盈利用途
1 requests_html
from requests_html import HTMLSession
requests_html 模块可以帮助我们抓取js渲染的数据.
session = HTMLSession()
r = session.get(url)
r.html.render()
第一次会start chromium download 如果提示urllib3.exceptions.MaxRetryError: HTTPSConnectionPool(host='storage.googleap
打开命令行pip3 install -U "urllib3<1.25"
参考用法:
session = HTMLSession()
r = session.get(url)
html = r.html
html.render()
html.xpath('//a[xx]/@rel')
2 requests
import requests
requests 模块帮我们抓取的是静态数据,网页右键查看源码能看到的东西
3 对于xpath的一些用法
https://www.w3school.com.cn/xpath/index.asp
咋得一看感觉很难, 其实我们常用的属性也就那么几个罢了,
//
全局模式匹配
/
下一级
a[@class="xx"]
a标签并且class 是xx的属性
a[@class="xx"]/text
a标签并且class 是xx的属性的内容123 例如<a class="xx">123</a>
a[@class="xx"]/@herf
a标签的href属性 例如 <a class="xx" href="www.baidu.com">123</a>
a[@class="xx"][not(@id)]/@href
class 是xx并且没有id的a标签
网友评论