python爬虫问题

作者: 代瑶 | 来源:发表于2021-03-24 14:40 被阅读0次

python爬虫解决网页重定向问题
Python爬虫实战之爬取链家广州房价_03存储
3分钟带你了解世界第一语言Python 入门上手也这么简单！
python获取页面代码中文乱码
Python网络爬虫（八） - 利用有道词典实现一个简单翻译程序
Python网络爬虫（七）- 深度爬虫CrawlSpider
Python网络爬虫（二）- urllib爬虫案例
Python网络爬虫（一）- 入门基础
Python网络爬虫（四）- XPath
Python网络爬虫（三）- 爬虫进阶

关于爬虫一定要谨记两点. 1 不能对爬取对象进行攻击类型的抓取数据, 如果抓取数据导致对方服务器卡顿并且死机,这就有法律风险了 2. 不将爬取的数据用于商业用途, 自己玩一玩可以,或者整理抓取数据整理资料. 但是不能用于二次售卖等盈利用途

1 requests_html

from requests_html import HTMLSession
requests_html 模块可以帮助我们抓取js渲染的数据.

session = HTMLSession()
r = session.get(url)
r.html.render()

第一次会start chromium download 如果提示urllib3.exceptions.MaxRetryError: HTTPSConnectionPool(host='storage.googleap

打开命令行pip3 install -U "urllib3<1.25"

参考用法:

 session = HTMLSession()
 r = session.get(url)
 html = r.html
 html.render()
 html.xpath('//a[xx]/@rel')

2 requests

import requests
requests 模块帮我们抓取的是静态数据,网页右键查看源码能看到的东西

3 对于xpath的一些用法

https://www.w3school.com.cn/xpath/index.asp
咋得一看感觉很难, 其实我们常用的属性也就那么几个罢了,
//全局模式匹配
/下一级
a[@class="xx"] a标签并且class 是xx的属性
a[@class="xx"]/text a标签并且class 是xx的属性的内容123 例如<a class="xx">123</a>
a[@class="xx"]/@herf a标签的href属性例如 <a class="xx" href="www.baidu.com">123</a>
a[@class="xx"][not(@id)]/@href class 是xx并且没有id的a标签