这次看个例子,最简单的情况,所见即所得的get。
什么值得买的发现/现在叫好价频道,网址是https://faxian.smzdm.com/
第一步,找到自己需要的信息。我想把值得买每一页的title和价格爬下来,如图。
老规矩,还是F12,
看看信息在哪里
发现果然在doc下网站https://faxian.smzdm.com/的网页里。
第二步就可以开始写程序爬下来了
```
import requests
re= requests.get('https://faxian.smzdm.com/')
print(re.text)
```
发现返回乱码,body里没有想要的东西
这应该是网站做了反爬虫的,很简单,将get里加入参数headers,试试能不能解决问题。headers是将爬虫伪装成普通浏览器
```
import requests
head = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36'}
re= requests.get('https://faxian.smzdm.com/',headers = head)
print(re.text)
```
看起来好了返回了具体的优惠信息。
下一次看看解析网页
网友评论