爬虫+数据解析
通用爬虫+聚焦爬虫
浏览器 请求响应机制,相当于播放器
要点:模拟浏览器,加上header
找出日常使用的浏览器头部,一直换浏览器头部
随机头部代码 request.get()
print(request.encoding)#显示网页编码
解决乱码apparent_encoding()
爬完数据应该缓存在本地,再进行解析
-
准备数据
-
启动爬虫
-
解析数据
-
存储
lxml: /从目前开始 //全范围找 @选取属性
lxml
[]是表示前式的判断,如果是判断是否相等,仅仅使用一个"="
xpath返回的值的一定是列表
解决乱码->先进行编码
写入字节码要使用with open (' ','wb')
seeting+ add+ 隔离环境
提取外语工作
作业是徐志峰发的,我tmd为什么要他妈的抢答
../在父级寻找,想寻找父级的其他兄弟,需要再向上跳一级
from datetime import datetime
[https://movie.douban.com/j/search_subjects?type=tv&tag=%E5%9B%BD%E4%BA%A7%E5%89%A7&sort=recommend&page_limit=20&page_start=0](https://movie.douban.com/j/search_subjects?type=tv&tag=%E5%9B%BD%E4%BA%A7%E5%89%A7&sort=recommend&page_limit=20&page_start=0)
网友评论