2020-01-06培训

作者: Cipolee | 来源:发表于2020-01-07 08:37 被阅读0次

爬虫+数据解析

通用爬虫+聚焦爬虫

浏览器请求响应机制，相当于播放器
要点：模拟浏览器，加上header

找出日常使用的浏览器头部，一直换浏览器头部

随机头部代码

  request.get()
  print(request.encoding)#显示网页编码
  解决乱码apparent_encoding()

爬完数据应该缓存在本地，再进行解析

准备数据
启动爬虫
解析数据

存储

 lxml:
 /从目前开始
 //全范围找
 @选取属性

代码

lxml
[]是表示前式的判断,如果是判断是否相等，仅仅使用一个"="
xpath返回的值的一定是列表
解决乱码->先进行编码
写入字节码要使用with open （' ','wb')
seeting+ add+ 隔离环境

提取外语工作

作业是徐志峰发的，我tmd为什么要他妈的抢答

../在父级寻找，想寻找父级的其他兄弟，需要再向上跳一级

  from datetime import datetime  
  [https://movie.douban.com/j/search_subjects?type=tv&tag=%E5%9B%BD%E4%BA%A7%E5%89%A7&sort=recommend&page_limit=20&page_start=0](https://movie.douban.com/j/search_subjects?type=tv&tag=%E5%9B%BD%E4%BA%A7%E5%89%A7&sort=recommend&page_limit=20&page_start=0)

网友评论

本文标题：2020-01-06培训

本文链接：https://www.haomeiwen.com/subject/qbyhactx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！