美文网首页
2020-01-06培训

2020-01-06培训

作者: Cipolee | 来源:发表于2020-01-07 08:37 被阅读0次

    爬虫+数据解析

    通用爬虫+聚焦爬虫

    浏览器 请求响应机制,相当于播放器
    要点:模拟浏览器,加上header

    找出日常使用的浏览器头部,一直换浏览器头部

    随机头部代码
      request.get()
      print(request.encoding)#显示网页编码
      解决乱码apparent_encoding()
    

    爬完数据应该缓存在本地,再进行解析

    1. 准备数据

    2. 启动爬虫

    3. 解析数据

    4. 存储

       lxml:
       /从目前开始
       //全范围找
       @选取属性
      
    代码

    lxml
    []是表示前式的判断,如果是判断是否相等,仅仅使用一个"="
    xpath返回的值的一定是列表
    解决乱码->先进行编码
    写入字节码要使用with open (' ','wb')
    seeting+ add+ 隔离环境


    提取外语工作

    作业是徐志峰发的,我tmd为什么要他妈的抢答

    ../在父级寻找,想寻找父级的其他兄弟,需要再向上跳一级

      from datetime import datetime  
      [https://movie.douban.com/j/search_subjects?type=tv&tag=%E5%9B%BD%E4%BA%A7%E5%89%A7&sort=recommend&page_limit=20&page_start=0](https://movie.douban.com/j/search_subjects?type=tv&tag=%E5%9B%BD%E4%BA%A7%E5%89%A7&sort=recommend&page_limit=20&page_start=0)
    

    相关文章

      网友评论

          本文标题:2020-01-06培训

          本文链接:https://www.haomeiwen.com/subject/qbyhactx.html