美文网首页
爬虫知识合集(持续更新)

爬虫知识合集(持续更新)

作者: 会有猫惹 | 来源:发表于2020-02-10 15:55 被阅读0次

    需要加强学习并持续复习的库

    1. urllib
    2. requests
    3. BeautifulSoup
    4. PyQuery(用的比较少)
    5. Selenium
    6. Scrapy
    7. peewee (ORM)
    8. pymysql
    9. 数据库结构设计

    需要学习的库

    1. base4(加密解密)
    2. threading(多线程)
    3. multiprocessing(多进程)
    4. datetime/time(时间处理)
    5. PIL(图像处理)
    6. codecs
    7. hashlib
    8. Jquery
    9. Twisted(异步通信)
    10. pickle(序列化)
    11. fake_useragent(随机user agent)
    12. scrapy_crawlera (代理IP)

    需要学习的方法

    1. bytes()
    2. BytesIO()

    需要学习的知识

    1. http协议,书籍:《HTTP权威指南》

    2. 进程线程协程

    3. 同步异步,阻塞非阻塞

    4. Javascript

    相关文章

      网友评论

          本文标题:爬虫知识合集(持续更新)

          本文链接:https://www.haomeiwen.com/subject/damimctx.html