美文网首页
了解爬虫1

了解爬虫1

作者: Ancestor楠 | 来源:发表于2020-06-08 22:26 被阅读0次

    crapy爬虫=数据采集

    简单:静态网站

    难:动态、加密(逆向)、验证码(滑动、点击、倒立)

    数据为王:

    数据怎么产生:

    1、用户产生数据---朋友圈、聊天记录

    2、政府统计数据---村-县-市-省-国家统计局

    3、数据管理公司---聚合数据

    4、爬虫数据---注意什么能爬,什么不能爬

    什么是爬虫

    一个爬取web或者App数据的程序

    bd是最大的爬虫

    爬虫根据人工智能文字识别、图片识别

    一个流程

    1、定位URL可以简单处理一下URL的参数

    https://www.baidu.com/s?ie=UTF-8&wd=%E6%AC%A7%E8%B1%AA

    2、分析URL

    https://www.baidu.com/s?wd=%E6%AC%A7%E8%B1%AA&pn=10

    3、发送请求

    通过程序模拟浏览器发送请求

    4、解析数据

    1)根据你的需要提取有用的数据

    web共同点

    1、每个网页都有唯一的URL(资源定位符)

    2、网页一定是有HTML、css、js组成

    3、网页数据都是通过http或者https传输的

    爬虫数据能随便爬。。?

    robot.txt协议规定哪些能爬;哪些不能爬

    个人可以不遵守

    爬虫本月要学的:

    1、网络库,urllib或urllib在py3统一叫urllib.request   requests

    2、解析库、正则、xpath、bs4、jsonpath、selenium(测试)

    3、多任务爬虫

    4、Scrapy框架、Scrapy-redis分布式爬虫

    通用爬虫:

    不针对某一类数据进行爬虫

    聚焦爬虫:

    针对某一类数据进行爬虫

    反爬虫:

    1、区分人的访问还是爬虫的访问

    User-Agent:用来区分浏览器的

    2、访问频率 封IP

    3、通过Cookie  ---登录状态保持

    4、加密token

    最终是一个时间与成本的问题

    相关文章

      网友评论

          本文标题:了解爬虫1

          本文链接:https://www.haomeiwen.com/subject/bnjdtktx.html