美文网首页
爬虫one-Day总结

爬虫one-Day总结

作者: shuffle笑 | 来源:发表于2018-11-15 22:39 被阅读0次

    1,大叔据时代数据产生:

    (1)大的公司大的企业:通过用户产生的数据

    (2)大的数据平台:通过手机或者和其他企业或者公司合作

    (3)国家政府(or)大的机构:通过省县乡或者其他方式统计汇总产生

    (4)数据咨询公司:通过手机或者和其他企业或者公司合作,会根据数据做分析对比形成报表,给你做数据参考

    2,什么是爬虫:就是一段自动获取互联网数据的程序

    3,爬虫有什么用途?

    搜索引擎

    比价工具(慧慧购物助手)

    大的咨询网站(jobbole,今日头条...)

    4,爬虫分为俩类:

    (1)通用爬虫:通用爬虫是浏览器的重要组成部分,将互联网上所有的网页下载到本地, 镜像备份,提取重要数据(过滤数据,分词,去广告...)

    (2)    聚焦爬虫:是面向主题的怕黑从,由需求产生的,是一种定向的爬虫,载爬去网页数据的时候,会对网页数据进行一些

    筛选,保证只抓取和需求相关的数据

    5,通用爬虫(搜索引擎)的缺点:

    (1)需要遵循robot协议:Robots协议(也称为爬虫协议,机器人协议等)的全称是"网络爬虫排除标准"

    (2)搜索引擎返回的结果千篇一律没有很好的针对性,不能够特殊的用户群体返回对应的数据

    (3)搜索引擎一般请款下获取的文本信息,处理图像,音频,视频多媒体还是有困难的

    6,常见状态码:

    200(OK请求成功)

    301:永久重定向

    302:临时重定向(所请求的页面已经临时转移至新的url)

    400:错误请求,服务器无法解析请求

    401:未授权,没有进行身份验证

    403:服务器拒绝访问

    404:服务器无法找到被请求的网页

    408:请求超时

    500:服务器内部错误

    501:服务器不具备完成请求的功能

    503:服务器不可用

    7,转字符串类型:decode

    相关文章

      网友评论

          本文标题:爬虫one-Day总结

          本文链接:https://www.haomeiwen.com/subject/xzwufqtx.html