美文网首页
08. 如何自动化采集数据

08. 如何自动化采集数据

作者: 进击的原点 | 来源:发表于2019-02-09 22:40 被阅读0次

    数据源

    image.png

    一个数据的走势,是由多个维度影响的,要通过多源的数据采集,手机尽可能多的数据维度,同时保证数据的质量

    开放数据源

    行业的数据库

    • 单位维度


      image.png

      政府、企业、高校

    • 行业维度
      交通、金融、能源等领域

    爬虫抓取 - py、常用工具

    网站,App

    • py爬虫三个过程
      • 使用 Requests 爬取网页信息
        抓取网页信息,是 py 的 HTTP 库
      • 使用 XPath 解析内容
        XML Path,也就是 XML 路径语言,是一种用来确定 XML 文档中某部分位置的语言,常当做小型查询语言。可以通过元素和属性进行位置索引
      • 使用 Pandas 保存数据
        Pandas 是让数据分析工作变得更加简单的高级数据结构,保存爬取的数据,可以写入到 XLS 或者 MySQL 等数据库
      • 其他无头模式: Selenium、PhantomJS、Puppteteer
    • 常用工具
      • 火车采集器
        可抓取、数据清洗、数据分析、挖掘和可视化等,网页中能看到的内容都可以通过采集规则进行抓取
      • 八爪鱼
        免费版:是内容采集规则,包括电商、生活服务、社交媒体、论坛类等网站
        付费版:云采集,配置好采集任务,就交给八爪鱼采集,避免 IP 被封​
      • 集搜客
        可视化操作,无需编程。无云采集功能

    传感器

    物理信息,图像、视频、速度、热度、压强等,基于特定设备

    日志采集

    统计用户的操作,在前端进行埋点,在后端进行脚本收集、统计,分析网站访问情况及使用承载瓶颈等。是运维人员重要工作之一。
    记录了用户访问网站的全过程,那些人在什么时间通过什么渠道来过,执行了哪些操作,系统是否产生了错误,IP、HTTP 请求的时间,用户代理等0​

    • 通过 Web 服务器采集
      Web:如 httpd、Nginx、Tomcat
      企业自己的系统日志采集:​Hadoop 的 Chukwa、Cloudera 的Flume、Facebook 的 Scribe 等
    • 自定义采集用户行为
      • JavaScript 代码监听用户行为
      • AJAX 异步请求后台记录日志等
    • 埋点是什么
      在有需要的位置采集相应的信息进行上报
      • 页面访问情况
        • 用户信息
        • 设备信息
      • 操作行为
        • 时长等
    • 如何埋点
      • 友盟
      • Google Analysis
      • Talkingdata
      • 想看更深层的用操作需要自定义埋点

    相关文章

      网友评论

          本文标题:08. 如何自动化采集数据

          本文链接:https://www.haomeiwen.com/subject/fpwzsqtx.html