08. 如何自动化采集数据

08. 如何自动化采集数据

作者: 进击的原点 | 来源:发表于2019-02-09 22:40 被阅读0次

数据源

image.png

一个数据的走势，是由多个维度影响的，要通过多源的数据采集，手机尽可能多的数据维度，同时保证数据的质量

开放数据源

行业的数据库

单位维度

image.png

政府、企业、高校
行业维度
交通、金融、能源等领域

爬虫抓取 - py、常用工具

网站，App

py爬虫三个过程
- 使用 Requests 爬取网页信息
  抓取网页信息，是 py 的 HTTP 库
- 使用 XPath 解析内容
  XML Path，也就是 XML 路径语言，是一种用来确定 XML 文档中某部分位置的语言，常当做小型查询语言。可以通过元素和属性进行位置索引
- 使用 Pandas 保存数据
  Pandas 是让数据分析工作变得更加简单的高级数据结构，保存爬取的数据，可以写入到 XLS 或者 MySQL 等数据库
- 其他无头模式： Selenium、PhantomJS、Puppteteer
常用工具
- 火车采集器
  可抓取、数据清洗、数据分析、挖掘和可视化等，网页中能看到的内容都可以通过采集规则进行抓取
- 八爪鱼
  免费版：是内容采集规则，包括电商、生活服务、社交媒体、论坛类等网站
  付费版：云采集，配置好采集任务，就交给八爪鱼采集，避免 IP 被封
- 集搜客
  可视化操作，无需编程。无云采集功能

传感器

物理信息，图像、视频、速度、热度、压强等，基于特定设备

日志采集

统计用户的操作，在前端进行埋点，在后端进行脚本收集、统计，分析网站访问情况及使用承载瓶颈等。是运维人员重要工作之一。
记录了用户访问网站的全过程，那些人在什么时间通过什么渠道来过，执行了哪些操作，系统是否产生了错误，IP、HTTP 请求的时间，用户代理等0

通过 Web 服务器采集
Web：如 httpd、Nginx、Tomcat
企业自己的系统日志采集：Hadoop 的 Chukwa、Cloudera 的Flume、Facebook 的 Scribe 等
自定义采集用户行为
- JavaScript 代码监听用户行为
- AJAX 异步请求后台记录日志等
埋点是什么
在有需要的位置采集相应的信息进行上报
- 页面访问情况
  - 用户信息
  - 设备信息
- 操作行为
  - 时长等
如何埋点
- 友盟
- Google Analysis
- Talkingdata
- 想看更深层的用操作需要自定义埋点

相关文章

网友评论

本文标题：08. 如何自动化采集数据

本文链接：https://www.haomeiwen.com/subject/fpwzsqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|08. 如何自动化采集数据|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！