美文网首页
数据分析与建模挖掘- 数据获取

数据分析与建模挖掘- 数据获取

作者: 志䦀zy | 来源:发表于2019-01-06 14:31 被阅读0次
在这里插入图片描述

数据获取手段

  • 数据仓库

  • 检测与抓取

  • 填写 日志 埋点

  • 计算

数据仓库

  • 分析仅靠运行的数据库无法完成 数据更改 减少冗余

  • 需要把用户的操作过程如实记录 并长期保留

  • 将所有业务数据经汇总处理 构成数据仓库(DW)

    • 全部事实记录(全面 完备的 尽可能详细的)
    • 部分维度与数据的整理(数据集市 DM)(方便以不同维度抽取和整理)不可能全部抽取
  • DB VS DW

    • DB面向业务存储(高并发 提高用户体验) 仓库面向主题存储(主题:较高层次上对分析对象数据的一个完整并且一致的描述)
    • 举例:购书是一个主题 在何时购买的图书 谁以什么样的价格 购买了什么样的书 就是购买主题的一个记录
      记录有时间 用户 书籍各个维度信息
    • DB(OLTP应用) DW(OLAP针对分析)
    • DB组织规范 DW可能冗余 相对变化大 数据量大(每时每刻都在记录 分布式)

监测与抓取

  • 抓取:直接解析网页、接口 文件信息 整理数据 集中展示
  • 常用工具: urllib urllib2 requests scrapy PhantomJS (渲染) beautifulSoup Xpath

填写 埋点 日志

  • 用户填写信息
  • app或网页埋点(特定流程的信息记录点) :
    • 用来跟踪app使用情况 进一步进行优化管理 访问 访客 跳出率
    • two ways: 页面统计 统计操作行为 直接记录用户与互联网交互的过程 可以复现 用户使用互联网产品过程
    • 可以自己开发 也可以使用插件
  • 日志:日志更精简 出故障可以定位问题 以文件汇总 有前端日志 需要传输到后端 才能获取 后端日志

计算

  • 通过已有数据计算生成衍生数据
    比如:统计报表某些项目 不能被观测 需要计算才有意义

数据学习网站

  • kaggle
  • 天池比赛 众智
  • imagenet图片研究 Open Images
  • 各领域统计数据(统计局 政府机构 政府财报)

相关文章

  • Python数据分析与数据挖掘思路

    Python数据分析与数据挖掘思路分为四大模块:数据获取、数据探索、数据预处理、挖掘建模

  • 2018-11-12

    关于举办 “大数据建模与分析挖掘应用”实战培训班的通知 一、课程简介 大数据建模与分析挖掘技术已经逐步地应用到...

  • 2018-12-26

    关于举办 “大数据建模与分析挖掘应用”实战培训班的通知 一、课程简介 大数据建模与分析挖掘技术已经逐步地应用到...

  • 2019-03-04

    关于举办 “大数据建模与分析挖掘应用”实战培训班的通知 一、课程简介 大数据建模与分析挖掘技术已经逐步地应用到新兴...

  • 数据分析与建模挖掘- 数据获取

    数据获取手段 数据仓库 检测与抓取 填写 日志 埋点 计算 数据仓库 分析仅靠运行的数据库无法完成 数据更改 减少...

  • 苏州10月大数据建模与分析挖掘应用实战培训班

    大数据建模与分析挖掘应用实战培训班 1.培训简介 大数据建模与分析挖掘技术已经逐步地应用到新兴互联网企业(如电子商...

  • 2019-07-14

    “大数据建模与分析挖掘应用”实战研讨会的通知 一、研讨会简介 大数据建模与分析挖掘技术已经逐步地应用到新兴互联网企...

  • 数据挖掘

    数据挖掘是机器学习的前身,标准的数据分析与挖掘流程分为6部分,与数据挖掘紧密相关有3部分:数据整理、构建模型和模型...

  • 第一章 数据挖掘基础

    数据挖掘的基本任务:分类与预测、聚类分析、关联规则、时序模式、偏差检测、智能推荐数据挖掘建模过程:1)定义挖掘目标...

  • 第五章 挖掘建模

    经过数据探索与数据预处理,得到了可以直接建模的数据。根据挖掘目标和数据形式可以建立分类与预测、聚类分析、关联规则、...

网友评论

      本文标题:数据分析与建模挖掘- 数据获取

      本文链接:https://www.haomeiwen.com/subject/ozjsrqtx.html