大数据:特点(4V,volume,variety,value,velocity),即体量大、多样性、价值密度低、速度快。
大数据分为 大数据的存储及大数据的应用
存储包括:关系数据库,云存储,分布式存储
应用包括:数据管理,统计分析,数据挖掘,并行计算,分布式计算.
OLAP:联机分析处理,广义的数据挖掘
数据挖掘与传统数据分析的本质区别:数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。
数据挖掘核心:利用算法对处理好的输入和输出数据进行训练,并得到模型,然后再对模型进行验证,使得模型能够在一定程度上刻画出数据由输入到输出的关系,然后再利用该模型,对新输入的数据进行计算,从而得到新的输出。
数据挖掘内容六方面:关联、回归、分类、聚类、预测、诊断。
回归:线性回归、非线性回归、逐步回归、logistic回归
经典分类方法:决策树、神经网络、贝叶斯、K-近邻算法、判别分析、支持向量机(SVM)
常用聚类方法:K-means、层次聚类、神经网络聚类、高斯聚类、模糊C-均值聚类
预测:因果关系分析中包括 回归、计量经济模型、神经网络预测法、灰色预测、马尔科夫预测
诊断:诊断对象是离群点或孤立点
并行计算:同时使用多种计算资源姐姐计算问题的过程
分布式计算:研究如何把一个需要非常巨大的计算能力才能解决的问题分成许多小的部分,然后把这些部分分配给许多计算机进行处理,最后把这些计算结果综合起来得到最终的结果。
数据挖掘项目的生命周期包含六阶段:业务理解、数据理解、数据建模、评估、部署。
数据的质量分析通常包括:缺失数据、数据错误、度量标准错误、编码不一致、无效的元数据
数据预处理包括:数据清洗、数据集成、数据规约、数据变换
网友评论