数据挖掘札记1_基本概念

数据挖掘札记1_基本概念

作者: 皮皮大 | 来源:发表于2019-06-22 21:58 被阅读2次

什么是数据挖掘

针对特定的问题，用适当的学科知识从数据中提炼信息，形成结论。常用的知识有：

数理基础知识
数据获取、加工能力
相关行业知识

image.png

一、数据挖掘使用场景

业务逻辑清晰、指标明确
转换成恰当的数据/数学/统计问题
足够的数据支撑
熟悉模型/分析方法的局限性
具体场景具体分析

数据挖掘目的：从数据中找出规律，验证猜想，进行预测

二、数据获取途径

常用的数据获取途径有：

公开信息
外部数据库
自由数据库
调查问卷
客户数据
通过网上爬虫等手段获取
其他途径

三、数据清洗

数据的可读性
数据的完整性
数据的唯一性
数据的权威性
数据的合法性

四、数据可视化

通过视觉的形式展现数据的方式，如图：

image.png

数据可视化工具：

专业工具
- Tableau
- Plotly
通用工具
- Excel
- R
- Python，例如：matplotlib包

五、数据分析主要模型

机器学习中主要是包含有监督学习和无监督学习两种情形：

有监督学习：提供标签的学习，比如信用卡用户数据中是否违规等
- 回归
- 决策树
- 其他
无监督学习
- 聚类
- PCA
- 其他
决策树
随机森林
支持向量机

image.png

有监督学习模型

决策树模型

一个树形结构：二叉树或非二叉树模型
每个叶节点存放一个类别
决策过程从根节点开始，测试待分类项中相应的特征属性值，按照其值进行输出分支
到达叶子节点，将叶子节点中存放的类别作为决策结果
缺点：不加控制，无限制增长，出现过拟合现象，泛化能力差；解决：剪枝

随机森林

基于树模型的集成模型
从待选属性集中随机选取子集，再进一步挑选最优分裂属性
加权平均/投票
泛化能力强

支持向量机

最优平面分隔：对偶问题
低维映射到高维
线性不可分中的软间隔与松弛变量

神经网络

一个包含了多个参数的、由若干个函数互相（嵌套）带入的模型
最简单的单层神经网络：感知机
- 只有输入层和输出层
- 其中每个每个输入层有自己的权重 w~i
  
  image.png

无监督学习模型

聚类分析
- 原型聚类：k-means
- 密度聚类：DBSCAN
- 层次聚类：AGNES
主成分分析：将高维向量x通过特征向量矩阵投影到低维空间，表征为低维向量y，损失信息少。
因子分析：找出少数互不相关的综合变量来尽可能地反映原来数据所含有的绝大多数信息，例如信用卡用户的使用情况分析
image.png

半监督学习

训练样本部分有标签
所有样本独立采样于同一数据源
利用学习机器不依赖与外部，自动地利用未标记样本来提升学习性能
常用模型：半监督学习模型S3VM（Semi-Supervised SVM）

image.png

相关文章

网友评论

本文标题：数据挖掘札记1_基本概念

本文链接：https://www.haomeiwen.com/subject/cyfbqctx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

呆鸟的Python数据分析

大数据，机器学习，人工智能

人工智能/模式识别/机器学习精华专题

机器学习与数据挖掘

Machine Learning & Recommendation & NLP & DL

机器学习_Python算法

热点阅读

呆鸟的Python数据分析

大数据，机器学习，人工智能

人工智能/模式识别/机器学习精华专题

机器学习与数据挖掘

Machine Learning & Recommendation & NLP & DL

机器学习_Python算法

关于我们|服务条款|联系我们|数据挖掘札记1_基本概念|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！