![](https://img.haomeiwen.com/i2024800/b23cbfb74c36aaba.png)
![](https://img.haomeiwen.com/i2024800/8656af8f5f7d46c9.png)
在数据挖掘中,有几个非常重要的任务,就是分类、聚类、预测和关联分析。它是我们进行数据分析的目的。
完成这些任务的流程是这样的:
![](https://img.haomeiwen.com/i2024800/30f8fdf3c49475ce.png)
一、准备阶段
1、输入数据:
![](https://img.haomeiwen.com/i2024800/92414b30640c57c1.png)
2、数据预处理:
1、数据清洗
2、数据集成
3、数据变换
![](https://img.haomeiwen.com/i2024800/a61388823aab6646.png)
![](https://img.haomeiwen.com/i2024800/31889e49112b860d.png)
![](https://img.haomeiwen.com/i2024800/5866e58d054a279f.png)
3、特征选择
标签化就是数据的抽象,特征的选择,用户画像就是特征的选择,我们以用户画像为例。
①、首先要设计唯一标识
②、为用户打标签(数据层标签)
![](https://img.haomeiwen.com/i2024800/74a80718ea64b2fa.png)
③、为用户打标签(算法层标签)
也就是模型层的标签,这个用户画像类型的标签。
④、为用户打标签(业务层标签)
也就是预测标签,与业务的关联,也就是预测什么样的业务能够与什么样的用户产生什么样的结果。
【PS:推荐系统 - 简书】
![](https://img.haomeiwen.com/i2024800/73ad29d0eaf67e45.png)
二、分析阶段
![](https://img.haomeiwen.com/i2024800/c05a46bec198f854.png)
【PS:请参考《人工智能--一种现代的方法》《终极算法》 - 简书】
网友评论