画像是数据挖掘常见的应用方式,通过对目标群体的标签信息进行聚类,来寻找目标群体的共同特征;
通过这段时间的学习思考,我总结了画像的一般步骤
- 建立数据集
也就是确定要对多大范围内的人进行画像操作。可以是搜集到的所有人,也可以是通过一些筛选条件的识别出的部分人; - 匹配特征数据
将数据集内的人与其特征行为数据进行管理,比如他的行为数据; - 对特征数据进行标签化
将各维度的特征是数据转化为更易识别的标签。常见的处理方式包括:
- 将维度数据直接转化为标签,比如星座、性别
- 将度量数据切分为数据桶,然后为数据桶打标签,比如将年龄划分为18-,18-35,35-50,50+,然后打上未成年、青年、中年、老年等。这个操作最考验分析人员对业务的理解
- 将所有标签标准化
将所有维度的标签映射为1,2,3……的数据,以便进行聚类 - 进行聚类操作
通过算法工具进行聚类 - 观察聚类后的各群体构成,总结其标签,提炼该群体核心和特征。
网友评论