用户画像构建需要用到哪些技术?
用到的主要技术包括:机器学习、数据挖掘、自然语言处理、图像处理、复杂网络等。

1.数据清洗
异常数据清洗:过滤掉乱码等信息。
数据过滤:过滤没有任何意义的数据。
数据转换:字符集转换成统一的编码。
数据集成:将所有同类数据源整理成统一的格式。
2.数据统计
主要是对行为类数据进行统计汇总。
3.分词
定制化改写的开源分词库HanLP。
新词发现、敏感词挖掘等。
4.关键词提取
语言特征:词性、句法结构等。
统计特征:词语的IDF、词语的Topic分布熵等。
嵌入特征:词向量、N-Grams等。
场景特征:数据源特征、篇章结构特征等。
5.图像预处理
图像数据清洗:训练图像分类模型,识别并清洗脏数据图像。
模型输入数据生成:图像解析、图像裁减、像素归一化、向量化。
6.目标检测
基于传统手工特征的算法:HOG检测器、DPM模型等,模型简单、速度快,但精度相对较低。
基于区域提名(object proposal)的模型:SPP-net、Faster RCNN模型等,准确率和精度更高,但速度相对较慢。
端到端(end-to-end)的卷积网络模型:YOLO、SSD模型等,检测速度快,精度中等。
7.网络构建
关系数据:任何实体和实体之间的交互都可以看作关系型数据,实体和关系构成复杂网络。融合了多种实体和关系的复杂网络进一步可以构成生态,比如知识图谱就是由关系复杂网络和实体属性来构成的。
构建网络:提取节点和关系,设置边权重和节点属性,构建网络。
8.网络计算
网络测度:计算节点拓扑等特征。
传播模型:基于随机游走的传播算法,如标签传播算法、定向用户扩散、兴趣传播算法等。
社区发现:目标在于建设用户社区标签,分为局部社区和全局社区划分。
图神经网络:网络向量化(Graph Embedding),研发主流算法如GCN、GAT等。
动态网络模型:节点和边都随时间变化,研发针对这种网络的挖掘算法。
9.挖掘模型
线性模型:LR。
树模型:GBDT+LR、RandomForest、XGBoost。
深度学习模型:DNN(Wide&Deep)等。
10.语义分析
知识库构建:知识图谱挖掘算法(Knowledge Graph)。
文本类目标注:基于语言模型的弱监督标注算法(BERT、Attention、Language Model、Transfer Learning)。
文本类目理解:文本类目体系的表示和理解算法(Knowledge representation and reasoning)。
文本类目匹配:文本语义与类目体系语义的匹配算法(Semantic Search)。
网友评论