12. 其他数据科学任务和技术

作者: BT小芒 | 来源:发表于2020-10-26 02:03 被阅读0次

12. 其他数据科学任务和技术
20200331
大数据的用途
1月25日读书笔记
【收藏】大数据挖掘分析工具集
大数据分享常用的数据挖掘技术,新人学起来就可以用
大数据环境下数据科学的知识体系
数据库技术基础
想报考大数据、人工智能相关的专业？看这个
大数据在物理上的应用

fundamental concepts：our fundamental concepts as the basis of many common data science techniques（我们的基本概念是许多常用数据科学技术的基础）；the importance of familiarity with the building blocks of data science（熟悉数据科学的组成部分的重要性）

exemplary techniques：association and co-occurrences （联合与共现）;behavior profiling（行为分析）；link prediction（链路预测）；data reduction（数据缩减）；latent information mining（潜在信息挖掘）；movie recommendation；Bias-variance decomposition of error（误差的偏差方差分解）；ensembles of models（模型集合）；causal reasoning from data（基于数据的因果推理）。

Co-occurrences and Association：Finding Items That Go together

measuring surprise：lift and leverage（提升和杠杆作用）

lift：关联关系发生的概率比随机概率大的数量，lift计算公式如下12-1：

$Lift(A,B)=\frac{p(A,B)}{p(A)\cdot p(B)}$

另一个衡量共现性的方法叫leverage，是用两者的差值代替比值来实现公式化，如下12-2：

$Leverage(A,B)=p(B,A)-p(A)p(B)$

lift和leverage一个更适合共现概率高的情况，一个更适合概率低的情况，这里的 $p(A,B)$ 可以考虑为后验概率， ${p(A)\cdot p(B)}$ 可以看做先验概率，所以样本空间画图时只能表现先验概率，本人还不能画出 $p(A,B)$ 。

Example：Beer and Lottery Tickets（例如：啤酒和彩票）

$p(beer)=0.3$ and $p(lottery-ticket)=0.4$ ,两个一起买的先验概率就是0.12，实际上两个一起买的出现频率是0.2，那么可以计算出 $lift=1.67$ and $leverage=0.08$ 。

两者一起购买的support=0.2，strength=67%， $strength=p(lottery-ticket\vert beer)=0.67$ （算法大概是0.4*1.67，就是独立概率乘以lift值）

Associations Among Facebook Likes（Facebook喜欢间的关联）

从用户对不同喜好的关联的参数（包括support、strength、lift、leverage）来统计这些独立的明星个体间的关联程度。

Profiling：Finding Typical Behavior（分析：查找典型行为）

关键词：

均值偏离：由于数据分布的长尾效应导致的均值偏差，此时可使用中位数替代；

log（logarithm）变式：可以对数据统一进行log转换后，将数据分布的形态进行转换，以使结论更显著；

高斯分布（Gaussian distribution）：一般指正态分布；

高斯混合模型（Gaussian Mixture Model）（GMM）：高斯模型就是用高斯概率密度函数（正态分布曲线）精确地量化事物，将一个事物分解为若干的基于高斯概率密度函数（正态分布曲线）形成的模型。对图像背景建立高斯模型的原理及过程：图像灰度直方图反映的是图像中某个灰度值出现的频次，也可以以为是图像灰度概率密度的估计。如果图像所包含的目标区域和背景区域相差比较大，且背景区域和目标区域在灰度上有一定的差异，那么该图像的灰度直方图呈现双峰-谷形状，其中一个峰对应于目标，另一个峰对应于背景的中心灰度。对于复杂的图像，尤其是医学图像，一般是多峰的。通过将直方图的多峰特性看作是多个高斯分布的叠加，可以解决图像的分割问题。在智能监控系统中，对于运动目标的检测是中心内容，而在运动目标检测提取中，背景目标对于目标的识别和跟踪至关重要。而建模正是背景目标提取的一个重要环节。（摘自百度百科）

Link Prediction and Social Recommendation（链路预测与社会推荐）

讲了好友推荐的一些内容，over

Data Reduction，Latent Information，and Movie Recommendation（数据缩减、潜在信息和电影推荐）

图12-5 一个根据电影特征组成的而为分布图，观众也可以基于对视频的评分或浏览记录被放到这个平面当中。

这里讲了一些视频推荐的理论，比较表面，想要深入了解的可以参考《用户网络行为画像》（牛温佳）。

Bias，Variance，and Ensemble Methods（偏差、方差和集成方法）

Ensemble Methods就是把多个模型组合使用，多数情况下可以提高预测精度。

导致模型预测偏差的典型特征：

1. 内在随机性；2. 偏离；3. 方差。

Data-Driven Causal Explanation and a Viral Marketing Example（数据驱动的因果解释与病毒式营销案例）

有社会关系关联的人，会有类似的产品偏好。

summary

本章结束，summary里面没啥。

网友评论

Data Science For Business

本文标题：12. 其他数据科学任务和技术

本文链接：https://www.haomeiwen.com/subject/tfdgmktx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！