这辈子怕是做不了文科生
理科生教条:Talk is cheap.Show me your code
工作中 发现文科生那套说些有的没的 还是有些必要
说不好听点 就是吹嘛 尤其是汇报工作和写简历
(PS:因为代码写不下 净瞎说些大实话)
吹的你第一遍听不懂 第二遍似懂非懂 第三遍假装懂了 不懂都不好意思
想不到如今我也要走上这条路 在这条路上越走越远
第一章(就是那些听起来高大上的词)
数据挖掘方法分为描述性与预测性 我觉得这个分类其实就是机器学习里的有监督学习和无监督学习嘛 两者本质是一模一样的 不同的称呼罢了
均是基于历史数据进行分析 (理科生点评:废话)
描述性模型用于直观地反映历史状况,为后续分析提供支持
场景:判断个体相似度(如用户、商品),关联关系
主要算法:聚类、关联规则、主成分分析
聚类:主要同于客户细分、分类 以达到精准营销目的
关联规则:主要进行交叉销售、捆绑销售、用户推荐,以提高销量与销售额
预测性模型从历史数据找出规律,并用于预测未来
(理科生点评:半废话 简单点就是 找出规律 用于预测)
场景:预测违约、图像识别、流失预测
主要算法:决策树、线性回归、逻辑回归、SVM、集成学习、神经网络
预测又分分类与回归问题
分类:
排序类分类:输出类别的概率 需要的是一个准确的排序
需求中不追求真实结果 因为真实结果本身就没有统一定义或者定义模糊
统计指标:ROC、AUC
决策类分类:输出准确的类别
统计指标:准确率、召回率
书上说有这两类有明确的相应算法
我认为以上提到的预测性算法都是可以拿来做排序类和决策类分类
算法好像都会输出概率(概率派算法 决策树这类将就不属于)
只要在概率上加上阈值,常用0.5 超过0.5就属于正样本 低于就属于负样本
回归:
统计指标:RMSE、MAE
***额外****
客户付出的成本即产品的价格是统一的
而客户的效用各不同,只有客户认为其购买的产品带来的效用高于成本,才会购买
所有的商品都是成本与效用这对矛盾的权衡
比如信贷,客户贷款后的效用是给定的(对于信贷公司而言是成本),而每个人的违约成本不一样 而信贷公司需要做的就是找出客户违约成本高于客户效用的人 给予贷款 这样才不怕客户不还钱
网友评论