美文网首页
2018-08-04-Python数据科学

2018-08-04-Python数据科学

作者: 丨像我这样的人丨 | 来源:发表于2018-08-04 11:19 被阅读7次

    这辈子怕是做不了文科生

    理科生教条:Talk is cheap.Show me your code

    工作中 发现文科生那套说些有的没的 还是有些必要

    说不好听点 就是吹嘛 尤其是汇报工作和写简历

    (PS:因为代码写不下 净瞎说些大实话)

    吹的你第一遍听不懂 第二遍似懂非懂 第三遍假装懂了 不懂都不好意思

    想不到如今我也要走上这条路 在这条路上越走越远

    第一章(就是那些听起来高大上的词)

    数据挖掘方法分为描述性与预测性 我觉得这个分类其实就是机器学习里的有监督学习和无监督学习嘛  两者本质是一模一样的 不同的称呼罢了

    均是基于历史数据进行分析 (理科生点评:废话)

    描述性模型用于直观地反映历史状况,为后续分析提供支持

        场景:判断个体相似度(如用户、商品),关联关系

        主要算法:聚类、关联规则、主成分分析

                聚类:主要同于客户细分、分类 以达到精准营销目的

                关联规则:主要进行交叉销售、捆绑销售、用户推荐,以提高销量与销售额

    预测性模型从历史数据找出规律,并用于预测未来

    (理科生点评:半废话 简单点就是 找出规律 用于预测)

        场景:预测违约、图像识别、流失预测

        主要算法:决策树、线性回归、逻辑回归、SVM、集成学习、神经网络

        预测又分分类与回归问题

            分类:

                    排序类分类:输出类别的概率 需要的是一个准确的排序

                                         需求中不追求真实结果 因为真实结果本身就没有统一定义或者定义模糊

                    统计指标:ROC、AUC

                    决策类分类:输出准确的类别

                    统计指标:准确率、召回率

    书上说有这两类有明确的相应算法

    我认为以上提到的预测性算法都是可以拿来做排序类和决策类分类 

    算法好像都会输出概率(概率派算法 决策树这类将就不属于)

    只要在概率上加上阈值,常用0.5 超过0.5就属于正样本 低于就属于负样本

            回归:

                    统计指标:RMSE、MAE

    ***额外****

    客户付出的成本即产品的价格是统一的

    而客户的效用各不同,只有客户认为其购买的产品带来的效用高于成本,才会购买

    所有的商品都是成本与效用这对矛盾的权衡

    比如信贷,客户贷款后的效用是给定的(对于信贷公司而言是成本),而每个人的违约成本不一样 而信贷公司需要做的就是找出客户违约成本高于客户效用的人 给予贷款 这样才不怕客户不还钱

    相关文章

      网友评论

          本文标题:2018-08-04-Python数据科学

          本文链接:https://www.haomeiwen.com/subject/chgpvftx.html