美文网首页计算机杂谈一个3年还无所长的产品产品经理
《网站数据挖掘与分析》——值得精读的数据指南

《网站数据挖掘与分析》——值得精读的数据指南

作者: 升生 | 来源:发表于2018-04-04 17:50 被阅读21次

    目录:

    一、
    数据工作链:产生-采集-储存-提取-挖掘-分析-展现-集成应用;
    数据分析的传统方法:趋势-细分-转化;
    二、
    更深次方法:数据挖掘、统计学、人工智能、商业智能;
    未来方向:数据作用将集中在数据驱动、系统智能工作机制;辅助决策则蜕变为非重要应用;
    三、
    数据管理相关;

    此书图片

    一、数据工作链&数据分析

    1. 数据来源

    数据碎片化严重:多平台、多渠道、多终端;
    登录率不一:采用cookie等唯一用户ID来统计;

    数据.jpg

    2. 数据统计

    数据提取、数据清洗、数据汇总、结论输出;

    附数据平台应有功能(其思路其他产品亦可参考):

    数据管理 相应功能
    配置管理 数据存储、安全、排除设置,并发控制,进程控制,结构控制
    数据权限 数据保存、新增、删除、更新、备份、合并、拆分、导出、打印
    用户权限 用户新增、删除、重置、过期设置、共享等
    数据导入 数据导入格式、时间、条件、规则、异常处理、记录数、来源等
    数据导出 数据导出格式、时间、条件、规则、加密、记录数、位置等
    数据展示 对比、趋势、主要维度下钻

    数据不准确的可能原因

    • 采集入库方式(采集效率&采集周期、异常值处理、库表同步)、验证机制、数据同步时隔、ETL准确性;
    • 用户信息填写不规范、采集环境客观差异;
    • 数据口径不统一及考虑不周

    3. 数据分析

    建立数据决策主题→分析主题→评估决策建议→决策实施
    每次决策实施是上一次辅助决策的终点又是下一次辅助决策的开始。

    4. 数据可能导致的错误

    数据在企业中的价值评估出错;
    数据质量;
    采集方式错误;
    数据需求和业务需求匹配度不高;
    数据公正性和客观性;

    二、数据挖掘

    业务类:利用挖掘算法为业务提供数据分析、挖掘价值点;
    技术类:利用挖掘算法为数据产品(DSP、RTB、个性化推荐)提供支持;
    前者是辅助决策,后者为数据驱动;后者只进行调优、人工干预规则,但不参与决策;
    模型类型:

    模型分类 模型特征 模型优点 模型缺陷
    回归模型 y=ax²+bx+c 变量关系明确,视觉即可判断 只能分析少量变量关系
    聚类模型 将大量的数据相似或相邻数据归为一类 适合数据初步探索 无法回答为什么,无法提供行动指向
    关联模型 从大量数据中发现两种数据的关系,经典应用于购物车 简单易于理解 缺乏时间因素关联
    时间序列 研究数据随时间变化趋势 用于异常数据检测、周期效果判断 较短时间的判断不精准,可以作为回归模型的补充
    分类模型 预测的是数据成为某个分组的可能性,根据结果分析特征、根据特征预测结果 可执行性和应用性强 难度较高
    机器学习 机器自我数据推理、归纳、演进 有限的学习能力

    1. 数据驱动的个性化推荐

    数据层

    原始数据:处于原始状态、未经过处理的数据;
    模型数据:经过处理的标准化、整合的数据;

    算法层

    算法 算法原理 缺陷
    协同过滤 利用兴趣相同、拥有共同经验的群体喜好来预测用户喜好的方法;自动化和个性化程度高,能处理复杂内容和推荐对象,可以发现用户的新兴趣点 无法完美解决数据稀疏性、拓展性较差
    关联规则 从数据上发现商品的关联性,来进行推荐; 产品之间存在同义性将无法产生准确结果,且数据抽取规则复杂且耗时,无法实时;
    基于内容推荐 个人理解是用户喜欢了一个产品,会将相同标签下的不同产品推荐 同协同过滤
    基于社会网络推荐 通过手机用户在社交网络上的数据,进行挖掘推荐; 复杂耗时,局限性强

    组合算法:

    • 加权处理
    • 场景差异(新老用户不同算法)
    • 混合展示(取几个算法的前几个组合展示)
    • 迭代计算(先用一种,再使用其他的算法在基础上优化)

    控制算法:

    • 过度推荐控制
    • 补足推荐控制:推荐结果可能因下架等原因不能展示,需要替代方案;
    • 冷启动控制:采用top N、最新项目等;
    • 过滤排序控制:

    读后感结语:
    若有意了解数据在产品中的流转状态,可以精读此书。但个性化化方面等新兴应用的见解已经落后,需要从其他方面吸收。

    相关文章

      网友评论

        本文标题:《网站数据挖掘与分析》——值得精读的数据指南

        本文链接:https://www.haomeiwen.com/subject/twkarxtx.html