《网站数据挖掘与分析》——值得精读的数据指南

作者: 升生 | 来源:发表于2018-04-04 17:50 被阅读21次

《网站数据挖掘与分析》——值得精读的数据指南
我的书单
网站数据挖掘--基础部分（未完）
数据分析实战45讲
Python数据分析与数据挖掘思路
第2章数据挖掘概述
第 1 章绪论
「数据分析」01数据分析简述及numpy和pandas模块的使用
【系列】思考：数据挖掘应用的几种误区
稳定型产品进行版本迭代需求从哪来？

一、
数据工作链：产生-采集-储存-提取-挖掘-分析-展现-集成应用；
数据分析的传统方法：趋势-细分-转化；
二、
更深次方法：数据挖掘、统计学、人工智能、商业智能；
未来方向：数据作用将集中在数据驱动、系统智能工作机制；辅助决策则蜕变为非重要应用；
三、
数据管理相关；

此书图片

一、数据工作链&数据分析

1. 数据来源

数据碎片化严重：多平台、多渠道、多终端；
登录率不一：采用cookie等唯一用户ID来统计；

数据.jpg

2. 数据统计

数据提取、数据清洗、数据汇总、结论输出；

附数据平台应有功能（其思路其他产品亦可参考）：

数据管理	相应功能
配置管理	数据存储、安全、排除设置，并发控制，进程控制，结构控制
数据权限	数据保存、新增、删除、更新、备份、合并、拆分、导出、打印
用户权限	用户新增、删除、重置、过期设置、共享等
数据导入	数据导入格式、时间、条件、规则、异常处理、记录数、来源等
数据导出	数据导出格式、时间、条件、规则、加密、记录数、位置等
数据展示	对比、趋势、主要维度下钻

数据不准确的可能原因

采集入库方式（采集效率&采集周期、异常值处理、库表同步）、验证机制、数据同步时隔、ETL准确性；
用户信息填写不规范、采集环境客观差异；
数据口径不统一及考虑不周

3. 数据分析

建立数据决策主题→分析主题→评估决策建议→决策实施
每次决策实施是上一次辅助决策的终点又是下一次辅助决策的开始。

4. 数据可能导致的错误

数据在企业中的价值评估出错；
数据质量；
采集方式错误；
数据需求和业务需求匹配度不高；
数据公正性和客观性；

二、数据挖掘

业务类：利用挖掘算法为业务提供数据分析、挖掘价值点；
技术类：利用挖掘算法为数据产品（DSP、RTB、个性化推荐）提供支持；
前者是辅助决策，后者为数据驱动；后者只进行调优、人工干预规则，但不参与决策；
模型类型：

模型分类	模型特征	模型优点	模型缺陷
回归模型	y=ax²+bx+c	变量关系明确，视觉即可判断	只能分析少量变量关系
聚类模型	将大量的数据相似或相邻数据归为一类	适合数据初步探索	无法回答为什么，无法提供行动指向
关联模型	从大量数据中发现两种数据的关系，经典应用于购物车	简单易于理解	缺乏时间因素关联
时间序列	研究数据随时间变化趋势	用于异常数据检测、周期效果判断	较短时间的判断不精准，可以作为回归模型的补充
分类模型	预测的是数据成为某个分组的可能性，根据结果分析特征、根据特征预测结果	可执行性和应用性强	难度较高
机器学习	机器自我数据推理、归纳、演进		有限的学习能力

1. 数据驱动的个性化推荐

数据层

原始数据：处于原始状态、未经过处理的数据；
模型数据：经过处理的标准化、整合的数据；

算法层

算法	算法原理	缺陷
协同过滤	利用兴趣相同、拥有共同经验的群体喜好来预测用户喜好的方法；自动化和个性化程度高，能处理复杂内容和推荐对象，可以发现用户的新兴趣点	无法完美解决数据稀疏性、拓展性较差
关联规则	从数据上发现商品的关联性，来进行推荐；	产品之间存在同义性将无法产生准确结果，且数据抽取规则复杂且耗时，无法实时；
基于内容推荐	个人理解是用户喜欢了一个产品，会将相同标签下的不同产品推荐	同协同过滤
基于社会网络推荐	通过手机用户在社交网络上的数据，进行挖掘推荐；	复杂耗时，局限性强

组合算法：

加权处理
场景差异（新老用户不同算法）
混合展示（取几个算法的前几个组合展示）
迭代计算（先用一种，再使用其他的算法在基础上优化）

控制算法：

过度推荐控制
补足推荐控制：推荐结果可能因下架等原因不能展示，需要替代方案；
冷启动控制：采用top N、最新项目等；
过滤排序控制：

读后感结语：
若有意了解数据在产品中的流转状态，可以精读此书。但个性化化方面等新兴应用的见解已经落后，需要从其他方面吸收。

《网站数据挖掘与分析》——值得精读的数据指南
目录：一、数据工作链：产生-采集-储存-提取-挖掘-分析-展现-集成应用；数据分析的传统方法：趋势-细分-转化；...
我的书单
机器学习实践指南——案例应用解析（麦好）社交网站的数据挖掘与分析_中文版（Mattbew A Russell，师...
网站数据挖掘--基础部分（未完）
标签（空格分隔）：数据挖掘数据分析数据采集网站数据采集、功能配置、系统实施和基本运营都是网站数据分析师的工...
数据分析实战45讲
数据分析实战45讲第一模块：数据分析基础篇 (16讲) 01丨数据分析全景图及修炼指南 02丨学习数据挖掘的最佳...
Python数据分析与数据挖掘思路
Python数据分析与数据挖掘思路分为四大模块：数据获取、数据探索、数据预处理、挖掘建模
第2章数据挖掘概述
标签（空格分隔）：数据化运营 2.1 数据挖掘发展史2.2 数据分析与数据挖掘的主要区别2.3 数据挖掘的主要成...
第 1 章绪论
什么是数据挖掘数据挖掘（Data Mining，MD）：数据挖掘是一种技术，它将传统的数据分析方法与处理大量数...
「数据分析」01数据分析简述及numpy和pandas模块的使用
1.数据分析与数据挖掘（1）定义对比数据分析是对已知数据进行分析，提取出一些有价值的信息；而数据挖掘是对大...
【系列】思考：数据挖掘应用的几种误区
误区1：只要将数据挖掘工具连接上数据库就能进行数据挖掘了数据分析与数据挖掘本质是一个定义问题，分析问题，解决问题...
稳定型产品进行版本迭代需求从哪来？
产品上线后产品经理应该如何做产品迭代？如何深度挖掘用户需求？进行数据分析被分析数据从哪来？网站的统计数据网站上...

《网站数据挖掘与分析》——值得精读的数据指南

目录：

一、数据工作链&数据分析

1. 数据来源

2. 数据统计

数据不准确的可能原因

3. 数据分析

4. 数据可能导致的错误

二、数据挖掘

1. 数据驱动的个性化推荐

数据层

算法层

相关文章

《网站数据挖掘与分析》——值得精读的数据指南

我的书单

网站数据挖掘--基础部分（未完）

数据分析实战45讲

Python数据分析与数据挖掘思路

第2章数据挖掘概述

第 1 章绪论

「数据分析」01数据分析简述及numpy和pandas模块的使用

【系列】思考：数据挖掘应用的几种误区

稳定型产品进行版本迭代需求从哪来？

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

计算机杂谈

一个3年还无所长的产品

产品经理

大数据

0岁的产品经理