From Business Problems to Data Mining Tasks
概念介绍:数据问题相关方 → stakeholders(股东)
数据分析可分解为多个任务类型,主要如下:
1. Classification and class probability estimation(分类与概率预估);
2. Regression("value estimation")(回归分析)区别于分类问题,回归问题更关注数量,分类问题更关注是或否;
3. Similarity matching(相似度匹配)基于已知数据评估个体间的相似程度;
4. Clustering(聚类分析)不依据已知的某个目的,对统计的个体按照相似性进行类别划分;
5. Co-occurrence grouping(frequent itemset mining)(共现分组)通过个体间的关联与传输关系,找到个体间的联系;
6. Profiling(behavior description)(资料收集)对特定个体、分组或群体的典型特征进行描绘,用于基于已有用户行为预测新变量后的新的用户行为;
7. Link prediction(链路预测)用于预测个体间的联系&相关性,同样也预估这些联系的强弱,如用户的共同观影爱好程度等;
8. Data reduction(数据压缩)提取关键数据,排除噪声数据,凸显数据特征等;
9. Causal modeling(因果模型)发现某个事件或行为对其他事件或模型的影响。
(本书重点介绍1-4这4种任务,任务间的差异,读到后面再更新吧,目前是在是看得懵逼)
Supervised Versus Unsupervised Methods
监督和非监督,主要区别是,监督统计中包含了某个特定的统计标准或指标,非监督中会发现特征并可对元素分组,但这些特征并不一定是有效用的特征。
分类任务需要给目标进行类别划分(不需要数值结果预测),回归分析需要包含数字化的目标结果,两者的差异。
Data Mining and Its Results
数据挖掘用于训练模型,数据使用用于未知量预测,即类似于机器学习的“学习 - 预测”方法。
The Data Mining Process
过程是,先做数据预处理,后建模,后评估,重复上述过程(过程包括:business understanding、data understanding、data preparation、modeling、evaluation;deployment-这个是上生产,不在迭代循环内),每次重复算一个迭代(iteration),模型成熟后运用到生产环境。
这个过程包含以下几个步骤:
1. Business Understanding:
先把商业问题搞懂是什么
2. Data Understanding
发现商业问题的架构和可用的数据,将他们分解为多个数据挖掘的任务(通常一个商业问题涉及多类型的数据挖掘任务,并且这些任务的结果都要被结合使用)
3. Data Preparation
数据预处理,关注“leaks”(某个变量从历史数据中可得到的、对当前的目标变量有帮助的情形),就是看看哪些历史数据对于现在的要预测的目标有关联关系,给这部分数据留下,其他的不相关数据排除。
4. Modeling
后面整本书都在讲这个,这里不展开,不要深究。
5. Evaluation
评估主要应用于对已经建立的模型和测试数据结果进行准确性评估,确保数据挖掘结果有效可信;此过程可以对部分生产环境用户进行灰度发布测试。
6. End - Deployment
大部分需要技术性的上线,通常还需要重新敲代码,适应生产环境。
Implications for Managing the Data Science Team
管理数据科学团队的指导意见,不要把数据挖掘当做一个纯IT项目。
CRISP cycle(Cross-Industry Standard Process)
Other Analytics Techniques and Technologies
其他数据分析需要的技能和技术:
Statistics(统计学)
用于:1. 特定数字值的计算,2. 借鉴统计学中更多的统计方法进行数据分析。
Database Querying(数据库查询)
先确定取数逻辑(先分析),再去数据库取数。
学好SQL,就这样。
On-line Analytical Processing(OLAP)可以提供友好的数据查询GUI,但是一般也用不着,学好SQL和tableau就行了。
Data Warehousing(数据仓库)
本书只介绍了数据仓库可从多个外部系统进行数据汇总的作用。
Regression Analysis(回归分析)
回归用于基于当前已有数据对未知数据进行预测,其他没有更多介绍。
Machine Learning and Data Mining(机器学习和数据挖掘)
KDD(knowledge discovery and data mining)是机器学习的一个分支。
Answering Business Questions with These Techniques
这是个知识用于实践的小章节:
1. who are the most profitable customers?
需要定义“profitable”的具体内涵,有定义后可进行数据查询,从而找到潜在的影响因素。
2. is there really a difference between the profitable customers and the average customers?
通常需要找到某个特定的指标,在合适的客户和普通客户之间,这个指标存在明显差异,且这个结果是随机性导致的可行性低于5%。
3. but who really are these customers? can i characterize them?
决策哪些特征可以将适合的客户和不适合的客户区分开来。
4. will some particular new customer be profitable? how much revenue should i expect this customer to generate?
通过历史数据对新客户进行数据预测,后面章节会详细介绍,这里不用细看。
Summary
确实是总结,看前面的本章内容就行了,没啥新东西。
网友评论