一、引言,分解数据。
1. 数据分析的过程:明确该数据分析服务的目标客户及其真实需求一〉确定问题一〉分解问题和数据一〉评估一〉决策
2.统计模型取决于心智模型
二、实验,检验你的理论
1.注意比较,要怀疑因果方向
2.分组成控制组和实验组时,要注意混杂因素,使其具有同票同权
三、最优化,寻找最大值
1.列出方程,用excel的Solver求最值
四、数据图形化
1.尽量让图形多元化可促成最有效的比较,如将多张相似的散点图相邻排放
五、假设检验用证伪法
1.从线索中寻找元素间的正相关和负相关,然后对每一种假设证伪
2.如果证据能帮助对假设强弱排序,则具有诊断性
六、贝叶斯统计,强大。
七、主观概率需量化,用标准偏差看与平均值的差距。当需要加入新证据修正主观概率时,贝叶斯规则
八、启发法,人类天性
1.快省树
2.当直接计算、找数据的过程不可行时,用启发法
九、直方图
1.R程序和直方图,一个直方图发现问题,找到R中平均值中值和直方图中峰的错位,拆分多个图可能发现原因。
十、回归,预测
1.可能需要预测的问题:
- 人们的措施
- 市场动态
- 重大事件
- 实验结果
- 数据中未体现的资料
不能不问的问题
- 我有足够的数据进行预测吗?
- 我的预测准确性如何?
- 是定性预测还是定量预测?
- 我的客户能顺利利用这个预测吗?
- 我的预测有何局限性?
2.散点图可以处理可能有关系的2-3个数据,平均值图显示X轴每个区间相对应的Y轴数值,回归线是最准确的贯穿平均值图中各个点的直线,回归线对具有线性相关特点的数据有用,相关系数为0表示毫不相关。
十一、误差
1.机会误差又称残差,是优秀的统计模型的核心,若能正确解释,就能更好的理解数据和模型的用途。定量的指定误差一〉推出结果范围而不是一个简单的值更理性,误差需要定量。标准差描述平均值周围的分布,均方根误差描述残差分布
网友评论