- 数据:承载信息的符号;
- 信息:用来消除不确定性的东西;
3.传统概率:包含的单位事件是有限的,且每个单位事件发生的可能性均相等,扔硬币(事件总数两个:正面和反面;概率相等均为1/2;掷骰子(事件总数6个,1-6点;概率相等均为1/6)。 - 指标:通过对源数据特定加工,得到的用来描述数据特性的单一数据叫指标,如平均数、众数、股价均线,指标有一个形象的描述“指定的标准”。
- 同比与环比:同比(今年三季度/去年三季度);环比(今年三季度/今年二季度);‘
6.信息量:消除不确定性程度越高,信息量越大;消除不确定性程度越低,信息量最小。中国和巴西足球比赛结果,远小于阿根廷和巴西的比赛结果。
7.信息熵:信息杂乱程度的量化描述,信息越确定越单一,信息熵越小,反之越不确定,越混乱,信息熵越大。
8.正交性:可以理解为“垂直”,用向量的说法是两条直线互不“依赖”,正交向量的任何一个维度值发生变化都不会影响另一维度。 - 回归:即“由果索因”的过程,是一种归纳的思想,回归是一种解题方法,或者说“学习”方法。
10.分类问题:解决“某样本是某对象,某样本不是某对象“的概率问题。 - 信息增益:信息混乱程度(熵)的下降值,决策树就是以信息增益最大的切割为准则执行的。
- 前剪枝:提前终止决策树的构造;后剪树:树构造完成后减枝,剪树本身是对精度和复杂度的平衡。
- 随机森林:随机指的是每个决策树的构建随机挑选字段,森林指的是多棵树共同决策,决策机制为投票。
- 核函数的作用:在SVM中,当样本在当前维度空间内线性不可分,就一律映射到更高维度,在更高维度找超平面,而核函数就是用来完成这个映射的。常见核函数包括:linear(线性核函数)、poly(多项式核函数)、rbf(径向基核函数)、sigmoid(神经元激活核函数)、precomputed(自定义核函数)。
- 有趣模式:易被人理解、某种确信度上,对新的检验或数据有效、潜在有用、新颖。
网友评论