本人知乎更新地址: https://zhuanlan.zhihu.com/p/97742344
- 最大似然估计和最小化KL散度之间的关系?

- 总结 a. 最小化 KL 散度其实就是在最小化分布之间的交叉熵 b. 许多作者使用术语 “交叉熵’’ 特定表示伯努利或 softmax 分布的负对数似然,但那是用词不当的。 c. 任何一个由负对数似然组成的损失都是定义在训练集上的经验分布和定义在模型上的概率分布之间的交叉熵。例如,均方误差是经验分布和高斯模型之间的交叉熵。 d. 我们可以将最大似然看作是使模型分布尽可能地和经验分布 pˆ_data 相匹配的尝试。理想情况下,我们希望匹配真实的数据生成分布 p_data,但我们没法直接知道这个分布。
e. 虽然最优 θ 在最大化似然或是最小化 KL 散度时是相同的,但目标函数值是不一样的。在软件中,我们通常将两者都称为最小化代价函数。因此最大化似然变成了最小化负对数似然(NLL),或者等价的是最小化交叉熵。将最大化似然看作最小化 KL 散度的视角在这个情况下是有帮助的,因为已知 KL 散度最小值是零。当 取实数时,负对数似然是负值。
2. 条件概率分布公式?

3. AdaBoost

4. AdaBoost中的Weight Trimming?

5. AdaBoost是一个具有里程碑意义的算法,因为其实第一个具有什么性质的算法?
第一个具有适应性的算法,即能适应弱学习器各自的训练误差率,这也是其名称的由来(Ada为Adaptive的简写)。
AdaBoost的具体流程为先对每个样本赋予相同的初始权重,每一轮学习器训练过后都会根据其表现对每个样本的权重进行调整,增加分错样本的权重,这样先前做错的样本在后续就能得到更多关注,按这样的过程重复训练出M个学习器,最后进行加权组合
6. AdaBoost采用指数损失的原因?

这意味着 sign(f(x)达到了贝叶斯最优错误率,即对于每个样本 x都选择后验概率最大的类别。若指数损失最小化,则分类错误率也将最小化。这说明指数损失函数是分类任务原本0-1损失函数的一致性替代函数。由于这个替代函数是单调连续可微函数,因此用它代替0-1损失函数作为优化目标。
指数损失吸引我们的地方是 1: 它良好的可计算性; 2: 在更新权重分布时简单的形式。 其他方面并不会带来比对率损失(交叉熵)更好的结果,原因如上.
统计学告诉我们,利用期望公式,然后求导可知,使得指数损失期望最小的函数正是1/2*odds。 这也就是说,指数损失的加性模型的优化过程实际上是在逼近1/2对率。 回忆,另一个逼近对率损失的代价函数是什么?当然也就是我们常见的交叉熵。因此,二者本质上有相同的解。 所以说,指数损失本身并没有带来优化上的特殊,优点在于计算和表达简单。
7. Bagging


8. Bagging和Boosting和Stacking区别?

9. CART分类树算法对于连续特征和离散特征处理的改进?

10. CART用gini指数来选择特征的原因?

11. CART算法介绍

12. CART算法伪代码?

13. How are the primal and the dual problems related?

14. kd树



15. kd树算法复杂度?

16. KKT条件中的对偶互补条件是啥?

17. KKT条件什么时候成立, 具体是啥?


18. KL散度

19. k近邻法

20. LDA优缺点?

21. logistic回归


22. Real AdaBoost是什么?

23. smo为什么要选择一个违反约束条件最严重的的点?

24. stacking



25. Why does XGBoost perform better than SVM?

26. xgboost
xgboost: A) xgboost的目标函数?

xgboost: B) 如何分布求解square loss?

xgboost: C) 如何分步求解第t个函数f_t?

xgboost: D) 树结构定义?

xgboost: E) 树的复杂度定义?

xgboost: F) 目标函数推导


xgboost: G) 举例说明如何计算树结构分数?


xgboost: H) Searching Algorithm for Single Tree ?

xgboost: I) 最优切分点划分

xgboost: J) 离散特征处理
Xgboost没有单独处理离散和连续特征, 只需要对离散特征进行one-hot编码, 然后xgboost便可使用推导出的评分公式来根据分类变量进行score split
xgboost: K) 剪枝和正则化

xgboost: L) 生成一棵树后如何Boosting?

xgboost: M) gradient boosting为什么使用泰勒展开?

xgboost: Compare GBM and XGBoost?

xgboost: Objective Function

xgboost: Regularization (正则化)

xgboost: Ridge regression , Lasso , Logistic regression?

xgboost: Tree Ensemble methods?

xgboost: what's the advantage of XGBoost over GBM?

Xgboost: XGBoost的特点?

xgboost: 二阶泰勒展开在xgboost里非常有效, 为什么通常机器学习优化还是使用梯度下降法?


xgboost: 完整的gradient boosting伪代码?


xgboost: 常见的loss function?

xgboost: 离散值为什么建议one-hot编码?

xgboost算法从头到尾推导一遍?


27. 不觉得最大熵原理很奇怪吗?

28. 为什么要考虑线性规划的对偶问题?


29. 主定理的公式?

30. 举一个CART回归树的例子?



31. 举例理解朴素贝叶斯分类器?



由于0.063>6.80×10^−5,因此,朴素贝叶斯分类器将测试样本“测1”判别为“好瓜”。
32. 什么是极大似然估计?

33. 什么是经验风险最小化?

34. 从哲学的角度解释一下最大熵原理?

35. 偏差,方差



36. 全概率公式

37. 关于最大熵模型的严重困惑:为什么没有解析解?


38. 决策树
决策树定义

剪枝

启发函数

决策树学习基本算法伪代码?

决策树算法优缺点?

决策树算法对比?



对决策树启发函数做对比?

39. 前向分步算法

40. 加法模型 (Additive Model) 和指数损失函数 (Exponential Loss)


41. 加法模型的Shrinkage?

42. 如何用图解释EM算法, 说出算法步骤?


43. 如何解决过拟合与欠拟合?

44. 对偶问题中的主问题是什么?

45. 常用核函数

46. 常见距离与相似度度量?




47. 序列最小最优化(SMO)算法




48. 感知机


感知机的优化策略是什么?

感知机的对偶形式是什么?

49. 拉格朗日函数是什么? 拉格朗日乘子是啥?

50. 提升方法
提升(boosting)是一种常用的统计学习方法,是集成学习的一种.它通过改变训练样本的权重(概率分布),学习多个弱分类器(基本分类器),并将这些分类器线性组合来构成一个强分类器提高分类的性能.
51. 提升树

52. 支持向量机基本概念

53. 最大熵模型






54. 最小二乘法

55. 期望风险是什么?

56. 朴素贝叶斯分类的优缺点

57. 机器学习常见的损失函数?




58. 概率密度函数和似然函数之间的关系?



59. 求解对偶问题的解d*

60. 用隔壁老王的故事, 说明先验分布、后验分布、似然估计这几个概念是什么意思

61. 监督学习的问题可以转化为什么? 这时候目标函数是什么?
监督学习的问题可以转化为经验风险或者结构风险函数的最优化问题
这时候经验或者结构风险函数就是最优化的目标函数。
62. 线性可分SVM的对偶算法


63. 线性可分支持向量机


64. 线性支持向量机



65. 经验风险,期望风险和结构风险的区别是什么?

66. 经验风险是什么?

67. 结构风险是什么?

68. 结构风险最小化的目的是啥, 为什么要定义结构风险函数?

69. 给出一个贝叶斯分类的例子?



70. 讲一个关于卷积的一个血腥故事?

71. 贝叶斯公式是什么

72. 贝叶斯分类器


73. 逻辑回归损失函数为什么使用最大似然估计而不用最小二乘法?


74. 非线性支持向量机

75. 风险函数与监督学习的关系
监督学习的目的就是选择令期望风险最小化的模型,但是由于联合分布 P(x,y)未知,风险函数的值并不能直接计算,所以监督学习就称为一个病态问题(ill-formed problem)。
76. Batch Normalization 和 Group Normalization有何区别?
BN是在 batch这个维度上进行归一化,GN是计算channel方向每个group的均值和方差
(未完待续)
网友评论