1. SVM和LR需要对数据按列归一化的理由是什么?
归一化是将不同量纲的数据统一到同一数量级下,归一化后加快了梯度下降求最优解的速度和有可能提高精度。逻辑回归是用梯度下降求解,归一化可以让模型快速迭代,达到最优解;SVM本身是有分割平面和支持向量的,而这些概念实际上都和“距离”相关。如果数据本身有些特征非常大,而且又没有做归一化,那最后的结果往往不好。甚至不收敛,或者死循环。
2. 文哲老师周末对比了 local generalization 和 global generalization,请问为什么one-hot 适合 local generalization?
???什么地方将过?
我理解local generalization是指对于两个输入样本x和x',如果这两个样本之间的距离很近,则对于要学习的函数f而言,f(x)和f(x')的值应该也相差不多。因此我认为,文本表示方法选用系数的表示方法或者分布式表示方法跟local还是global generalization关系其实并不大,分布式表示有助于提升泛化性能。不管是局部还是非局部;而onehot 表示不利于提升泛化性能。
3. 有什么模型可以根据文本生成图的任务?
还有这么牛逼的算法?
GAN、CGAN、StackGAN
4. Word2Vec中negative sampling和hierarchical softmax有什么联系吗?
两种方法都是对归一化项计算的优化
5. hierarchical softmax(better for infrequent words) vs negative sampling(better for frequent words, better with low dimensional vectors)怎么理解?
- Hierarchical Softmax:
简单来说,应用Hierarchical Softmax就是把 N 分类问题变成 log(N)次二分类。对于Hierarchical Softmax,应用于大量语料计算时,这个优化减少的时间就已经不明显了,还是很慢。- Negative Sampling:
本质就是一个预测全部分类的变成预测总体类别的子集的方法。
网友评论