在机器学习领域的特征,一般是一个id,而且给这个id赋一个值。
1、这个特征值的表达一般可以通过统计的tf 或其他类似的数字表示。
2、比较难于理解的是hash在特征表达里也能起到比较重要的作用。 通过对特征运用hash函数,获得对应的值。裁剪、分桶获取对应的位表示。可以用作特征,起到降维的作用。
3、还有现在比较流行的是用embedding的方式,将特征映射到一定维度的实数空间里,相比hash不一样的是,这种做法一般是神经网络的迭代方式,而不是hash的非迭代云素昂方式,hash依赖的的hash核函数要设计的比较好(这个门槛比较高)。 embedding发热,主要源于word2vec的盛行, 在知识图谱领域演化了很多类似的TransE、TransR等方法。
---------------------
作者:zhoujunbuaa
来源:CSDN
原文:https://blog.csdn.net/zhoujunbuaa/article/details/50119491
版权声明:本文为博主原创文章,转载请附上博文链接!
为什么需要 hash trick
https://blog.csdn.net/wm_1991/article/details/50463237?utm_source=blogxgwz1
hash trick 的一个使用, 但是 不知道后续 如何用??
https://blog.csdn.net/panjiao119/article/details/78099620
目前hash用的 场景没那么大,使用起来没看到 例子
倒是word2vec 或者embedding这种方式, 在深度学习模型里面用的很多 是关键
网友评论