DSSM 是很有意思的一种深度学习模型,个人对这个模型确实很感兴趣,它打破了对 word 做 WordEmbedding 的概念,而是可以直接对 Query 和 Doc 做 Embedding,而解决 One Hot 维度爆炸的方法就是借助了 Word Hashing 的巧妙设计。英文场景下 tri-grams 的 word hashing 方法取得很不错的效果,冲突概率也仅有 0.0044%,还是可以接受的;在中文场景下因为没有天然分词,确实会更难一些,需要一种针对中文的巧妙的 word hashing 方法。
目前没有看到相关靠谱资料,听说有将汉语文字转化成拼音的,还有将汉语文字转化成笔画的。蚂蚁金服之前推出了一个基于汉语拼音笔画的 DSSM 尝试,成为 cw2vec 算法,如下两篇资源介绍:
https://yq.aliyun.com/articles/376139
https://bamtercelboo.github.io/2018/05/11/cw2vec/
另外还有一点值得一提的是,DSSM 在训练时尽量避免了对原始数据的处理,并且用一个滑动窗口在数据上进行遍历,这种计算方式和图像识别算法感觉颇为相似,这给我们一点启发,就是是否可以打破思维界限,将图像识别算法引入自然语言处理的可能性
下面几篇资源介绍了 DSSM 和它的一些变体,可以作为参考目录自行深度研究
https://www.cnblogs.com/baiting/p/7195998.html
https://blog.csdn.net/zkq_1986/article/details/79128844
论文已经下载 在本地电脑 D://资料/VIP 论文/DSSM
相关论文:
Huang P S, He X, Gao J, et al. Learning deep structured semantic models for web search using clickthrough data[C]// ACM International Conference on Conference on Information & Knowledge Management. ACM, 2013:2333-2338.
Shen, Yelong, et al. “A latent semantic model with convolutional-pooling structure for information retrieval.” Proceedings of the 23rd ACM International Conference on Conference on Information and Knowledge Management. ACM, 2014.
Palangi, Hamid, et al. “Semantic modelling with long-short-term memory for information retrieval.” arXiv preprint arXiv:1412.6629 (2014).
Elkahky, Ali Mamdouh, Yang Song, and Xiaodong He. “A multi-view deep learning approach for cross domain user modeling in recommendation systems.” Proceedings of the 24th International Conference on World Wide Web. International World Wide Web Conferences Steering Committee, 2015.
网友评论