1. 了解过哪些embedding技术?
-
one-hot vector
-
SVD Based Methods
- Word-Document Matrix
-
Window based Co-occurrence Matrix
-
Iteration Based Methods
- Language Models(Unigrams, Bigrams, etc.)
- Continuous Bag of Words Model(CBOW)
- Skip-Gram Model(Skip-gram)
2. 计算相似度的方法?
- 欧氏距离:
- 余弦相似度:
- Jaccard距离:
3. tfidf有哪些优化方法?实现tfidf
特征维度是词表维度。
https://www.cnblogs.com/lianyingteng/p/7755545.html
4. 基于SVD的方法有哪些?SVD分解的时间复杂度?
-
Word-Document Matrix
-
Window based Co-occurrence Matrix
-
Applying SVD to the cooccurrence matrix
dimensions
5. skip-gram和CBOW有什么不同,哪个性能更好?
- skip-gram:跳字模型,中心词预测上下文词。CBOW:连续词袋模型,上下文词预测中心词。
- skip-gram:一般使用跳字模型的中心词向量作为词的表征向量。CBOW:一般使用连续词袋模型的背景词向量作为词的表征向量。
6. word2vec,层次softmax,用什么树,哈夫曼树,怎么做层次softmax?
两种模型:Skip-gram、CBOW;两种优化算法:层次Softmax、负采样。
Skip-gram:
模型:
似然函数:
损失函数:
CBOW:
模型:
似然函数:
损失函数:
Negative Sampling:
损失函数:
Hierarchical Softmax:
损失函数:
霍夫曼树:
Huffman树(霍夫曼树/最优二叉树):给定n个权值作为n个叶子节点,则带权路径最小的树称为Huffman树。
Huffman树的构造:
给定个权值作为二叉树的个叶子节点,则以此构造Huffman树的算法如下所示:
- 将看成是有棵树的森林(每棵树仅有一个节点)
- 从森林中选择两个根节点权值最小的树合并,作为一棵新树的左右子树,且新树的根节点权值为其左右子树根节点权值之和
- 从森林中删除被选中的两棵树,并且将新树加入森林
- 重复2-3步,知道森林中只有一棵树为止,则该树即所求的Huffman树
https://www.zybuluo.com/Dounm/note/591752
7. 当今embedding技术有哪些挑战与机遇?
word2vec、Glove、BERT、RoBERTa、XLNET...等。
1. 简单介绍一下word2vec和fasttext?
两种词嵌入技术;
- word2vec包含
跳字模型
和连续词袋模型
。跳字模型假设基于中心词来生成背景词。连续词袋模型假设基于背景词来生成中心词。而有监督fasttext的学习目标是人工标注的分类结果(比如情感分类的情感标签)
。 - word2vec只能用于
无监督
训练,而fasttext可以用于有监督
训练。 - fastText提出了
子词嵌入
方法。它在word2vec中的跳字模型的基础上,将中心词向量表示成单词的子词向量之和。 - 子词嵌入利用构词上的规律,通常可以提升
生僻词
表示的质量。
2. word2vec与glove的区别?
- word2vec可以进行在线学习,而Glove需要统计固定预料信息。
- word2vec使用交叉熵(Cross Entropy)作为损失函数,而Glove的损失函数可以是最小(对数)平方函数。
3. 说一下fasttext,有什么好处?
- fastText提出了子词嵌入方法。它在word2vec中的跳字模型的基础上,将中心词向量表示成单词的子词向量之和。
- 子词嵌入利用构词上的规律,通常可以提升生僻词表示的质量。
4. 有哪些Embedding模型?
word2vec、Glove、BERT、RoBERTa、XLNET...等。
网友评论