pyspark 实现word2vec（词向量化）

pyspark 实现word2vec（词向量化）

作者: 米斯特芳 | 来源:发表于2021-07-26 08:04 被阅读0次

pyspark 实现word2vec（词向量化）
20201024-词的向量转换之NNLM
NLP模型
利用Word2vec简单的计算文本相似度
Word2Vec的CBOW与Skip-Gram模型
word2vec 的相关概念
word2vec、负采样、层序softmax
pytorch之wod2vec实现
word2vec的推导与实现
Embedding+抽取式摘要

from pyspark.ml.feature import Word2Vec
# $example off$
from pyspark.sql import SparkSession

spark = SparkSession\
    .builder\
    .appName("Word2VecExample")\
    .getOrCreate()

documentDF = spark.createDataFrame([
    ("Hi I heard about Spark".split(" "), ),
    ("I wish Java could use case classes".split(" "), ),
    ("Logistic regression models are neat".split(" "), )
], schema=["text"])# schema可以为列名

# Learn a mapping from words to Vectors.
# 将每个元素转为vectorSize长度的向量，minCount：计数为此以上的单词才纳入训练模型，inputCol：输入列。其他默认值
word2Vec = Word2Vec(vectorSize=3, minCount=0, inputCol="text", outputCol="result",maxIter=1,numPartitions=1,stepSize=0.025,windowSize=5,maxSentenceLength=1000)
model = word2Vec.fit(documentDF)

result = model.transform(documentDF)
for row in result.collect():
    text, vector = row
    print("Text: [%s] => \nVector: %s\n" % (", ".join(text), str(vector)))

model.getVectors().head(50)# 用head查看各单词的向量表示，可以发现，语句的向量表示并非由单词的向量相加而成
model.findSynonymsArray("I", 2)# 找出2个与I同义的词

相关文章

pyspark 实现word2vec（词向量化）
20201024-词的向量转换之NNLM
概述谈到NLP不得不介绍word2vec，word2vec可以很宽泛的理解，就是词的向量化过程，而这一过程是经历...
NLP模型
2020-01-11 word2vec 词袋每个词有一个对应的onehot编码可以得到文本的向量化结果，向量长度...
利用Word2vec简单的计算文本相似度
word2vec是google在13年推出的NLP工具，特点是将词向量化，词与词之间就可以定量的去度量之间的关系，...
Word2Vec的CBOW与Skip-Gram模型
word2vec是google在2013年推出的一个NLP工具，它是将所有的词向量化，这样词与词之间就可以定量的去...
word2vec 的相关概念
1、word2vec 的概念 word2vec ：将词映射到一个词空间中，故 word2vec 被称为词嵌入；并且...
word2vec、负采样、层序softmax
word2vec word2vec也叫word embeddings,中文名“词向量”、"词嵌入"。是Google...
pytorch之wod2vec实现
10.3 word2vec的实现介绍在语料库上训练的词嵌入模型的实现。我们将会介绍一些实现中的技巧，如二次采样（...
word2vec的推导与实现
带着问题看文章 word2vec是怎么实现的？略过，看论文，先不总结 Wordvec怎么得到词向量？那么word2...
Embedding+抽取式摘要
1）对于某个文档进行分句 2）对于每个分句使用Word2Vec等工具进行向量化（Word Embedding）， ...

网友评论

本文标题：pyspark 实现word2vec（词向量化）

本文链接：https://www.haomeiwen.com/subject/idjpmltx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|pyspark 实现word2vec（词向量化）|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！