最近出于兴趣和需要,重新回顾中文分词技术,期间有些心得,以及一些关于自然语言处理的浅薄之见,这里简单分享一下。 首...[作者空间]
使用如下命令安装torchtext[作者空间]
kenlm是一个linux下快速轻量的语言模型训练工具。 下载 或者 安装依赖 编译安装 以上两种来源区别我也不是...[作者空间]
sentence-similarity 问题句子相似度计算,即给定客服里用户描述的两句话,用算法来判断是否表示了相...[作者空间]
前言 关键词提取就是从文本里面把跟这篇文章意义最相关的一些词语抽取出来。这个可以追溯到文献检索初期,关键词是为了文...[作者空间]
中文分词 一、简介 中文分词主要有三种技术,分别为: 1.1 规则分词 规则分词主要是通过人工设立词库,按照一定方...[作者空间]
如何gensim加载glove训练的词向量 一、前言 glove和word2vec是目前最常用的两个训练词向量的模...[作者空间]
一、Pytorch+torchvision conda install pytorch torchvision -...[作者空间]
Dataset WMT2018 AI challenger(英中翻译规模最大的口语领域英中双语对照数据集) UM-...[作者空间]
前言 从本文开始,我们进入实战部分。首先,我们按照中文自然语言处理流程的第一步获取语料,然后重点进行中文分词的学习...[作者空间]
2016年全球瞩目的围棋大战中,人类以失败告终,更是激起了各种“机器超越、控制人类”的讨论,然而机器真的懂人类吗?...[作者空间]
1 LTP 简介 LTP提供了一系列中文自然语言处理工具,用户可以使用这些工具对于中文文本进行分词、词性标注、句法...[作者空间]
独热编码 独热编码即 One-Hot 编码,又称一位有效编码,其方法是使用N位状态寄存器来对N个状态进行编码,每个...[作者空间]
词向量是用来表示词的向量,通常也被认为是词的特征向量。现在已经成为自然语言处理的基础技术。词向量的好坏,会直接影响...[作者空间]
背景 由于目前没有公开的免费的中文短文本摘要数据集,正好在之前的项目中有收集过这样的数据。现在把之前整理的数据公开...[作者空间]
python3 实现的中文分词新词发现 关于中文新词发现有多种方法,经过比较之后发现利用互信息和左右熵来做新词发现...[作者空间]
最近使用中文维基百科数据训练Word2Vec时,发现数据里面包含了很多繁体字,这就很尴尬了。这时候就知道OpenC...[作者空间]
最近有任务要对句子和文档的相似读进行评估计算,学习了词向量的相关知识,并做了简单的测试。在测试过程中发现网上完整且...[作者空间]
佩奇排名(PageRank),又称网页排名、谷歌左侧排名,是一种由搜索引擎根据网页之间相互的超链接计算的技术,而作...[作者空间]
步骤 分词、去停用词 词袋模型向量化文本 TF-IDF模型向量化文本 LSI模型向量化文本 计算相似度 理论知识 ...[作者空间]