最近研究了下无词典分词,看了一些论文和博客文章,最终选取了基于 互信息和左右邻接信息熵的方案来做分词,在人民日报的...[作者空间]
通过前面几个小节的学习,我们现在已经学会了如何获取文本预料,然后分词,在分词之后的结果上,我们可以提取文本的关键词...[作者空间]
自动机 自动机是一种理想化的“机器”,它只是抽象分析问题的理论工具,并不具有实际的物质形态。它是科学定义的演算机器...[作者空间]
形式语言 1. 关于语言的定义 人类所特有的用来表达意思、交流思想的工具,是一种特殊的社会现象,由语音、词汇和语法...[作者空间]
? 有词典切分/ 无词典切分? 基于规则的方法/ 基于统计的方法 1. 最大匹配法(Maximum Matchin...[作者空间]
马尔可夫模型描述 存在一类重要的随机过程:如果一个系统有个状态, 随着时间的推移,该系统从某一状态转移到另一状态。...[作者空间]
模型:gensim工具包TF-IDF模型 维基百科语料数据(30万词条)+百度百科(500万) 利用jieba分词...[作者空间]
步骤 分词、去停用词 词袋模型向量化文本 TF-IDF模型向量化文本 LSI模型向量化文本 计算相似度 理论知识 ...[作者空间]
命名实体识别 命名实体的提出源自信息抽取问题,即从报章等非结构化文本中抽取关于公司活动和国防相关活动的结构化信息,...[作者空间]
word2vec是Google于2013年开源推出的一个用于获取词向量的工具包,它简单、高效,因此引起了很多人的关...[作者空间]
本系列第三篇,承接前面的《浅谈机器学习基础》和《浅谈深度学习基础》。 自然语言处理绪论 什么是自然语言处理? 自然...[作者空间]
理解条件随机场最好的办法就是用一个现实的例子来说明它。但是目前中文的条件随机场文章鲜有这样干的,可能写文章的人都是...[作者空间]
Ricequant团队出品,如需转发请注明且请私信联系,否则必究。 原文:https://www.ricequan...[作者空间]