代码地址实体关系抽取是信息抽取任务中非常基础且必要的工作。实体关系主要有一对一、多对一、多对多等。今天从实践的角度...[作者空间]
本篇文章译自 Chris McCormick的BERT Word Embeddings Tutorial 在这篇文...[作者空间]
引言 “结巴”分词是一个Python 中文分词组件,参见https://github.com/fxsjy/jieb...[作者空间]
Numpy库、pytorch库和tensorflow库中,存在一个非常通用但鲜为人知的函数,称为einsum(),...[作者空间]
数据探索是进行数据分析和建模的关键步骤,笔者推荐一本书 .目前大数据已经成为热词,但是如果真的获取了很多数据,是不...[作者空间]
本文主要用于记录Facebook AI研究中心于2017年提出的一种基于监督学习的句向量表达方式。该文也是业界最先...[作者空间]
1 检查是否对称 一般来说,统计量较小的时候使用点图,n较大的时候使用直方图,可以揭示一元分布的一个尾部比另一个长...[作者空间]
让语音助手发100元红包给好友,结果它真发了“100元红包”几个大字...... 让智能客服帮我推荐一下衣服尺码,...[作者空间]
全文共3492字,预计学习时长15分钟 前几天,Z同学面试完一脸生无可恋地问我,“你知道XGBoost吗?” “当...[作者空间]
在NLP(自然语言处理)领域,文本表示是第一步,也是很重要的一步,通俗来说就是把人类的语言符号转化为机器能够进行计...[作者空间]
TF-IDF 算法 TF 算法是统计一个词在一篇文档中出现的频次,其基本思想是,一个词在文档中出现的次数越多,则对...[作者空间]
关键词提取算法 有监督 无监督 有监督 通过分类的方式进行,通过构建一个较为丰富和完善的词表,然后判断每个文档与词...[作者空间]
TextRank 算法可以脱离语料库的背景,仅对单篇文档进行分析就可以提取该文档的关键词。 PageRank 算法...[作者空间]
循环神经网络相对于前馈神经网络的有哪些优点? 传统的前馈神经网络一般的输入都是一个定长的向量,无法处理变长的序列信...[作者空间]
设想一个场景,你和一个智能机器人在一位法官面前,但法官看不到你,却要判断两者中谁是血肉之躯的人。如果法官认为你是真...[作者空间]
蒙特卡罗方法 原理是通过大量随机样本,去了解一个系统,进而得到所要计算的值。 概率分布采样 如何基于概率分布去采样...[作者空间]
在概率模型中,最常用的模型参数估计方法应该就是最大似然法。EM算法本质上也是最大似然,用于含有隐变量(hidden...[作者空间]
数学符号——构建字典 建立字典(对于商业应用来说,或者对于一般规模的商业应用来说 30,000 到 50,000 ...[作者空间]
“她热爱科技行业,因为她喜欢创造新事物,这也是我诞生的原因。” 聊天机器人 EstherBot 这么介绍自己的主人...[作者空间]
在本章中,我们将从整本书的角度回顾前面的章节,并了解本书中讨论的看似独立的主题是如何相互依赖的,以及研究人员如何将...[作者空间]