文本相似性的应用场景会有很多,在工业界我粗略遇到过: 热点做舆情识别监控的时候,需要对全网文章进行聚合,聚合过程中...[作者空间]
前言 在自然语言处理领域,我们有一种类型的问题是如何在一堆文本中提取出核心词/句子。而无论是对于长文本还是短文本,...[作者空间]
更多来自于GitHub:Reflection_Summary. Bert的双向体现在什么地方? mask+atte...[作者空间]
前言 最近在看AutoML,业界在 automl 上的进展还是很不错的,个人比较看好这个方向,所以做了一些了解: ...[作者空间]
本系列为深入篇,尽可能完善专题知识,并不会所有的都会出现在面试中,更多内容,详见:Reflection_Summa...[作者空间]
本系列为深入篇,尽可能完善专题知识,并不会所有的都会出现在面试中,更多内容,详见:Reflection_Summa...[作者空间]
我们搞了个python的工具包PyTls。 做这件事的初衷是发生了一个星期要用python同时开发3个项目的情况,...[作者空间]
上个月由于业务需要定制化了一个中文语境下的手机号码识别库YMMNlpUtils DEMO解析 Github地址 现...[作者空间]
本期围绕jieba讲一个我遇到的实际问题,在同一个服务里,存在两个不同接口A和B,都用到了jieba分词,区别在于...[作者空间]
我一直觉得算法工程师,两把刷子,过硬的算法基础知识,可靠的代码工程能力即可; 最近和一些老朋友交流了一下,发现理想...[作者空间]
最近在python开发的过程中,发现了一些比较有意思的问题,确实让自己在开发过程中被恶心了一把,所以开了这个连续的...[作者空间]
最近在做一个关于中文大段文本中的手机号码识别,由于属于对抗性的一个文本,发现传统的手机号码识别方法,比如正则匹配并...[作者空间]
1 HMM模型 马尔科夫过程: 以天气判断为例:引出隐马尔科夫模型image.pngimage.png 以天气判断...[作者空间]
实在是太忙了,抽空给大家解析一下之前写的YoutubeNet的数据是怎么构造的,协助大家可以自行构造一下。 这边和...[作者空间]
本文主要用于理解主题模型LDA(Latent Dirichlet Allocation)其背后的数学原理及其推导过...[作者空间]
一台电脑, 多个github帐号的SSH key切换, 更新多个hexo博客 github账号,工作有一个,自己有...[作者空间]
向量化 在之前,我对向量化的方法一直局限在两个点, 第一种是常规方法的one-hot-encoding的方法,常见...[作者空间]
主要包含的内容:几种常用数据类型list--->str---->dict--->set的基本转换、常用的操作、文本...[作者空间]
很荣幸有机会和论文作者Emre Sargin关于之前发的Deep Neural Networks for YouT...[作者空间]
最近在做一些nlp相关的项目,在涉及到Stanford CoreNLP工具包处理中文分词的时候,发现耗时问题很严重...[作者空间]