自动机 自动机是一种理想化的“机器”,它只是抽象分析问题的理论工具,并不具有实际的物质形态。它是科学定义的演算机器...[作者空间]
形式语言 1. 关于语言的定义 人类所特有的用来表达意思、交流思想的工具,是一种特殊的社会现象,由语音、词汇和语法...[作者空间]
AI·OS(Online Serving),大数据深度学习在线服务体系,由我们工程、算法、效率的同事们砥砺十年而成...[作者空间]
1. 当我们在说一致性,我们在说什么? 在分布式环境下,一致性指的是多个数据副本是否能保持一致的特性。 在一致性的...[作者空间]
TextRank是一种用来做关键词提取的算法,也可以用于提取短语和自动摘要。因为TextRank是基于PageRa...[作者空间]
转TextRank算法提取关键词的Java实现谈起自动摘要算法,常见的并且最易实现的当属TF-IDF,但是感觉TF...[作者空间]
1.simHash算法过程: 参考论文来源 《Similarity estimation techniques f...[作者空间]
1、ES并发冲突问题 2、悲观锁与乐观锁两种并发控制解决方案 悲观锁的优点是:方便,直接加锁,对应用程序来说,透明...[作者空间]
摘要:ES目前是最流行的开源分布式搜索引擎系统,其使用Lucene作为单机存储引擎并提供强大的搜索查询能力。学习其...[作者空间]
1. 姓名搜索的特殊性 大部分人在搜索框键入汉字的时候用的是拼音输入法,所以大部分人员搜索纠错问题其实是拼音纠错问...[作者空间]
1. 用户查询与返回结果相关度度量 1.1 相似性计算:空间向量余弦夹角 https://www.jianshu....[作者空间]
对于商业搜索引擎来说,分布式爬虫架构是必须采用的技术。面对海量待抓取网页,只有采用分布式架构,才有可能在较短时间内...[作者空间]
相似度度量(Similarity),即计算个体间的相似程度,相似度度量的值越小,说明个体间相似度越小,相似度的值越...[作者空间]
软件版本: CentOS 7.3 elasticsearch5.0.0 jdk 1.8.0_111 vim ...[作者空间]
Bully算法 bully算法是一个分布式系统中动态选择master节点的算法,进程号最大的非失效的节点将被选为m...[作者空间]
最近面试一些公司,被问到的关于Elasticsearch和搜索引擎相关的问题,以及自己总结的回答。 Elastic...[作者空间]
佩奇排名(PageRank),又称网页排名、谷歌左侧排名,是一种由搜索引擎根据网页之间相互的超链接计算的技术,而作...[作者空间]
Elasticsearch 架构以及源码概览 Elasticsearch是最近两年异军突起的一个兼有搜索引擎和No...[作者空间]