搜索引擎的架构
搜索引擎有三个主要阶段:
爬虫,内容的发现。
数据库中内容的索引、分析和存储。
搜索,检索相关搜索结果的列表。
让我们看一下搜索系统的架构。它们几乎都具有三个子系统:爬虫、搜索器和数据库。这里简单解释一下其中的两个(因为我们都知道什么是数据库)。
网络爬虫是一个离线子系统。它是一种检索网页并创建和生成基于文本的索引的软件。爬虫需要一个或多个种子 URL 来下载相关页面,提取超链接,然后定期下载页面。
搜索 器是一个在线组件,它处理查询。该算法根据几个参数(想想 SEO)对页面进行排名,包括 PageRank、锚文本的数量、跳出率等。点击次数衡量不同相邻级别的页面质量,然后将这些计数路由到多个查找表并转换为排名。
什么是去中心化搜索引擎?
去中心化的搜索引擎没有单一的控制点。爬取、索引、数据挖掘和处理分布在网络中的对等节点之间,像 YaCy 、 FAROO 这样的去中心化搜索引擎在点对点网络上运行。
YaCy 搜索引擎有五部分。P2P 网络、爬虫、索引器、数据库和用户搜索接口。当一个节点加入网络时,它的本地搜索索引加入网络的索引。因此,当用户发起搜索时,本地和全局索引都会对搜索结果产生影响。
区块链和搜索引擎,去中心化的未来
区块链和去中心化可以防止像谷歌这样的互联网巨头再次出现。此外,它可以削弱目前谷歌在市场上的地位,剥夺它急需的数据,缺少这些数据将摧毁我们目前生活的整个系统。有了区块链,每个人都会使用匿名作为默认选项保留对其数字身份和个人数据的完全控制。没有人可以跟踪你、使用你的数据来对付你、审查你或将你完全锁定在在线服务之外。第四次工业革命 [1]不仅与数字化和自动化有关,还与重新控制我们的隐私和数据完整性有关。
是的,如果你注册像 Lolli 这样的服务并同意将你的数据价值 token 化,区块链也可以跟踪你的行为,但这将完全由你决定。
搜索,是很重要的。去中心化的搜索,对未来的人们来说,那当然是非常重要。
网友评论