美文网首页程序开发我爱编程
2018.03.11 周日--【技术文章】《搜索引擎sphin

2018.03.11 周日--【技术文章】《搜索引擎sphin

作者: 算法成瘾者 | 来源:发表于2018-03-11 18:35 被阅读47次

    一、搜索引擎 & sphinx

        1.1) 【搜索引擎的概念】


        搜索引擎(Search Engine)是指根据一定的策略、运用特定的计算机程序互联网上搜集信息,在对信息进行组织处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。搜索引擎包括全文索引目录索引元搜索引擎垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。

        组成: 一个搜索引擎由搜索器 、索引器 、检索器 和用户接口 四个部分组成。

        1.2)【sphinx是什么】


        Sphinx是一个基于SQL的全文检索引擎,可以结合MySQL,PostgreSQL做全文搜索,它可以提供比数据库本身更专业的搜索功能,使得应用程序更容易实现专业化的全文检索。Sphinx特别为一些脚本语言设计搜索API接口,如PHP,Python,Perl,Ruby等,同时为MySQL也设计了一个存储引擎插件。

        1.3)【sphinx的特点&架构】


        1️⃣快速创建索引:3分钟左右即可创建近100万条记录的索引,并且采用了增量索引的方式,重建索引非常迅速。

        2️⃣闪电般的检索速度:尽管是1千万条的大数据量,查询数据的速度也在毫秒级以上,2-4G的文本量中平均查询速度不到0.1秒。

        3️⃣为很多脚本语言设计了检索API,如PHP,Python,Perl,Ruby等,因此你可以在大部分编程应用中很方便地调用Sphinx的相关接口。

        4️⃣为MySQL设计了一个存储引擎插件,因此如果你在MySQL上使用Sphinx,那简直就方便到家了。

        5️⃣支持分布式搜索,可以横向扩展系统性能。

    php+mysql+sphinx架构图

    1.4)【sphinx的工作流程】


    sphinx的工作流程

    流程图解释:

        Database:数据源,是Sphinx做索引的数据来源。因为Sphinx是无关存储引擎、数据库的,所以数据源可以是MySQL、PostgreSQL、XML等数据。

        Indexer:索引程序,从数据源中获取数据,并将数据生成全文索引。可以根据需求,定期运行Indexer达到定时更新索引的需求。

        Searchd:Searchd直接与客户端程序进行对话,并使用Indexer程序构建好的索引来快速地处理搜索查询。

        APP:客户端程序。接收来自用户输入的搜索字符串,发送查询给Searchd程序并显示返回结果。

    二、sphinx的安装

        2.1)【sphinx在mysql上的应用】


    Sphinx在mysql上的应用有两种方式:

        ①、采用API调用,如使用PHP、java等的API函数或方法查询。优点是可不必对mysql重新编译,服务端进程“低耦合”,且程序可灵活、方便的调用;

    缺点是如已有搜索程序的条件下,需修改部分程序。推荐程序员使用。

        ②、使用插件方式(sphinxSE)把sphinx编译成一个mysql插件并使用特定的sql语句进行检索。其特点是,在sql端方便组合,且能直接返回数据给客户端。不必二次查询(注),在程序上仅需要修改对应的sql,但这对使用框架开发的程序很不方便,比如使用了ORM。另外还需要对mysql进行重新编译,且需要mysql-5.1以上版本。

    #下载最新稳定版

    wget http://www.sphinxsearch.com/downloads/sphinx-0.9.9.tar.gz

    tar xzvf sphinx-0.9.9.tar.gz

    cd sphinx-0.9.9

    ./configure --prefix=/usr/local/sphinx/  --with-mysql  --enable-id64

    make

    make install

    2.2)【安装中文分词插件】


        1️⃣ 中文分词:中文的全文检索和英文等latin系列不一样,后者是根据空格等特殊字符来断词,而中文是根据语义来分词。目前大多数数据库尚未支持中文全文检索,如Mysql。故,国内出现了一些Mysql的中文全文检索的插件,做的比较好的有hightman的中文分词。Sphinx如果需要对中文进行全文检索,也得需要一些插件来补充。其中我知道的插件有 coreseek 和 sfc 。

        2️⃣升级autoconf:这里以coreseek为例子,因为coreseek需要autoconf 2.64以上版本,因此需要升级autoconf,不然会报错。从http://download.chinaunix.net/download.php?id=29328&ResourceID=648下载autoconf-2.64.tar.bz2,安装方法如下:

    tar -jxvf autoconf-2.64.tar.bz2

    cd autoconf-2.64

    ./configure

    make

    make install

        3️⃣安装coreseek:

    wget http://www.wapm.cn/uploads/csft/3.2/coreseek-3.2.14.tar.gz

        4️⃣安装mmseg(coreseek所使用的词典)

    tar xzvf coreseek-3.2.14.tar.gz

    cd mmseg-3.2.14

    ./bootstrap    #输出的warning信息可以忽略,如果出现error则需要解决

    ./configure --prefix=/usr/local/mmseg3

    make && make install

    cd ..

        5️⃣安装coreseek(sphinx)

    cd csft-3.2.14

    sh buildconf.sh    #输出的warning信息可以忽略,如果出现error则需要解决

    ./configure --prefix=/usr/local/coreseek  --without-unixodbc --with-mmseg --with-mmseg-includes=/usr/local/mmseg3/include/mmseg/ --with-mmseg-libs=/usr/local/mmseg3/lib/ --with-mysql

    make && make install

    cd ..

        6️⃣测试mmseg分词和coreseek搜索

    备注:需要预先设置好字符集为zh_CN.UTF-8,确保正确显示中文,我的系统字符集为en_US.UTF-8也是可以的。

    cd testpack

    cat var/test/test.xml  #此时应该正确显示中文

    /usr/local/mmseg3/bin/mmseg -d /usr/local/mmseg3/etc var/test/test.xml

    /usr/local/coreseek/bin/indexer -c etc/csft.conf --all

    /usr/local/coreseek/bin/search -c etc/csft.conf 网络搜索

    此时正确的应该返回

    words:

    1. '网络': 1 documents, 1 hits

    2. '搜索': 2 documents, 5 hits

    三、使用mysql

    这里以coreseek版的sphinx为版本,如果是sphinx本身,将路径中的 coreseek修改成sphinx即可

    $cd /usr/local/coreseek/etc

    $ cp sphinx.conf.distcsft.conf

    $ vi csft.conf

    这里,sphinx提供了一个简单的例子,基本步骤是先将修改csft.conf其中的配置,主要是修改你服务器上面的mysql的用户名、密码、使用的数据库等。修改的位置是csft.conf的source src1下面几行。

    $ mysql -u test < /usr/local/coreseek/etc/example.sql

    这里是导入sphinx准备的测试数据,我们把数据导入到mysql的test数据库中。

    生成索引

    $ /usr/local/coreseek/bin/indexer --all

    实际搜索

    $ /usr/local/coreseek/bin/search test

    结果如图:

    实际搜索结果

    四、sphinx在php中的使用

        这里给一个demo:

    sphinx搜索的一个例子

    相关文章

      网友评论

      本文标题:2018.03.11 周日--【技术文章】《搜索引擎sphin

      本文链接:https://www.haomeiwen.com/subject/utpwfftx.html