SCWS
简介
SCWS 是 Simple Chinese Word Segmentation 的首字母缩写(即:简易中文分词系统)。 这是一套基于词频词典的机械式中文分词引擎,它能将一整段的中文文本基本正确地切分成词。
SCWS 采用纯 C 语言开发,不依赖任何外部库函数,可直接使用动态链接库嵌入应用程序,支持的 中文编码包括 GBK
、UTF-8
等。此外还提供了 PHP 扩展模块,可在 PHP 中快速 而方便地使用分词功能。
安装
目前 scws 只提供源码包,和大多数 GNU 软件的编译安装步骤一样。下面我们以 Linux
系统为例, 要求装有 gcc
编译器。Windows
上则建议用 cygwin 或 mingw 环境编译。
-
取得 scws 源码并解压到当前目录
wget -q -O - http://www.xunsearch.com/scws/down/scws-1.2.3.tar.bz2 | tar xjf -
-
进入源码目录配置和编译
cd scws-1.2.3 ; ./configure ; make install
注意:这是以默认方式安装到
/usr/local
目录。详细配置参数执行./configure --help
查看。
php扩展
在 UNIX 类的系统上,请直接从源码方式编译安装 PHP 扩展;对于 windows 系统,请直接下载我们编译好的
php_scws.dll
即可。
假定您已经将 scws 安装到 $prefix
目录,还要求系统环境装有 autoconf automake 及 phpize 工具。
-
进入源码目录的 phpext/ 并执行
phpize
(位于 php 安装目录下的 bin 目录里) -
执行
configure
进行配置和基础检测,假定您的 php 安装在$php_prefix
目录./configure --with-scws=/usr/local --with-php-config=$php_prefix/bin/php-config
如果php不是通过编译安装,可通过
whereis php-config
查看位置 -
先编译然后以
root
身份安装make sudo make install
-
在 php.ini 中加入以下内容
[scws] ; 注意请检查 php.ini 中的 extension_dir 的设定值是否正确, 否则请将 extension_dir 设为空, ; 再把 extension = scws.so 或 php_scws.dll 指定绝对路径。 extension = scws.so scws.default.charset = utf8 scws.default.fpath = /usr/local/etc
-
命令行下执行
php -m
就能看到 scws 了,phpinfo() 也会包含关于 scws 的信息。 -
windows 下的 php 扩展是采用 dll 库文件。我们已预编译若干个版本,采用 zip 压缩位于
phpext/win32/php_scws-1.2.1-win32.zip
,请直接解压后选择相应版本的php_scws.dll
。
将它复制到 PHP 的扩展目录中(通常是 extensions 或 ext 目录),然后参考上面的方式修改php.ini
。
字典安装
[hightman@d1 /usr/local/etc]$ wget http://www.xunsearch.com/scws/down/scws-dict-chs-gbk.tar.bz2
[hightman@d1 /usr/local/etc]$ wget http://www.xunsearch.com/scws/down/scws-dict-chs-utf8.tar.bz2
[hightman@d1 /usr/local/etc]$ tar xvjf scws-dict-chs-gbk.tar.bz2
[hightman@d1 /usr/local/etc]$ tar xvjf scws-dict-chs-utf8.tar.bz2
DokuWiki分词修改
修改inc/fulltext.php
文件中的内容:
//注释掉这行
//$terms = preg_split('/(-?".*?")/u', utf8_strtolower($query), -1, PREG_SPLIT_DELIM_CAPTURE | PREG_SPLIT_NO_EMPTY);
// 以下部分为新添加内容
$so = scws_new();
$so->set_charset('utf8');
// 这里没有调用 set_dict 和 set_rule 系统会自动试调用 ini 中指定路径下的词典和规则文件
$so->send_text($query);
$terms = array();
while ($tmp = $so->get_result()) {
$arrlength=count($tmp);
for($x=0;$x<$arrlength;$x++) {
array_push($terms, $tmp[$x]["word"]);
}
}
$so->close();
end
以上完成后重启php-fpm。
网友评论