最近要做多语言的文本处理,就去调研一下有什么好用的现成工具,最后发现了polyglot。
这工具虽说支持多语言,但是用过发现比不是很好用,可能做多难做精。还是写一下怎么安装吧。
初入坑
先说说最初遇到的坑:polyglot官网上的install是在ubuntu上进行的,也很简短,相信ubuntu的童鞋也会遇到不少问题。
我一开始使用yum安装libicu-devel模块,发现其安装的只有icu和icu4j,并没有icu4c。所以后面直接pip install pyicu的时候会报错。
所以后来我下载了icu4c的源码安装,版本为4.8.1.1。后面pip install pyicu成功。
但是。。。
在Python中import _icu(这个语句其实在polyglot安装成功后import polyglot.text是报错发现的)的时候,发现importerror .... _icu.so: no defined ...(忘了)
所以我们这个动态链接库是没有build成功的。
可能是pip install的时候没有生成一个好的_icu.so
所以我们要在安装python模块的时候入手,icu4c模块应该没问题了。
编译安装成功
我就不用pip安装了,直接下源码
wget https://pypi.python.org/packages/bf/1f/cea237f542e3bb592980008a734850e8cbbc25c19c72c98767c71c1bd9c2/PyICU-1.9.3.tar.gz
# (去官网下载,我的是1.9.3)
tar zxvf PyICU-1.9.3.tar.gz
cd PyICU-1.9.3.tar.gz
此时如果你是linux系统要修改一下setup.py文件
setup.py_1 setup.py_2python setup.py build
sudo python setup.py install
此时测试一下是否安装成功
![setup.py_3](https://img.haomeiwen.com/i3491715/d72dbab0a160786c.jpg?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
成功!
用了一个下午装,真浪费时间,希望这个多语言的NLP工具真的有用(后证明效果一般)。
## 资料:
http://see.sl088.com/wiki/Centos_%E5%AE%89%E8%A3%85ICU#.E8.B5.B7.E5.9B.A0 icu4c安装,这里的./runConfigureICU脚本别忘了执行
http://stackoverflow.com/questions/13656756/pyicu-failed-to-link-icu4c-on-mountain-lion/13666383 这个问题是动态链接库问题,跟我之前遇到的很像,可以参考
https://pypi.python.org/pypi/PyICU/ pyicu官网,可以参考安装python的icu模块
网友评论