美文网首页自然语言处理
OpenCC - 简体繁体转换

OpenCC - 简体繁体转换

作者: xiiao蜗牛 | 来源:发表于2017-07-10 22:02 被阅读3223次

    最近使用中文维基百科数据训练Word2Vec时,发现数据里面包含了很多繁体字,这就很尴尬了。这时候就知道OpenCC的强大了。哈哈,本来打算直接使用python里面的opencc模块的,但是在安装,编译opencc时遇到了各种错误。花费了很长时间,终于安装成功,但是文本处理起来效率很低。最终选择了直接在linux下安装OpenCC,处理的效率着实安慰了我受伤的心 -- 很快,特别快。
    好啦,接下来总结下OpenCC的安装方法,万一以后又用到它了呢?主要参考这篇博客

    • 检查下linux环境下是否已经安装cmake以及git,如果没有,那就通过yum安装好。
    $ yum install cmake
    $ yum install git
    
    $ git clone https://github.com/BYVoid/OpenCC
    
    • 编译OpenCC
    $ cd OpenCC
    $ make
    $ make install
    
    • 创建libopencc.so.2链接

    如果不知道libopencc.so.2的路径,可以通过find / -name libopencc.so.2查找。

    $ ln -s /usr/lib/libopencc.so.2 /usr/lib64/libopencc.so.2
    
    • 通过查看 OpenCC 版本,检查OpenCC是否已经安装成功
    $ opencc --version
    
    • 测试用例
    # 繁体转简体
    $ echo '歐幾里得 西元前三世紀的希臘數學家' | opencc -c t2s
    欧几里得 西元前三世纪的希腊数学家
    # 简体转繁体
    $ echo '欧几里得 西元前三世纪的希腊数学家' | opencc -c s2t
    歐幾里得 西元前三世紀的希臘數學家
    # 可以通过以下方式直接对文件进行繁简转换
    $ opencc -i zhwiki_raw.txt -o zhwiki_t2s.txt -c t2s.json
    

    相关文章

      网友评论

        本文标题:OpenCC - 简体繁体转换

        本文链接:https://www.haomeiwen.com/subject/dowuhxtx.html