美文网首页promotion技术贝叶斯分类器
jieba:简单好用的中文分词工具

jieba:简单好用的中文分词工具

作者: 梁杰_numbbbbb | 来源:发表于2014-04-23 17:16 被阅读26650次
    enter image description hereenter image description here

    首先推荐给大家一个GitHub在线学习网站,http://pcottle.github.io/learnGitBranching/ ,感谢@吴汉剑 同学告诉我这个网站~


    封面人物:蒂姆·伯纳斯·李(Tim Berners-Lee,1955年6月8日-)

    英国计算机科学家。他是万维网的发明者,麻省理工学院教授。1990年12月25日,罗伯特·卡里奥在CERN和他一起成功通过Internet实现了HTTP代理与服务器的第一次通讯。

    伯纳斯-李是万维网联盟的主席。他也是万维网基金会的创办人。2004年,英女皇伊丽莎白二世向伯纳斯-李颁发大英帝国爵级司令勋章。2009年4月,他获选为美国国家科学院外籍院士。在2012年夏季奥林匹克运动会开幕典礼上,他获得了“万维网发明者”的美誉。伯纳斯-李本人也参与了开幕典礼,在一台NeXT计算机前工作。他在Twitter上发表消息说:“这是给所有人的”,体育馆内的LCD光管随即显示出文字来。


    推荐指数:★★★★★

    使用难度:★★

    适用范围:关键词提取,搜索引擎

    GitHub数据

    enter image description hereenter image description here

    结巴(jieba)是国人出的一个精品插件,可以对一段中文进行分词,有三种分词模式,可以适应不同需求。

    目前已有Python、JAVA、C++和Nodejs版本。


    一段代码教程

    >>>seg_list = jieba.cut("他来到了网易杭研大厦") 
    >>>print ", ".join(seg_list)
    他, 来到, 了, 网易, 杭研, 大厦
    

    这是Python版的使用示例,大家可以看到使用起来非常简单,分词结果也不错。

    分词的关键取决于词典,目前结巴提供的词典虽然并不是非常全,但是对于一般的应用已经足够了。大家也可以自己制作词典或者找找其他人制作好的词典。


    GitHub Tips

    前几次介绍的命令都是本地的,并没有和github的服务器进行交互。所以实际上我们是不能在github上看到我们的库的。

    今天就来看看如何把我们本地的库提交到github上——git push。

    一般情况下我们运行的是“git push origin master”。

    “origin”其实是库的源地址,那么什么是地址呢?其实地址就是网址,表示github服务器上的一个库。我们指定一个地址,就是告诉github:“这是我们要提交的目标地址”。

    “origin”其实是一个代号,具体的地址配置在git的config当中。如果你喜欢的话可以随便给他起名,反正最终的目标地址是一样的。

    那么源地址是什么意思呢?

    我们可能大多数时候都是自己创建库自己提交,所以不用考虑太多。不过有的时候我们会clone别人的库,这个时候源地址就是人家库的地址了。

    我们也可以自己添加地址,这样在push的时候就可以提交到不同的库中。具体的命令我们下次再讲。

    那么什么是master呢?master就是要提交的目标分支。

    分支很好理解,一个库可以有多个分支,每个分支之间是互相独立的。大型的工程一般都有多个分支,比如开发分支、稳定分支等等。

    分支的意义就是将开发工作隔离成不同的部分,每个部分独立开发,然后等到了合适的时候再把分支合并。

    好了,最后我们总结一下这个命令干了什么:把本地库提交到地址为origin的库中的master分支上。

    今天说的有点多,不知道大家理解了吗?


    jieba项目首页


    大家有觉得不错的库一定要推荐给我哦~

    欢迎扫描二维码关注我的微信号“GitHub不完全装B指南”,获取最新文章。

    谢谢~

    相关文章

      网友评论

      本文标题:jieba:简单好用的中文分词工具

      本文链接:https://www.haomeiwen.com/subject/ittrtttx.html