美文网首页
通过爬虫新闻网建立分词词库+分词+评分

通过爬虫新闻网建立分词词库+分词+评分

作者: Huang_he | 来源:发表于2018-02-06 17:35 被阅读0次

    起因&经过:

    女票公司搞了个分词比赛,招我成'枪手',处理好了分词,发现python jieba这个模块自带的词库没有很多“时髦”的经济学专有名字。在网上下载词库要钱,就自己爬取了“电子新闻网”上面的双引号词汇,自己建立了一个词库,并做了评分。

    结果:

    公司排第二,女票觉得我没有按照她要求来。

    以下程序及说明:


    分词

    程序:

    效果:

    分词前:

    截至1月22日19时,比特币价格徘徊在11724美元附近,这意味着今年以来短短3周内,比特币价格从年内高点17090美元持续滑落,跌幅超过31%。其间比特币价格曾一度触及9280.3美元年内低点。

    分词后:

    截至 1月 22日 19时 , 比特币 价格 徘徊 在 11724美元 附近 , 这 意味着 今年以来 短短 3周内 , 比特币 价格 从 年内 高点 17090美元 持续 滑落 , 跌幅 超过 31% 。 其间 比特币 价格 曾一度 触及 9280.3美元 年内 低点 。


    爬虫:

    选的是中国电子新闻网(http://www.chinarohs.org.cn/)目标是选取文章中双引号括起来的词,且词长度不长于5(在我的语文水品下一般中文词汇长度不超过5个字)。

    效果:

    访问记录

    只截取了其中一个部分

    缺点:

    我写的程序没有对访问过程进行加工,如果连续访问一个网站,可能会被拦截。

    重复的词汇要另外用程序剔除。


    评分:

    评分函数不是我写的,只能放结果了。是一篇程序分的文章和人为分好的做对比。

    结果还阔以。


    小结:

    写的比较粗糙。

    主要是要跟女票‘皮’,不写完成任务会被‘重锤’。

    相关文章

      网友评论

          本文标题:通过爬虫新闻网建立分词词库+分词+评分

          本文链接:https://www.haomeiwen.com/subject/lmigzxtx.html