起因&经过:
女票公司搞了个分词比赛,招我成'枪手',处理好了分词,发现python jieba这个模块自带的词库没有很多“时髦”的经济学专有名字。在网上下载词库要钱,就自己爬取了“电子新闻网”上面的双引号词汇,自己建立了一个词库,并做了评分。
结果:
公司排第二,女票觉得我没有按照她要求来。
以下程序及说明:
分词:
程序:
效果:
分词前:
截至1月22日19时,比特币价格徘徊在11724美元附近,这意味着今年以来短短3周内,比特币价格从年内高点17090美元持续滑落,跌幅超过31%。其间比特币价格曾一度触及9280.3美元年内低点。
分词后:
截至 1月 22日 19时 , 比特币 价格 徘徊 在 11724美元 附近 , 这 意味着 今年以来 短短 3周内 , 比特币 价格 从 年内 高点 17090美元 持续 滑落 , 跌幅 超过 31% 。 其间 比特币 价格 曾一度 触及 9280.3美元 年内 低点 。
爬虫:
选的是中国电子新闻网(http://www.chinarohs.org.cn/)目标是选取文章中双引号括起来的词,且词长度不长于5(在我的语文水品下一般中文词汇长度不超过5个字)。
效果:
访问记录
只截取了其中一个部分
缺点:
我写的程序没有对访问过程进行加工,如果连续访问一个网站,可能会被拦截。
重复的词汇要另外用程序剔除。
评分:
评分函数不是我写的,只能放结果了。是一篇程序分的文章和人为分好的做对比。
结果还阔以。
小结:
写的比较粗糙。
主要是要跟女票‘皮’,不写完成任务会被‘重锤’。
网友评论