美文网首页nltkNLP NLP&NLU
gensim TF-IDF模型中文关键词抽取

gensim TF-IDF模型中文关键词抽取

作者: sudop | 来源:发表于2018-01-21 22:06 被阅读967次
    • 模型:gensim工具包TF-IDF模型
    • 维基百科语料数据(30万词条)+百度百科(500万)
    • 利用jieba分词,使用定义词典提高分词精度,去除停用词

    下面用维基百科中文数据来做测试

    1.数据预处理

    1.1 数据集采用分好词的维基百科中文数据,训练之前需去除停止词

    # 加载训练数据,去除停止词
    def getCorpus():
        corpus_orgin = []
        count = 0
        corpus_list = []
        with open("D:wiki_cn\zh.jian.wiki.seg-1.3g", 'r', encoding='utf-8') as f:
            lines = f.readlines()
            print(lines.__len__())
            for sentence in lines:
                words = sentence.split(" ")
                sentence_segment = []
                for word in words:
                    if word.strip() != '':
                        if word.strip() not in stopwords:
                            sentence_segment.append(word.strip())
                corpus_list.append(sentence_segment)
                count += 1
                if count % 1000 == 0:
                    logger.info("model train finished" + datetime.datetime.now().strftime('%Y-%m-%d %H:%M:%S'))
                    print("processd " + str(count) + " segment_sentence")
        return corpus_list
    

    2.模型计算

    corpus_list = getCorpus()
    id2word = {}
    # 生成并保存字典
    dictionary = Dictionary(corpus_list)
    dictionary.save("./model/dict")
    # 将文档转换成词袋(bag of words)模型
    corpus = [dictionary.doc2bow(text) for text in corpus_list]
    # 保存生成的语料
    MmCorpus.serialize('./model/corpuse.mm', corpus)
    del corpus_list
    corpus_tfidf = []
    def train():
        tfidfModel = TfidfModel(corpus=corpus, id2word=id2word, dictionary=dictionary)
        tfidfModel.save("./model/tfidf.model")
        corpus_tfidf = tfidfModel[corpus]
    train()
    

    3.效果测试

    测试基于30万维基百科数据训练的gensim TF-IDF模型和jieba自带TF-IDF,Textrank算法,哈工大ltp分词以及中科院NLPIR汉语分词系统,下面选取网上的新闻数据做个简单的测试

    • 测试文本
    今日(18日),台湾“民航局”证实,“暂不予核淮”两岸春节加班航班申请。到目前为止,有两家民航公司共计申请的176架次春节加班航班仍未审核通过,预计有5万名旅客会受到影响。  台媒报道称,台当局此举是抗议大陆在11日开通M503北向航线,认为M503仍然存在飞行安全的隐忧。据台湾“联合报”1月18日报道,今年两岸春节加班航班是从2月2日开始到3月2日结束,目前大陆民航业已按市场需求申请了509架次航班,此次未通过的航班中有中国东方航空申请的106架次和厦门航空申请的70架次,占总班次的三分之一以上。有民航业者称,中国东方航空申请航点有上海、南京、无锡、合肥等地;厦门航空则申请杭州、福州、厦门等,已于上周开卖,若台当局不许允飞行,届时恐怕有些旅客将无法顺利搭机。而据台湾东森新闻的报道称,台当局此举是抗议大陆在11日开通M503北向航线等共计4条航线,台民航局今天表示,由于M503航线尚未经两岸沟通、确认,仍有潜在飞行安全的疑虑,台民航局已两度要求相关航空公司暂勿使用此航线,对于仍继续使用相关航线的公司,其两岸春节加班机之相关申请,民航局将“暂不予核准”。对于M503争议,台当局曾表示,对于继续在M503新航线飞行的航空公司会给予相应的处置,同时要求航管单位密切注意由内地飞台的航班,如有民航机接近台方空域,则要求台方立即与内地航管单位进行抗议。不过国台办已多次强调大陆启用M503北上航线及衔接线符合两岸同胞共同利益,完全不存在单方面开通的问题,也不存在影响台湾飞行安全的问题。据国台办此前介绍,两岸的业务技术人员去年就2018年春节加班机事宜和具体安排进行了确认。双方同意两岸的航空公司在2018年的2月2日至3月2日期间安排春节加班。加班的总量不予限制,仅是对大陆个别繁忙的机场设有上限,即北京16班、上海浦东162班、广州11班、深圳23班、杭州44班往返的航班。国台办表示,双方计划于2018年1月3日前核准第一批春节加班,以便利旅客订座和安排行程。台“民航局”前“局长”沉启称,春节期间取消两岸加班航班对旅客冲击很大,首当其冲的就是往来两岸的台湾民众及在大陆工作的台商,“这样的举动对社会、对旅客都不好”,未来也恐冲击华航、长荣等台湾航空公司。  沉启港  沉启表示,平常台商、往来两岸旅客都已经认为春节加班机不够多了,尤其上海、北京或杭州等一线城市,由于大陆跟台湾同时过年放假,也让时间带不好取得,她说,记忆中过去未曾发生类似事件,这看起来是上头有些想法希望“民航局”去执行,但她也直言,这不是台湾旅客之福、不是台湾人的福气。
    最近,有件事值得说道说道。16日,国务院派出的一个督察组,对辽宁、河北、江苏、福建、广西、海南6个省(区)的情况进行了反馈;17日,国家部委又紧接着召开了新闻发布会,出台了一系列的整治措施;18日,《人民日报》等一批中央媒体也对其做了不小篇幅的报道。啥事儿,值得中央给予如此高的关注?内容大家可能没有想到,是海洋生态保护。长期以来,对这一问题,普通人可能会觉得有点陌生,但是从这次点名道姓的反馈的和曝光来看,问题却很严重。比如,河北填海造地逾3万公顷空置率达68%,存在大量违规填海、围海养殖行为;海南省有543个入海污染源,却只上报了26个入海排污口;福建省各类陆源入海排污源有2678个,当地政府却只提供了68个入海排污口的情况。问题很严重,处罚也很严厉。17日的新闻发布会就对这些情况进行了公示,立案处罚262件,罚款12.47亿元(人民币,下同),约谈问责132人。同时发布史上最严的围填海管控措施,包括“十个一律”和“三个强化”,明确了“谁破坏,谁修复”的原则。联系到半个月前,中央环保督察组也曾对山东、浙江、海南3省的海洋生态系统问题进行严厉批评,称其向海要地,向海要钱,向海排污,导致多个海洋自然保护区生态退化,中央整治海洋生态的决心可见一斑。缘由说起来,大部分人应该只听说过中央环保督察组,这次的国家海洋督察组又是个什么来头呢?从行政体制分工上来说,环保督察由环保部牵头,是全面针对生态环境保护各个方面的工作进行监督检查。而这与各地的自然禀赋是有关的,地方政府如果靠山吃山,那么环保督察的焦点肯定有山,地方政府如果靠海吃海,那么环保督察的焦点肯定有海。
    2017年1月18日,国家主席习近平在瑞士日内瓦万国宫出席“共商共筑人类命运共同体”高级别会议,并发表题为《共同构建人类命运共同体》的主旨演讲。新华社记者饶爱民摄“放眼世界,我们面对的是百年未有之大变局。”面对纷繁复杂的国际形势,如何解局?“明者因时而变,知者随事而制。”冷战思维、零和博弈的旧时代已经过去了,摒弃不合时宜的旧观念,冲破制约发展的旧框框,才能让各种发展活力充分迸发。2017年1月18日,在日内瓦万国宫“共商共筑人类命运共同体”高级别会议上,习近平站在人类历史发展进程的高度,以大国领袖的责任担当,以“以天下为己任”的情怀,深刻、全面、系统阐述人类命运共同体理念。回眸十八大以来,中国在国际舞台上纵横捭阖。在“构建人类命运共同体”理念指引下,中国不断以积极的姿态参与全球治理和重大国际行动,发出中国声音,提出中国方案,展现中国担当。“世界那么大,问题那么多”中国方案备受期待当今世界,局部冲突此起彼伏,恐怖主义、难民危机、网络安全、气候变化、重大传染性疾病等非传统安全和全球性挑战不断增多,逆全球化思潮抬头,世界经济持续低迷……“世界那么大,问题那么多,国际社会期待听到中国声音、看到中国方案,中国不能缺席。”习近平以铿锵有力的话语回应世界对中国的期待。在过去的5年,习近平在众多国内国际场合阐述、倡导人类命运共同体理念,并赋予其鲜明的中国特色与时代蕴含。2013年3月,莫斯科的冰雪还未消融,“命运共同体”的种子已经开始播撒。习近平任党和国家最高领导人后首次出访,在莫斯科国际关系学院发表演讲时指出,当今人类社会“越来越成为你中有我、我中有你的命运共同体”。这是他第一次在国际场合阐述“命运共同体”理念。从此,“命运共同体”便作为关键词贯穿在习近平的外交活动之中。在博鳌,从2013年年会到2015年年会,从“树立命运共同体意识”到“迈向命运共同体”,习近平以高远的视角审视亚洲和世界、中国和世界,提倡通过迈向“亚洲命运共同体”,推动建设“人类命运共同体”。2015年9月,在联合国成立70周年系列峰会上,习近平首次在联合国总部全面阐述以合作共赢为核心的新型国际关系的理念,系统地提出打造人类命运共同体的具体途径,为国际关系的发展提供新理念,开辟新愿景,引发世界高度关注。“世界怎么了、我们怎么办?”中国智慧绽放华彩“世界怎么了、我们怎么办?”2017年1月18日,在日内瓦万国宫“共商共筑人类命运共同体”高级别会议上,习近平在演讲中给出了中国方案,再次系统阐述人类命运共同体理念,叩响了时代的最强音。习近平在此次演讲中提出构建人类命运共同体的“五个坚持”,从伙伴关系、安全格局、经济发展、文明交流、生态建设五方面为人类社会发展进步描绘了蓝图,为构建人类命运共同体提供了行动指南。若以此为原点,一年来,习近平在不同的国内国际场合的演讲、回信与署名文章,密集地提到人类命运共同体理念。在十九大报告中,习近平6次提到人类命运共同体,站在全人类进步的高度,对新时代中国特色大国外交作出了顶层设计,并对全世界作出庄严承诺:“中国将继续发挥负责任大国作用,积极参与全球治理体系改革和建设,不断贡献中国智慧和力量。”阿根廷国际问题专家古斯塔沃·吉拉多说:“十九大为中国外交设立了清晰目标,可以说,构建新型国际关系和构建人类命运共同体是世界对中国外交的最大期待。”由此可见,外媒称党的十九大是“站在世界地图前召开的盛会”就不足为奇。时隔一个多月后,在中国共产党与世界政党高层对话会上,习近平呼吁世界各国人民应该秉持“天下一家”理念,张开怀抱,彼此理解,求同存异,共同为构建人类命运共同体而努力。“不驰于空想,不骛于虚声”中国担当落地生根大道至简,实干为要。十八大以来,习近平29次出访,累计198天,足迹遍及五大洲、57个国家及主要国际和区域组织。中国同100个左右的国家和国际组织建立了不同形式的伙伴关系,实现了对世界各个地区、不同类型国家的全覆盖。在元首外交、多边外交、主场外交中,习近平充分展现大国担当和领袖风范。他的外交足迹也为全人类勾画了一幅清晰的构建人类命运共同体的实践路径图:——构建人类命运共同体,亲诚惠容睦周边。在“让命运共同体意识在周边国家落地生根”理念的指导下,十八大以来,我国与周边国家高层交往密集,各层次、各领域合作全面展开。——构建人类命运共同体,构建新型大国关系。过去5年,从“庄园会晤”“瀛台夜话”“白宫秋叙”“西湖长谈”,到海湖庄园会晤和汉堡会晤以及“故宫茶叙”,中美元首间一个个增信释疑的“高光时刻”,推动两国关系健康稳定发展。——构建人类命运共同体,大力推进“一带一路”。“一带一路”倡议提出以来,在各参与方共同努力下,已成为有关各国实现共同发展的重要合作平台。100多个国家和国际组织积极支持参与,一大批有影响力的标志性项目成功落地。习近平在2018年新年贺词中坚定地说道:“中国坚定维护联合国权威和地位,积极履行应尽的国际义务和责任,信守应对全球气候变化的承诺,积极推动共建‘一带一路’,始终做世界和平的建设者、全球发展的贡献者、国际秩序的维护者。”“单丝不成线,独木不成林”中国声音世界回响中国在国际舞台的表现,使得构建人类命运共同体理念得到国际社会的普遍认同。2017年2月10日,联合国社会发展委员会第55届会议协商一致通过“非洲发展新伙伴关系的社会层面”决议,“构建人类命运共同体”理念首次被写入联合国决议。同年11月1日,第72届联大负责裁军和国际安全事务第一委员会通过了“防止外空军备竞赛进一步切实措施”和“不首先在外空放置武器”两份安全决议,“构建人类命运共同体”理念再次载入这两份联合国决议。人类命运共同体理念已然成为推动全球治理体系变革、构建新型国际关系和国际新秩序的共同价值规范。中国方案引领全球治理新秩序。联合国秘书长古特雷斯高度赞同中国所倡导的理念,他说:“中国已成为多边主义的重要支柱,而我们践行多边主义的目的,就是要建立人类命运共同体。”第71届联合国大会主席彼得·汤姆森在接受记者采访时谈及中国所倡导的构建人类命运共同体理念,“对我而言,这是人类在这个星球上的唯一未来”。“积力之所举,则无不胜也;众智之所为,则无不成也。”路是走出来的,事业是干出来的。美好的蓝图变成现实,需要扎扎实实的行动,中国一直用行动践行着庄重承诺。构建人类命运共同体,这一跨越时空的宏伟构想,激荡起全球的广泛共鸣。看,它的星空多么壮丽璀璨。
    
    • 测试代码
    import jieba
    from gensim.corpora import *
    from gensim.models import TfidfModel
    import jieba.analyse
    import jieba.posseg
    import os
    import logging
    import sys
    from pyltp import Segmentor
    
    program = os.path.basename(sys.argv[0])
    logger = logging.getLogger(program)
    logging.basicConfig(format='%(asctime)s: %(levelname)s: %(message)s', filename='../log/tfidf_model_test.log',
                        filemode='a',
                        datefmt='%a, %d %b %Y %H:%M:%S')
    logging.root.setLevel(level=logging.INFO)
    logger.info("running %s" % ' '.join(sys.argv))
    jieba.load_userdict('F:/baike_spider/dict/train/word2vec.dict')
    jieba.analyse.set_stop_words('../dict/stop_words.txt')
    # corpus = MmCorpus("./model_repository/corpuse.mm")
    dictionary = Dictionary.load("./model_repository/dict")
    tfidf = TfidfModel.load("./model_repository/tfidf.model")
    LTP_DATA_DIR = 'D:/ltp_data_v3.4.0'  # ltp模型目录的路径
    cws_model_path = os.path.join(LTP_DATA_DIR, 'cws.model')  # 分词模型路径,模型名称为`cws.model`
    
    segmentor = Segmentor()  # 初始化实例
    segmentor.load_with_lexicon(cws_model_path, 'F:/baike_spider/dict/train/word2vec.dict')
    
    
    # segmentor.load(cws_model_path)
    
    
    # similarity = Similarity('./model/Similarity-tfidf-index', corpus, num_features=2070000)
    
    # 获取停用词
    def getStopwords():
        stopwords = []
        with open("../dict/stop_words.txt", "r", encoding='utf8') as f:
            lines = f.readlines()
            for line in lines:
                stopwords.append(line.strip())
        return stopwords
    
    
    stopwords = getStopwords()
    
    
    def test(text):
        # logging.info(",".join(list(jieba.cut(sentence=text, HMM=True))))
        segment_list = jieba.posseg.lcut(sentence=text, HMM=True)
        segment_result = []
        for word, flag in segment_list:
            segment_result.append(word + '#' + flag)
        # logging.info(" ".join(segment_result))
        tags = jieba.analyse.extract_tags(sentence=text, topK=20, withWeight="withWeight")
        logging.info('jieba TF-IDF model:' + str(tags))
        tags = jieba.analyse.textrank(sentence=text, topK=20, withWeight="withWeight")
        logging.info('jieba TEXTRANK model:' + str(tags))
        # jieba分词
        test_cut_raw_0 = jieba.lcut(text)
        # ltp分词
        test_cut_raw_1 = segmentor.segment(text)  # 分词
        # jieba分词语料集 去除停用词
        corpus0 = []
        # ltp分词语料集 去除停用词
        corpus1 = []
        for item in test_cut_raw_1:
            if item not in stopwords:
                corpus1.append(item)
        # 将文档变成词袋模型向量
        test_corpus_1 = dictionary.doc2bow(corpus1)
        for item in test_cut_raw_0:
            if item not in stopwords:
                corpus0.append(item)
        test_corpus_0 = dictionary.doc2bow(corpus0)
        try:
            # similarity.num_best = 5
            test_corpus_tfidf_1 = tfidf[test_corpus_1]
            test_corpus_tfidf_0 = tfidf[test_corpus_0]
            test_corpus_tfidf_1 = sorted(test_corpus_tfidf_1, key=lambda item: item[1], reverse=True)
            test_corpus_tfidf_0 = sorted(test_corpus_tfidf_0, key=lambda item: item[1], reverse=True)
            # test_corpus_tfidf_1.sort(key=lambda item: item[1], reverse=False)
            id2token = dict(zip(dictionary.token2id.values(), dictionary.token2id.keys()))
            result1 = []
            result0 = []
    
            for i in range(10):
                result1.append({id2token[test_corpus_tfidf_1[i][0]]: test_corpus_tfidf_1[i][1]})
                result0.append({id2token[test_corpus_tfidf_0[i][0]]: test_corpus_tfidf_0[i][1]})
                # for index, sim in similarity[test_corpus_tfidf_1]:
                #     logging.info(index, sim)
                #
            logging.info('gensim TF-IDF model ltp: ' + str(result1))
            logging.info('gensim TF-IDF model jieba: ' + str(result0))
            logging.info("================================")
        except Exception:
            logging.error("异常")
    
    
    content = open('../data/demo1.txt', 'rb').readlines()
    
    for item in content:
        test(item)
    
    • 抽取结果
    测试文本1
    jieba分词结果:今日#t (#x 18#m 日#m )#x ,#x 台湾#ns “#x 民航局#nt ”#x 证实#n ,#x “#x 暂#d 不予#v 核淮#j ”#x 两岸#f 春节#t 加班#v 航班#n 申请#v 。#x 到#v 目前为止#i ,#x 有#v 两家#m 民航#j 公司#n 共计#v 申请#v 的#uj 176#m 架次#m 春节#t 加班#v 航班#n 仍#zg 未审核#n 通过#p ,#x 预计#vn 有#v 5#m 万名#m 旅客#n 会#v 受到#v 影响#vn 。#x  #x  #x 台#q 媒#n 报道#v 称#v ,#x 台当局#n 此举#r 是#v 抗议#nz 大陆#n 在#p 11#m 日#m 开通#v M503#eng 北向#f 航线#n ,#x 认为#v M503#eng 仍然#d 存在#v 飞行#v 安全#an 的#uj 隐忧#v 。#x 据#p 台湾#ns “#x 联合报#nt ”#x 1#m 月#m 18#m 日#m 报道#v ,#x 今年#t 两岸#f 春节#t 加班#v 航班#n 是从#v 2#m 月#m 2#m 日#m 开始#v 到#v 3#m 月#m 2#m 日#m 结束#v ,#x 目前#t 大陆#n 民航#j 业已#d 按#p 市场需求#n 申请#v 了#ul 509#m 架次#m 航班#n ,#x 此次#r 未#d 通过#p 的#uj 航班#n 中#f 有#v 中国东方航空#nt 申请#v 的#uj 106#m 架次#m 和#c 厦门航空#nt 申请#v 的#uj 70#m 架次#m ,#x 占#v 总#n 班次#n 的#uj 三分之一#mq 以上#f 。#x 有#v 民航#j 业者#n 称#v ,#x 中国东方航空#nt 申请#v 航点#n 有#v 上海#ns 、#x 南京#ns 、#x 无锡#ns 、#x 合肥#n 等#u 地#uv ;#x 厦门航空#nt 则#d 申请#v 杭州#ns 、#x 福州#ns 、#x 厦门#ns 等#u ,#x 已#d 于#p 上周#t 开卖#v ,#x 若#c 台当局#n 不许#d 允#v 飞行#v ,#x 届时#d 恐怕#d 有些#r 旅客#n 将#d 无法#n 顺利#ad 搭机#n 。#x 而#c 据#p 台湾#ns 东森#nr 新闻#n 的#uj 报道#v 称#v ,#x 台当局#n 此举#r 是#v 抗议#nz 大陆#n 在#p 11#m 日#m 开通#v M503#eng 北向#f 航线#n 等#u 共计#v 4#m 条#n 航线#n ,#x 台#q 民航局#nt 今天#t 表示#v ,#x 由于#c M503#eng 航线#n 尚未#d 经#n 两岸#f 沟通#v 、#x 确认#v ,#x 仍#d 有#v 潜在#t 飞行#v 安全#an 的#uj 疑虑#v ,#x 台#q 民航局#nt 已#d 两度#m 要求#v 相关#v 航空公司#n 暂勿#d 使用#v 此#zg 航线#n ,#x 对于#p 仍#zg 继续#v 使用#v 相关#v 航线#n 的#uj 公司#n ,#x 其#r 两岸#f 春节#t 加班#v 机#ng 之#u 相关#v 申请#v ,#x 民航局#nt 将#d “#x 暂#d 不予#v 核准#n ”#x 。#x 对于#p M503#eng 争议#n ,#x 台当局#n 曾#d 表示#v ,#x 对于#p 继续#v 在#p M503#eng 新#a 航线#n 飞行#v 的#uj 航空公司#n 会#v 给予#v 相应#v 的#uj 处置#v ,#x 同时#c 要求#v 航管#n 单位#n 密切注意#l 由#p 内地#n 飞台#n 的#uj 航班#n ,#x 如#v 有#v 民航机#n 接近#v 台方#s 空域#n ,#x 则#d 要求#v 台方#s 立即#d 与#p 内地#n 航管#n 单位#n 进行#v 抗议#nz 。#x 不过#c 国台办#j 已#d 多次#m 强调#v 大陆#n 启用#v M503#eng 北上#f 航线#n 及#c 衔接#v 线#n 符合#v 两岸#f 同胞#n 共同利益#n ,#x 完全#ad 不#d 存在#v 单方面#n 开通#v 的#uj 问题#n ,#x 也#d 不#d 存在#v 影响#vn 台湾#ns 飞行#v 安全#an 的#uj 问题#n 。#x 据#p 国台办#j 此前#t 介绍#v ,#x 两岸#f 的#uj 业务#n 技术人员#n 去年#t 就#d 2018#m 年#m 春节#t 加班#v 机#n 事宜#n 和#c 具体安排#n 进行#v 了#ul 确认#v 。#x 双方同意#n 两岸#f 的#uj 航空公司#n 在#p 2018#m 年#m 的#uj 2#m 月#m 2#m 日#m 至#p 3#m 月#m 2#m 日#m 期间#f 安排#v 春节#t 加班#v 。#x 加班#v 的#uj 总量#n 不予#v 限制#v ,#x 仅#d 是#v 对#p 大陆#n 个别#n 繁忙#a 的#uj 机场#n 设有#v 上限#v ,#x 即#v 北京#ns 16#m 班#nr 、#x 上海浦东#ns 162#m 班#nr 、#x 广州#ns 11#m 班#nr 、#x 深圳#ns 23#m 班#nr 、#x 杭州#ns 44#m 班#nr 往返#v 的#uj 航班#n 。#x 国台办#j 表示#v ,#x 双方#n 计划#n 于#p 2018#m 年#m 1#m 月#m 3#m 日前#t 核准#n 第一批#m 春节#t 加班#v ,#x 以#p 便利#a 旅客#n 订座#n 和#c 安排#v 行程#n 。#x 台#q “#x 民航局#nt ”#x 前#f “#x 局长#n ”#x 沉启#v 称#v ,#x 春节#t 期间#f 取消#v 两岸#f 加班#v 航班#n 对#p 旅客#n 冲击#vn 很大#a ,#x 首当其冲#i 的#uj 就是#d 往来#t 两岸#f 的#uj 台湾#ns 民众#n 及#c 在#p 大陆#n 工作#vn 的#uj 台商#n ,#x “#x 这样#r 的#uj 举动#v 对#p 社会#n 、#x 对#p 旅客#n 都#d 不好#d ”#x ,#x 未来#t 也#d 恐#d 冲击#vn 华航#nz 、#x 长荣#nr 等#u 台湾#ns 航空公司#n 。#x  #x  #x #x 沉启#v 港#n  #x  #x 沉启#v 表示#v ,#x 平常#a 台商#n 、#x 往来#t 两岸#f 旅客#n 都#d 已经#d 认为#v 春节#t 加班#v 机#n 不够#v 多#m 了#ul ,#x 尤其#d 上海#ns 、#x 北京#ns 或#c 杭州#ns 等#u 一线#m 城市#ns ,#x 由于#c 大陆#n 跟#p 台湾#ns 同时#c 过年#t 放假#v ,#x 也#d 让#v 时间#n 带#v 不好#d 取得#v ,#x 她#r 说#v ,#x 记忆#n 中#f 过去#t 未曾#d 发生#v 类似#v 事件#n ,#x 这#r 看起来#v 是#v 上头#v 有些#r 想法#v 希望#v “#x 民航局#nt ”#x 去#v 执行#v ,#x 但#c 她#r 也#d 直言#n ,#x 这#r 不是#c 台湾#ns 旅客#n 之#u 福#n 、#x 不是#c 台湾人#n 的#uj 福气#n 。
    jieba TF-IDF model:[('加班', 0.3126020321197325), ('M503', 0.27987750006789297), ('两岸', 0.23227709175852843), ('航班', 0.23070402656187292), ('春节', 0.2270418677900669), ('民航局', 0.20703328522073577), ('航线', 0.19699097868120402), ('旅客', 0.189177802847291), ('台当局', 0.18596224283612042), ('台湾', 0.1671360126153846), ('申请', 0.16105673444147156), ('架次', 0.14344647252976586), ('大陆', 0.14214085552177258), ('11', 0.11994750002909699), ('2018', 0.11994750002909699), ('国台办', 0.11541253223277592), ('飞行', 0.11448541795719065), ('航空公司', 0.10382331906020066), ('民航', 0.08367888984240801), ('不予', 0.08360200483153846)]
    jieba TEXTRANK model:[('加班', 1.0), ('大陆', 0.7739018489032194), ('台湾', 0.7444894439380484), ('航班', 0.7164055736739696), ('航线', 0.6763082460419921), ('申请', 0.6456985640390737), ('旅客', 0.6340157877008218), ('杭州', 0.44181709095417226), ('飞行', 0.4301777143318205), ('台当局', 0.4035539007934505), ('航空公司', 0.3491747665425779), ('发生', 0.32620942630342753), ('业务', 0.32361426921233033), ('上海', 0.3189346173750615), ('北京', 0.298674945136414), ('内地', 0.2757991335530031), ('沉启', 0.27432132476108284), ('开通', 0.26785787626308116), ('航管', 0.24587359584100646), ('符合', 0.23868742515631372)]
    jieba分词 gensim TF-IDF model: [{'加班': 0.41276584748648115}, {'春节': 0.2818456755645853}, {'两岸': 0.274660144279221}, {'民航局': 0.2573403012742715}, {'台当局': 0.2542037730809597}, {'航班': 0.2375010117001309}, {'航线': 0.23551266019858905}, {'申请': 0.18747007039554864}, {'旅客': 0.15962099936896404}, {'架次': 0.15757650189731892}, {'国台办': 0.13829886652924717}, {'航空公司': 0.12079209962291644}, {'飞行': 0.11365191432646046}, {'大陆': 0.11268674248883691}, {'班': 0.10871933930710939}, {'台方': 0.10813603708595752}, {'民航': 0.10375080787793056}, {'不予': 0.10334542121770623}, {'厦门航空': 0.10016594783835574}, {'航管': 0.0940666818020537}]
    测试文本2
    最近#f ,#x 有件事#l 值得#v 说道#v 说道#v 。#x 16#m 日#m ,#x 国务院#nt 派出#v 的#uj 一个#m 督察组#n ,#x 对#p 辽宁#ns 、#x 河北#ns 、#x 江苏#ns 、#x 福建#ns 、#x 广西#ns 、#x 海南#ns 6#m 个#m 省#n (#x 区#n )#x 的#uj 情况#n 进行#v 了#ul 反馈#v ;#x 17#m 日#m ,#x 国家#n 部委#n 又#d 紧接着#c 召开#v 了#ul 新闻#n 发布会#n ,#x 出台#v 了#ul 一系列#m 的#uj 整治#n 措施#n ;#x 18#m 日#m ,#x 《#x 人民日报#nz 》#x 等#u 一批#m 中央#n 媒体#n 也#d 对#p 其#r 做#v 了#ul 不#d 小篇幅#n 的#uj 报道#v 。#x 啥#r 事儿#n ,#x 值得#v 中央#n 给予#v 如此#c 高#a 的#uj 关注#v ?#x 内容#n 大家#n 可能#v 没有#v 想到#v ,#x 是#v 海洋#ns 生态#n 保护#v 。#x 长期以来#l ,#x 对#p 这#r 一#m 问题#n ,#x 普通人#n 可能#v 会#v 觉得#v 有点#n 陌生#n ,#x 但是#c 从#p 这次#r 点名#v 道姓#n 的#uj 反馈#v 的#uj 和#c 曝光#nz 来看#u ,#x 问题#n 却#d 很#d 严重#a 。#x 比如#v ,#x 河北#ns 填海造地#n 逾#vg 3#m 万公顷#m 空置率#n 达#v 68#m %#x ,#x 存在#v 大量#n 违规#vn 填海#v 、#x 围海#n 养殖#vn 行为#v ;#x 海南省#ns 有#v 543#m 个#m 入海#ns 污染源#n ,#x 却#d 只#d 上报#v 了#ul 26#m 个#m 入海#ns 排污口#n ;#x 福建省#ns 各类#r 陆源#n 入海#ns 排污#v 源有#v 2678#m 个#m ,#x 当地政府#n 却#d 只#d 提供#v 了#ul 68#m 个#m 入海#ns 排污口#n 的#uj 情况#n 。#x 问题#n 很#zg 严重#a ,#x 处罚#v 也#d 很#d 严厉#ad 。#x 17#m 日#m 的#uj 新闻#n 发布会#n 就#d 对#p 这些#r 情况#n 进行#v 了#ul 公示#v ,#x 立案#n 处罚#v 262#m 件#q ,#x 罚款#n 12.47#m 亿元#m (#x 人民币#n ,#x 下同#v )#x ,#x 约#d 谈#v 问责#n 132#m 人#n 。#x 同时#c 发布#v 史#ng 上#f 最严#a 的#uj 围#n 填海#v 管控#vn 措施#n ,#x 包括#v “#x 十个#m 一律#d ”#x 和#c “#x 三个#m 强化#v ”#x ,#x 明确#ad 了#ul “#x 谁#r 破坏#v ,#x 谁#r 修复#v ”#x 的#uj 原则#n 。#x 联系#n 到#v 半个#m 月#m 前#f ,#x 中央#n 环保#j 督察组#n 也#d 曾#d 对#p 山东#ns 、#x 浙江#ns 、#x 海南#ns 3#m 省#n 的#uj 海洋#ns 生态系统#l 问题#n 进行#v 严厉批评#vn ,#x 称#v 其#r 向海#nr 要#v 地#n ,#x 向海#nr 要钱#v ,#x 向海#nr 排污#v ,#x 导致#v 多个#m 海洋#ns 自然保护区#n 生态#n 退化#v ,#x 中央#n 整治#n 海洋#ns 生态#n 的#uj 决心#v 可见一斑#l 。#x 缘由#p 说#v 起来#v ,#x 大部分#m 人#n 应该#v 只#d 听说#v 过#ug 中央#n 环保#j 督察组#n ,#x 这次#r 的#uj 国家#n 海洋#ns 督察组#n 又#d 是#v 个#q 什么#r 来头#v 呢#y ?#x 从#p 行政#n 体制#n 分工#vn 上#f 来说#u ,#x 环保#j 督察#v 由#p 环保部#n 牵头#v ,#x 是#v 全面#n 针对#p 生态#n 环境保护#n 各个方面#l 的#uj 工作#vn 进行#v 监督#vn 检查#vn 。#x 而#c 这#r 与#p 各地#r 的#uj 自然#d 禀赋#n 是#v 有关#vn 的#uj ,#x 地方#n 政府#n 如果#c 靠山吃山#i ,#x 那么#r 环保#j 督察#v 的#uj 焦点#n 肯定#v 有#v 山#n ,#x 地方#n 政府#n 如果#c 靠海吃海#i ,#x 那么#r 环保#j 督察#v 的#uj 焦点#n 肯定#v 有#v 海#n .
    jieba TF-IDF model:[('督察组', 0.29679843755955054), ('环保', 0.18580016677724717), ('海洋', 0.1841380003247191), ('入海', 0.1810591738188764), ('生态', 0.1663798350964045), ('向海', 0.1647226393302809), ('排污口', 0.1561873893483146), ('督察', 0.1508750184539326), ('中央', 0.14504793726741574), ('17', 0.13432323036966293), ('填海', 0.12371130218089887), ('排污', 0.1079799798969663), ('反馈', 0.09311853422011236), ('整治', 0.08528943116573034), ('发布会', 0.08465401353078653), ('海南', 0.0831054997577528), ('处罚', 0.08267646844348314), ('焦点', 0.07678888406561798), ('靠海吃海', 0.07419960938988764), ('河北', 0.07128370429820224)]
    jieba TEXTRANK model:[('海洋', 1.0), ('生态', 0.8739179317888992), ('入海', 0.7984195839875015), ('中央', 0.7926423400993559), ('督察组', 0.6218125170556363), ('督察', 0.473181051603836), ('整治', 0.46959606206267634), ('排污', 0.45941320317720696), ('行政', 0.4318438243523161), ('修复', 0.4254182931483794), ('填海', 0.4246489342532765), ('情况', 0.3959572679665336), ('肯定', 0.39108091329521105), ('海南', 0.3739438425465704), ('河北', 0.3588246498092004), ('退化', 0.34314369343371465), ('处罚', 0.3428217750164842), ('值得', 0.342668691463039), ('排污口', 0.3331612481555759), ('工作', 0.33036932858908513)]
    jieba分词 gensim TF-IDF model: [{'督察组': 0.387738147036258}, {'入海': 0.25141881135863237}, {'环保': 0.22653935857617127}, {'向海': 0.22124167470980063}, {'排污口': 0.21983252983044477}, {'海洋': 0.19981217571316598}, {'生态': 0.16577391007434758}, {'督察': 0.15923940170945544}, {'排污': 0.15889274142932563}, {'中央': 0.13738040653505174}, {'反馈': 0.12907999358568878}, {'整治': 0.1235868844721941}, {'填海': 0.12038718524342885}, {'靠海吃海': 0.11672406405485536}, {'发布会': 0.10614454314264334}, {'处罚': 0.10423817054905797}, {'说道': 0.10348772680297091}, {'有件事': 0.10310846577558941}, {'最严': 0.10195165049696829}, {'小篇幅': 0.10091684396819153}]
    文本测试3
    2017#m 年#m 1#m 月#m 18#m 日#m ,#x 国家#n 主席#n 习近平#nrfg 在#p 瑞士#ns 日内瓦#ns 万国宫#nr 出席#v “#x 共商#n 共筑#n 人类#n 命运#n 共同体#n ”#x 高级别#n 会议#n ,#x 并#c 发表#v 题为#v 《#x 共同#d 构建#v 人类#n 命运#n 共同体#n 》#x 的#uj 主旨#n 演讲#v 。#x 新华社#nt 记者#n 饶#v 爱民#n 摄#vg “#x 放眼世界#n ,#x 我们#r 面对#v 的#uj 是#v 百年#m 未有#v 之#u 大变局#n 。#x ”#x 面对#v 纷繁复杂#i 的#uj 国际形势#n ,#x 如何#r 解局#n ?#x “#x 明者#n 因#c 时而#d 变#v ,#x 知者#n 随#v 事#n 而#c 制#v 。#x ”#x 冷战#v 思维#n 、#x 零#m 和#c 博弈#v 的#uj 旧时代#t 已经#d 过去#t 了#ul ,#x 摒弃#v 不合时宜#i 的#uj 旧#n 观念#n ,#x 冲破#vn 制约#n 发展#vn 的#uj 旧框框#n ,#x 才能#v 让#v 各种#r 发展#vn 活力#n 充分#ad 迸发#v 。#x 2017#m 年#m 1#m 月#m 18#m 日#m ,#x 在#p 日内瓦#ns 万国宫#nr “#x 共商#n 共筑#n 人类#n 命运#n 共同体#n ”#x 高级别#n 会议#n 上#f ,#x 习近平#nrfg 站#v 在#p 人类#n 历史#n 发展#vn 进程#n 的#uj 高度#n ,#x 以#p 大国#ns 领袖#n 的#uj 责任#n 担当#v ,#x 以#p “#x 以天下为己任#l ”#x 的#uj 情怀#n ,#x 深刻#d 、#x 全面#n 、#x 系统阐述#vn 人类#n 命运#n 共同体#n 理念#n 。#x 回眸#v 十八#m 大#a 以来#f ,#x 中国#ns 在#p 国际舞台#nt 上#f 纵横捭阖#i 。#x 在#p “#x 构建#v 人类#n 命运#n 共同体#n ”#x 理念#n 指引#v 下#f ,#x 中国#ns 不断#d 以#p 积极#ad 的#uj 姿态#n 参与#v 全球#n 治理#v 和#c 重大#a 国际#n 行动#vn ,#x 发出#v 中国#ns 声音#n ,#x 提出#v 中国#ns 方案#n ,#x 展现#v 中国#ns 担当#v 。#x “#x 世界#n 那么#r 大#a ,#x 问题#n 那么#r 多#m ”#x 中国#ns 方案#n 备受#v 期待#v 当今世界#i ,#x 局部#n 冲突#vn 此起彼伏#i ,#x 恐怖主义#n 、#x 难民#n 危机#n 、#x 网络安全#nz 、#x 气候变化#n 、#x 重大#a 传染性#n 疾病#n 等#u 非传统#n 安全#an 和#c 全球性#n 挑战#vn 不断#d 增多#v ,#x 逆#vg 全球化#n 思潮#n 抬头#v ,#x 世界#n 经济#n 持续#vd 低迷#v …#x …#x “#x 世界#n 那么#r 大#a ,#x 问题#n 那么#r 多#m ,#x 国际#n 社会#n 期待#v 听到#v 中国#ns 声音#n 、#x 看到#v 中国#ns 方案#n ,#x 中国#ns 不能#v 缺席#n 。#x ”#x 习近平#nrfg 以#p 铿锵有力#i 的#uj 话语#n 回应#v 世界#n 对#p 中国#ns 的#uj 期待#v 。#x 在#p 过去#t 的#uj 5#m 年#m ,#x 习近平#nrfg 在#p 众多#m 国内#s 国际#n 场合#n 阐述#v 、#x 倡导#v 人类#n 命运#n 共同体#n 理念#n ,#x 并#c 赋予#v 其#r 鲜明#a 的#uj 中国#ns 特色#n 与#p 时代#n 蕴含#v 。#x 2013#m 年#m 3#m 月#m ,#x 莫斯科#nr 的#uj 冰雪#n 还#d 未#d 消融#n ,#x “#x 命运#n 共同体#n ”#x 的#uj 种子#n 已经#d 开始#v 播撒#ns 。#x 习近平#nrfg 任#r 党和国家#nz 最高#a 领导人#n 后#f 首次#m 出访#v ,#x 在#p 莫斯科#nr 国际关系学院#nt 发表#v 演讲时#n 指出#v ,#x 当今#t 人类#n 社会#n “#x 越来越#d 成为#v 你中有我#i 、#x 我中有你#l 的#uj 命运#n 共同体#n ”#x 。#x 这#r 是#v 他#r 第一次#m 在#p 国际#n 场合#n 阐述#v “#x 命运#n 共同体#n ”#x 理念#n 。#x 从此#c ,#x “#x 命运#n 共同体#n ”#x 便#d 作为#v 关键词#n 贯穿#v 在#p 习近平#nrfg 的#uj 外交活动#n 之中#r 。#x 在#p 博鳌#nr ,#x 从#p 2013#m 年#m 年#m 会#v 到#v 2015#m 年#m 年#m 会#v ,#x 从#p “#x 树立#v 命运#n 共同体#n 意识#n ”#x 到#v “#x 迈向#v 命运#n 共同体#n ”#x ,#x 习近平#nrfg 以#p 高远#d 的#uj 视角#n 审视#v 亚洲#ns 和#c 世界#n 、#x 中国#ns 和#c 世界#n ,#x 提倡#v 通过#p 迈向#v “#x 亚洲#ns 命运#n 共同体#n ”#x ,#x 推动#v 建设#vn “#x 人类#n 命运#n 共同体#n ”#x 。#x 2015#m 年#m 9#m 月#m ,#x 在#p 联合国#nt 成立#v 70#m 周年#t 系列#q 峰会#n 上#f ,#x 习近平#nrfg 首次#m 在#p 联合国总部#nt 全面#n 阐述#v 以#p 合作#vn 共#d 赢#v 为#p 核心#n 的#uj 新型#b 国际#n 关系#n 的#uj 理念#n ,#x 系统地#n 提出#v 打造#v 人类#n 命运#n 共同体#n 的#uj 具体#a 途径#n ,#x 为#p 国际#n 关系#n 的#uj 发展#vn 提供#v 新理念#n ,#x 开辟#v 新愿景#n ,#x 引发#v 世界#n 高度#n 关注#v 。#x “#x 世界#n 怎么#r 了#ul 、#x 我们#r 怎么办#l ?#x ”#x 中国#ns 智慧#nr 绽放#v 华彩#nz “#x 世界#n 怎么#r 了#ul 、#x 我们#r 怎么办#l ?#x ”#x 2017#m 年#m 1#m 月#m 18#m 日#m ,#x 在#p 日内瓦#ns 万国宫#nr “#x 共商#n 共筑#n 人类#n 命运#n 共同体#n ”#x 高级别#n 会议#n 上#f ,#x 习近平#nrfg 在#p 演讲#v 中#f 给出#v 了#ul 中国#ns 方案#n ,#x 再次#d 系统阐述#vn 人类#n 命运#n 共同体#n 理念#n ,#x 叩响#v 了#ul 时代#n 的#uj 最强音#n 。#x 习近平#nrfg 在#p 此次#r 演讲#v 中#f 提出#v 构建#v 人类#n 命运#n 共同体#n 的#uj “#x 五个#m 坚持#v ”#x ,#x 从#p 伙伴关系#n 、#x 安全#an 格局#n 、#x 经济#n 发展#vn 、#x 文明#nr 交流#n 、#x 生态建设#l 五方面#mq 为#p 人类#n 社会#n 发展#vn 进步#d 描绘#v 了#ul 蓝图#nr ,#x 为#p 构建#v 人类#n 命运#n 共同体#n 提供#v 了#ul 行动指南#n 。#x 若#c 以此#c 为#p 原点#n ,#x 一年#m 来#v ,#x 习近平#nrfg 在#p 不同#a 的#uj 国内#s 国际#n 场合#n 的#uj 演讲#v 、#x 回信#v 与#p 署名文章#n ,#x 密集#n 地#uv 提到#v 人类#n 命运#n 共同体#n 理念#n 。#x 在#p 十九#m 大#a 报告#n 中#f ,#x 习近平#nrfg 6#m 次#t 提到#v 人类#n 命运#n 共同体#n ,#x 站#v 在#p 全人类#n 进步#d 的#uj 高度#n ,#x 对#p 新#a 时代#n 中国#ns 特色#n 大国#ns 外交#n 作出#v 了#ul 顶层#n 设计#vn ,#x 并#c 对#p 全世界#n 作出#v 庄严#a 承诺#v :#x “#x 中国#ns 将#d 继续#v 发挥#v 负责#v 任#r 大国#ns 作用#v ,#x 积极参与#i 全球#n 治理#v 体系#n 改革#vn 和#c 建设#vn ,#x 不断#d 贡献#n 中国#ns 智慧#nr 和#c 力量#n 。#x ”#x 阿根廷#nr 国际#n 问题#n 专家#n 古斯塔#nr 沃#nr ·#x 吉拉#nrt 多#m 说#v :#x “#x 十九#m 大为#d 中国#ns 外交#n 设立#v 了#ul 清晰#a 目标#n ,#x 可以#c 说#v ,#x 构建#v 新型#b 国际#n 关系#n 和#c 构建#v 人类#n 命运#n 共同体#n 是#v 世界#n 对#p 中国#ns 外交#n 的#uj 最大#a 期待#v 。#x ”#x 由此可见#c ,#x 外媒#n 称#v 党#n 的#uj 十九#m 大#a 是#v “#x 站#v 在#p 世界地图#nz 前#f 召开#v 的#uj 盛会#n ”#x 就#d 不足为奇#i 。#x 时隔#n 一个多月#m 后#f ,#x 在#p 中国共产党#nt 与#p 世界#n 政党#n 高层#n 对话#n 会上#t ,#x 习近平#nrfg 呼吁#v 世界#n 各国#r 人民#n 应该#v 秉持#v “#x 天下一家#l ”#x 理念#n ,#x 张开#nr 怀抱#v ,#x 彼此#r 理解#v ,#x 求同存异#i ,#x 共同#d 为#p 构建#v 人类#n 命运#n 共同体#n 而#c 努力#ad 。#x “#x 不#d 驰于#v 空想#n ,#x 不骛于#i 虚声#n ”#x 中国#ns 担当#v 落地生根#i 大道至简#nr ,#x 实干#n 为#p 要#v 。#x 十八#m 大#a 以来#f ,#x 习近平#nrfg 29#m 次#t 出访#v ,#x 累计#v 198#m 天#n ,#x 足迹#n 遍及#v 五大洲#ns 、#x 57#m 个#m 国家#n 及#c 主要#b 国际#n 和#c 区域#n 组织#v 。#x 中国#ns 同#c 100#m 个#m 左右#m 的#uj 国家#n 和#c 国际#n 组织#v 建立#v 了#ul 不同#a 形式#n 的#uj 伙伴关系#n ,#x 实现#v 了#ul 对#p 世界#n 各个#r 地区#n 、#x 不同#a 类型#n 国家#n 的#uj 全#n 覆盖#v 。#x 在#p 元首#t 外交#n 、#x 多边#r 外交#n 、#x 主场#n 外交#n 中#f ,#x 习近平#nrfg 充分#ad 展现#v 大国#ns 担当#v 和#c 领袖#n 风范#n 。#x 他#r 的#uj 外交#n 足迹#n 也#d 为#p 全人类#n 勾画#n 了#ul 一幅#d 清晰#a 的#uj 构建#v 人类#n 命运#n 共同体#n 的#uj 实践#v 路径#n 图#n :#x —#x —#x 构建#v 人类#n 命运#n 共同体#n ,#x 亲#v 诚惠#a 容睦#a 周边#f 。#x 在#p “#x 让#v 命运#n 共同体#n 意识#n 在#p 周边国家#n 落地生根#i ”#x 理念#n 的#uj 指导#n 下#f ,#x 十八#m 大#a 以来#f ,#x 我国#r 与#p 周边国家#n 高层#n 交往#v 密集#n ,#x 各层次#l 、#x 各#r 领域#n 合作#vn 全面#n 展开#v 。#x —#x —#x 构建#v 人类#n 命运#n 共同体#n ,#x 构建#v 新型#b 大国#ns 关系#n 。#x 过去#t 5#m 年#m ,#x 从#p “#x 庄园#nr 会晤#v ”#x “#x 瀛台#ns 夜话#n ”#x “#x 白宫#nr 秋#tg 叙#ns ”#x “#x 西湖#ns 长谈#nz ”#x ,#x 到#v 海湖#ns 庄园#nr 会晤#v 和#c 汉堡#ns 会晤#v 以及#c “#x 故宫#n 茶#n 叙#v ”#x ,#x 中#f 美元#q 首#m 间#f 一个个#m 增信#v 释疑#v 的#uj “#x 高光#nr 时刻#n ”#x ,#x 推动#v 两国关系#l 健康#a 稳定#a 发展#vn 。#x —#x —#x 构建#v 人类#n 命运#n 共同体#n ,#x 大力#n 推进#v “#x 一带#n 一路#m ”#x 。#x “#x 一带#n 一路#m ”#x 倡议#n 提出#v 以来#f ,#x 在#p 各#r 参与方#n 共同努力#l 下#f ,#x 已#d 成为#v 有关#vn 各国#r 实现#v 共同#d 发展#vn 的#uj 重要#a 合作#vn 平台#n 。#x 100#m 多个#m 国家#n 和#c 国际#n 组织#v 积极支持#v 参与#v ,#x 一大批#m 有#v 影响力#n 的#uj 标志性#n 项目#n 成功#a 落地#n 。#x 习近平#nrfg 在#p 2018#m 年#m 新年贺词#l 中#f 坚定#a 地#uv 说道#v :#x “#x 中国#ns 坚定#a 维护#v 联合国#nt 权威#nr 和#c 地位#n ,#x 积极#ad 履行#v 应尽#v 的#uj 国际#n 义务#n 和#c 责任#n ,#x 信守#n 应对#v 全球#n 气候变化#n 的#uj 承诺#v ,#x 积极#ad 推动#v 共建#v ‘#x 一带#n 一路#m ’#x ,#x 始终#d 做#v 世界#n 和平#nz 的#uj 建设者#n 、#x 全球#n 发展#vn 的#uj 贡献者#nr 、#x 国际#n 秩序#n 的#uj 维护者#n 。#x ”#x “#x 单丝不成线#l ,#x 独木不成林#l ”#x 中国#ns 声音#n 世界#n 回响#vn 中国#ns 在#p 国际舞台#nt 的#uj 表现#v ,#x 使得#v 构建#v 人类#n 命运#n 共同体#n 理念#n 得到#v 国际#n 社会#n 的#uj 普遍#ad 认同#v 。#x 2017#m 年#m 2#m 月#m 10#m 日#m ,#x 联合国#nt 社会#n 发展#vn 委员会#n 第#m 55#m 届#m 会议#n 协商一致#nz 通过#p “#x 非洲#ns 发展#vn 新#a 伙伴关系#n 的#uj 社会#n 层面#n ”#x 决议#n ,#x “#x 构建#v 人类#n 命运#n 共同体#n ”#x 理念#n 首次#m 被#p 写入#v 联合国#nt 决议#n 。#x 同年#t 11#m 月#m 1#m 日#m ,#x 第#m 72#m 届#m 联大#j 负责#v 裁军#n 和#c 国际#n 安全#an 事务#n 第一#m 委员会#n 通过#p 了#ul “#x 防止#v 外空#n 军备竞赛#n 进一步#d 切实#ad 措施#n ”#x 和#c “#x 不#d 首先#d 在#p 外空#n 放置#v 武器#n ”#x 两份#m 安全#an 决议#n ,#x “#x 构建#v 人类#n 命运#n 共同体#n ”#x 理念#n 再次#d 载入#v 这#r 两份#m 联合国#nt 决议#n 。#x 人类#n 命运#n 共同体#n 理念#n 已然#d 成为#v 推动#v 全球#n 治理#v 体系#n 变革#vn 、#x 构建#v 新型#b 国际#n 关系#n 和#c 国际#n 新#a 秩序#n 的#uj 共同#d 价值#n 规范#n 。#x 中国#ns 方案#n 引领#v 全球#n 治理#v 新#a 秩序#n 。#x 联合国#nt 秘书长#n 古#a 特雷斯#nr 高度#n 赞同#v 中国#ns 所#c 倡导#v 的#uj 理念#n ,#x 他#r 说#v :#x “#x 中国#ns 已#d 成为#v 多边#r 主义#n 的#uj 重要#a 支柱#n ,#x 而#c 我们#r 践行#v 多边#r 主义#n 的#uj 目的#n ,#x 就是#d 要#v 建立#v 人类#n 命运#n 共同体#n 。#x ”#x 第#m 71#m 届#m 联合国大会#nt 主席#n 彼得#nrt ·#x 汤姆森#nr 在#p 接受#v 记者#n 采访#v 时#n 谈及#v 中国#ns 所#c 倡导#v 的#uj 构建#v 人类#n 命运#n 共同体#n 理念#n ,#x “#x 对#p 我#r 而言#c ,#x 这#r 是#v 人类#n 在#p 这个#r 星球#n 上#f 的#uj 唯一#b 未来#t ”#x 。#x “#x 积力#n 之#u 所#u 举#v ,#x 则#d 无#v 不胜#v 也#d ;#x 众智#n 之所为#c ,#x 则#d 无不#d 成#v 也#d 。#x ”#x 路#n 是#v 走#v 出来#v 的#uj ,#x 事业#n 是#v 干#v 出来#v 的#uj 。#x 美好#a 的#uj 蓝图#nr 变成#v 现实#n ,#x 需要#v 扎扎实实#z 的#uj 行动#vn ,#x 中国#ns 一直#d 用#p 行动#vn 践行#v 着#uz 庄重#a 承诺#v 。#x 构建#v 人类#n 命运#n 共同体#n ,#x 这#r 一#m 跨越#v 时空#n 的#uj 宏伟#a 构想#v ,#x 激荡#v 起#v 全球#n 的#uj 广泛#a 共鸣#v 。#x 看#v ,#x 它#r 的#uj 星空#n 多么#r 壮丽#a 璀璨#z 。
    jieba TF-IDF model:[('共同体', 0.37779824146297947), ('命运', 0.29570882045773655), ('人类', 0.22321048885), ('习近平', 0.20279680011069057), ('构建', 0.1740633047670844), ('理念', 0.13534262479737855), ('中国', 0.11226636817537085), ('国际', 0.10296395449895139), ('世界', 0.0837761394930307), ('外交', 0.06479764754476983), ('2017', 0.0611497058971867), ('联合国', 0.05249554603166241), ('万国宫', 0.0506682754657289), ('发展', 0.05028863178368287), ('18', 0.04586227942289002), ('共筑', 0.04586227942289002), ('大国', 0.045773509957289), ('全球', 0.043880211222289), ('担当', 0.042819685751713556), ('演讲', 0.0409247074086445)]
    jieba TEXTRANK model:[('共同体', 1.0), ('命运', 0.9563844146715582), ('中国', 0.9402439229279722), ('人类', 0.852729473256708), ('国际', 0.5670422683254427), ('构建', 0.4962125858965505), ('世界', 0.4755089832773853), ('理念', 0.45289180409116303), ('发展', 0.3674204187768009), ('全球', 0.3051415268370617), ('外交', 0.26615621485939095), ('方案', 0.21181528468536745), ('大国', 0.20347508980324108), ('会晤', 0.1959836146238921), ('社会', 0.1890876807693847), ('治理', 0.18113220257107346), ('国家', 0.1710297227037406), ('高度', 0.169502787330198), ('关系', 0.1617140619348719), ('提出', 0.1556354101257706)]
    jieba分词 gensim TF-IDF model: [{'共同体': 0.5990260439501356}, {'命运': 0.38441794794052825}, {'构建': 0.2759821992275809}, {'人类': 0.26574276910039}, {'习近平': 0.2597744625273314}, {'理念': 0.17428110677666436}, {'中国': 0.1118030484912496}, {'国际': 0.09870254237589592}, {'共筑': 0.0802018401746123}, {'万国宫': 0.0802018401746123}, {'外交': 0.07976797004174568}, {'世界': 0.0785165490451108}, {'大国': 0.07121050251518532}, {'高级别': 0.0694117099743907}, {'联合国': 0.06821169603877224}, {'共商': 0.06768865660079099}, {'发展': 0.05887370193249946}, {'全球': 0.05857198631444378}, {'伙伴关系': 0.05761713197258974}, {'多边': 0.05477117766224796}]
    
    • 结论

    1.维基百科数据训练的TF-IDF模型效果和jieba自带TF-IDF效果差不多,文本抽取过程均使用jieba分词去除停用词,测试和训练文本都是长文本
    2.jieba自带的textrank算法抽取效果没有TF-IDF模型好
    3.中科院分词发现新词能力较强,可以分词出一定的长词关键词,jieba会做更细粒度的分词,结果上看中科院的抽取效果更好
    4.对于关键词抽取,分词很关键,使用百度百科提取词条提升长词组合词分词准确率
    5.哈工大ltp分词粒度太细,且加入自定义词典也不能保证长词和组合词被分出,因此提取关键词反而不如jieba+自定义词典效果好

    4.问题

    • 分词:采用的开源jieba分词,jieba分词粒度太细,关键词抽取场景关键词经常为多个关键词组成的短语,更能精准表达文意,经测试,中科院分词效果较好,发现新词性能较好,因此关键词抽取效果也较好。jieba加上一个大词典后解决此问题
    • 语料:使用500万百度百科+30万维基百科训练TFIDF模型和30万维基百科数据训练TF-IDF模型,正常测试抽取效果差别不大,但训练语料更大,模型词典更大,关键词覆盖面更大。

    相关文章

      网友评论

      • xqcll:楼主,请问一下30W条的数据用了多长时间,内存吃得消吗?
      • 4e5897781711:楼主是怎么输出词对(中文,tfidf值)的?
        4e5897781711:@sudop 好的,谢谢
        sudop:我把测试代码放出来了,有点乱,有空整理.

      本文标题:gensim TF-IDF模型中文关键词抽取

      本文链接:https://www.haomeiwen.com/subject/etbooxtx.html