美文网首页
李亚涛:python模拟搜索引擎分词

李亚涛:python模拟搜索引擎分词

作者: 李亚涛爱分享 | 来源:发表于2018-04-02 23:09 被阅读0次

大家知道python非常的强大,特别针对seo也非常的有用。

1、python可以自动收集与处理信息,比如文章标题与内容

2、python可以自动登录后台发布文章

之前有写过相关利用python采集信息的文章,这里就不多说了,今天说一下怎么利用python分词。

最早我在利用python自动收集与发布文章的时候,是利用的discuz的分词api来分词的,这样我就不用人工对每篇文章填入关键词,非常的方便,而且还是比较精准的。

但是这种方法觉得不是太通用

1、效率好像有点慢

2、要自己有个论坛,并且会抓包分析才行,门槛高

最近发现python有个包非常好用,可以直接模拟搜索引擎进行分词,所以就利用python专门写了个分词程序。

举个例子,我昨天写了一篇文章标题是:python批量查询网页收录情况并计算收录率

我用写好的分词程序可以实现自动分词,运行结果如下图:

其原理就是利用结巴分词来实现的。

具体代码分享给大家吧:

#coding:utf8

'''

author:liyatao wx:841483350

'''

#python利用结巴分词关键词自动提取 请确认安装jieba,安装方法pip install jieba

import jieba

def cutword(word):

tags=[]    seg_list = jieba.cut(word)

seg_list={}.fromkeys(seg_list).keys()#去除列表中重复的元素

    for xin seg_list:

if len(x)>=2:#如果分出来的词的元素大于等于2个字

            tags.append(x)#添加到新的列表中

         else:

pass

    tags.sort(key=lambda x:len(x))#按列表中元素字符串的长度从小到大排序

    print ','.join(tags)

# return tags

if  __name__=="__main__":

word="python批量查询网页收录情况并计算收录率 ”"

    cutword(word)

好了,今天就分享到这里,希望本文对大家有所帮助

相关文章

网友评论

      本文标题:李亚涛:python模拟搜索引擎分词

      本文链接:https://www.haomeiwen.com/subject/exyfhftx.html