大家知道python非常的强大,特别针对seo也非常的有用。
1、python可以自动收集与处理信息,比如文章标题与内容
2、python可以自动登录后台发布文章
之前有写过相关利用python采集信息的文章,这里就不多说了,今天说一下怎么利用python分词。
最早我在利用python自动收集与发布文章的时候,是利用的discuz的分词api来分词的,这样我就不用人工对每篇文章填入关键词,非常的方便,而且还是比较精准的。
但是这种方法觉得不是太通用
1、效率好像有点慢
2、要自己有个论坛,并且会抓包分析才行,门槛高
最近发现python有个包非常好用,可以直接模拟搜索引擎进行分词,所以就利用python专门写了个分词程序。
举个例子,我昨天写了一篇文章标题是:python批量查询网页收录情况并计算收录率
我用写好的分词程序可以实现自动分词,运行结果如下图:
其原理就是利用结巴分词来实现的。
具体代码分享给大家吧:
#coding:utf8
'''
author:liyatao wx:841483350
'''
#python利用结巴分词关键词自动提取 请确认安装jieba,安装方法pip install jieba
import jieba
def cutword(word):
tags=[] seg_list = jieba.cut(word)
seg_list={}.fromkeys(seg_list).keys()#去除列表中重复的元素
for xin seg_list:
if len(x)>=2:#如果分出来的词的元素大于等于2个字
tags.append(x)#添加到新的列表中
else:
pass
tags.sort(key=lambda x:len(x))#按列表中元素字符串的长度从小到大排序
print ','.join(tags)
# return tags
if __name__=="__main__":
word="python批量查询网页收录情况并计算收录率 ”"
cutword(word)
好了,今天就分享到这里,希望本文对大家有所帮助
网友评论