利用auomator从文章中提取单词列表

作者: 鸭梨山大哎 | 来源:发表于2017-02-15 19:26 被阅读35次

利用auomator从文章中提取单词列表
Python零基础4：列表、字典、元组
更复杂格式的数据(xml&html)
redis-4-列表
dede 常用标签的复杂调用整理（很实用！！）
各类文件头特征码
从图片中提取文字，转到Excel表格中，利用OCR技术将图片转表
Python实现猜单词游戏
现西～西班牙语5、6、7、8课单词背诵
现西～西班牙语5、6、7、8课单词背诵

前提是你安装好了python3 以及nltk这个库。（自行百度）
打开automator，新建app，

Paste_Image.png

Py文件内容，把corpus_root='/Users/noneback/protoncorpus'改成你存放txt文本的位置。把要分析的txt文本存在这里即可。

#!/usr/bin/env python
# -*- coding:utf-8 -*-

from nltk.corpus import PlaintextCorpusReader
corpus_root='/Users/noneback/protoncorpus'
wordlists=PlaintextCorpusReader(corpus_root,'.*')

def getcb():
#从文本中提取单词列表
       cb=[]
       for x in wordlists.fileids():
              if x.endswith('.txt'):
                     print (x)
                     cb.extend(wordlists.words(x))
       return cb

def nocfcb():
#去掉单词列表中重复的单词
       s=getcb()
       print (len(s))
       s1=set(s)
       s2=sorted([w for w in s1 if w.isalpha() and w.islower()])
       for x in s2:
              print (x)

if __name__=='__main__':
       nocfcb()

效果如图