1.1 为什么要学习NLP
NLP:Natural Language Processing,自然语言处理

(2014年,NLP处在技术成熟度曲线的顶部)
应用示例
· 拼写校正 · 搜索引擎 · 语音引擎
· 垃圾邮件分类 · 新闻推送 · 机器翻译
NLP工具列表
·GATE ·Mallet ·Open NLP ·UIMA
·斯坦福工具包 ·Genism ·自然语言工具包(NLTK)
NLTK在易于使用和易于解释上表现最佳。
提示
在python网站下载python,按照nltk网站说明,安装NLTK和NLTK数据
1.2 从Python的基本知识开始
1.2.1 列表
list = [1,2,3,4]
print('最后一个列表元素:'+ str(list[-1]))
print('前三个列表元素:'+ str(list[0:2]))
print('倒数三个列表元素:'+ str(list[-3:]))
1.2.2 自助
【帮助函数】
1、dir()
列出给定python对象的所有给定的属性。
2、help()
给定python对象的详细文档,并且一些示例,告诉如何使用python对象。
【处理字符串的基本函数】
3、split()
基于一些分隔符分割字符串。如果不提供任何参数,默认以空格作为分隔符。
4、strip()
删除字符串的尾随空格,例如'\n''\n\R'。
5、upper/lower()
改变字符串中字母的大小写。
6、replace()
替换字符串中的子字符串。
1.2.3 正则表达式
1、字符

2、re模块
re 模块使 Python 语言拥有全部的正则表达式功能。
re.match函数;re.search方法;re.sub;re.compile…

1.2.4 词典
词典是使用键(key)进行索引的数据结构,这些键可以是任何不可变的类型。
(词典常见用例之一,获得单词的频率分布,在1.2.5部分有)
1.2.5 函数
关键词def + 函数名 +圆括号()


1.3 NLTK
资料来源:
1、《Python和NLTK自然语言处理》
2、Gartner2018年新兴技术成熟度曲线解读
https://cloud.tencent.com/developer/news/304533
3、Python 正则表达式
https://www.runoob.com/python/python-reg-expressions.html
正则表达式-菜鸟教程
https://www.runoob.com/regexp/regexp-intro.html
网友评论