美文网首页
【NTTK基础知识】第1章 自然语言处理简介

【NTTK基础知识】第1章 自然语言处理简介

作者: ado_l | 来源:发表于2019-10-16 15:20 被阅读0次

1.1 为什么要学习NLP

NLP:Natural Language Processing,自然语言处理

2018年Gartner的技术成熟度曲线

(2014年,NLP处在技术成熟度曲线的顶部)

应用示例

· 拼写校正                    · 搜索引擎                · 语音引擎

· 垃圾邮件分类            · 新闻推送                · 机器翻译

  

NLP工具列表

·GATE                    ·Mallet             ·Open NLP             ·UIMA

·斯坦福工具包      ·Genism           ·自然语言工具包(NLTK) 

    NLTK在易于使用和易于解释上表现最佳。

提示

    在python网站下载python,按照nltk网站说明,安装NLTK和NLTK数据

1.2 从Python的基本知识开始

1.2.1 列表    

list = [1,2,3,4]

print('最后一个列表元素:'+ str(list[-1]))

print('前三个列表元素:'+ str(list[0:2]))

print('倒数三个列表元素:'+ str(list[-3:]))

1.2.2 自助

【帮助函数】

1、dir()

    列出给定python对象的所有给定的属性。

2、help()

   给定python对象的详细文档,并且一些示例,告诉如何使用python对象。

【处理字符串的基本函数】

3、split()

    基于一些分隔符分割字符串。如果不提供任何参数,默认以空格作为分隔符。    

4、strip()

    删除字符串的尾随空格,例如'\n''\n\R'。

5、upper/lower()

    改变字符串中字母的大小写。

6、replace()

    替换字符串中的子字符串。

    

1.2.3 正则表达式

1、字符

部分特殊字符

2、re模块

    re 模块使 Python 语言拥有全部的正则表达式功能。

    re.match函数;re.search方法;re.sub;re.compile…

re.findall方法


1.2.4 词典

    词典是使用键(key)进行索引的数据结构,这些键可以是任何不可变的类型。

(词典常见用例之一,获得单词的频率分布,在1.2.5部分有

1.2.5 函数

关键词def + 函数名 +圆括号()

获得单词频率分布的函数 输出结果


1.3 NLTK

资料来源:

1、《Python和NLTK自然语言处理》

2、Gartner2018年新兴技术成熟度曲线解读               

    https://cloud.tencent.com/developer/news/304533

3、Python 正则表达式

    https://www.runoob.com/python/python-reg-expressions.html

    正则表达式-菜鸟教程

    https://www.runoob.com/regexp/regexp-intro.html

相关文章

网友评论

      本文标题:【NTTK基础知识】第1章 自然语言处理简介

      本文链接:https://www.haomeiwen.com/subject/ttqumctx.html