NLP学习总结

作者: MobotStone | 来源:发表于2017-05-05 14:20 被阅读563次

NLP是什么呢?
1.语言是生物同类之间由于沟通需要而制定的具有统一编码解码标准的声音(图像)指令。包含手势、表情、语音等肢体语言,文字是显像符号。
2.自然语言通常是指一种自然地随文化演化的语言。例如英语、汉语、日语等。有别于人造语言,例如世界语、编程语言等。
3.自然语言处理包括自然语言理解和自然语言生成。自然语言理解是将自然语言变成计算机能够理解的语言,及非结构化文本转变为结构化信息。
4.NLP的 四大经典“AI 完全 ” 难题:问答、复述、文摘、翻译,只要解决其中一个,另外三个就都解决了。问答就是让机器人很开放的回答你提的各种各样问题,就像真人一样;复述是让机器用另外一种方式表达出来;文摘就是告诉你一篇很长的文章,让你写一个100字的文摘,把它做出来是非常难做的;翻译也是很困难的,英语思维方式和中文思维方式转换过来,中间会涉及到很多复杂的问题。


NLP技术的应用及思考

图为整个自然语言处理平台最核心的框图,底层是各种各样的基础数据,中间层包含基本的词法分析、句法分析、语义分析、文档分析,还有其他各种各样跟深度学习相关的一些技术;上层是自然语言处理能够直接掌控和变革的一些算法和业务,比如内容搜索、内容推荐、评价、问答、文摘、文本理解等等一系列问题,最上层我们直接支持大业务的单元,比如商品搜索、推荐、智能交互、翻译。商业翻译和普通机器翻译是不一样的,还有广告、风控、舆情监控等等。这个层次结构是比较传统的方式,为了让我们平台具有非常好的落地能力,右边有一列平台工程,专门解决如何让算法能够快速的用到业务里面去。
NLP算法归类整理
下面对我们的算法做一些比较简单的举例。
1.词法分析(分词、词性、实体):
–算法:基于Bi-LSTM-CRF算法体系,以及丰富的多领域词表
–应用:优酷、YunOS、蚂蚁金服、推荐算法、资讯搜索等
2.句法分析(依存句法分析、成分句法分析):
–算法:Shift-reduce,graph-based,Bi-LSTM
–新闻领域、商品评价、商品标题、搜索Query
–应用:资讯搜索、评价情感分析
3.情感分析(情感对象、情感属性、情感属性关联):
–算法:情感词典挖掘,属性级、句子级、篇章级情感分析
–应用:商品评价、商品问答、品牌舆情、互联网舆情
4.句子生成(句子可控改写、句子压缩):
–算法:Beam Search、Seq2Seq+Attention
–应用:商品标题压缩,资讯标题改写,PUSH消息改写
5.句子相似度(浅层相似度、语义相似度):
–算法:Edit Distance,Word2Vec,DSSM
–应用:问大家相似问题、商品重发检测、影视作品相似等
6.文本分类/聚类(垃圾防控、信息聚合):
–算法:ME,SVM,FastText
–应用:商品类目预测、问答意图分析、文本垃圾过滤、舆情聚类、名片OCR后语义识别等
7.文本表示(词向量、句子向量、篇章向量、Seq2Seq):
–Word2Vec、LSTM、DSSM、Seq2Seq为基础进行深入研究
8.知识库
–数据规模:电商同义词,通用同义词,电商上下位,通用上下位,领域词库(电商词、娱乐领域词、通用实体词),情感词库
–挖掘算法:bootstrapping,click-through mining,word2vec,k-means,CRF
–应用:语义归一、语义扩展、Query理解、意图理解、情感分析
9.语料库
–分词、词性标注数据,依存句法标注数据


NLP技术的应用及思考
有这样一句话叫“我要买秋天穿的红色连衣裙”,这句是电商领域中比较常见的,词法分析结果会把中间“我要”拆开。分词要分的很准,它不是每个单字都是一个词,比如秋天是一个词,连衣裙是一个词。下面这一层标签是对应的词性。上面这一层就是句子树型结构,它会比较深入的把句子比较深度的结构化。只有把它结构化之后才能导到数据库里面去,才能做后续的各种机器学习研究和应用,这种叫结构句法分析。

相关文章

  • NLP学习总结

    NLP是什么呢?1.语言是生物同类之间由于沟通需要而制定的具有统一编码解码标准的声音(图像)指令。包含手势、表情、...

  • NLP教练学习总结

    在总结归纳收获之前,简单回顾一下踏上学习之路的历程:2017年,刚生完二胎不久的我焦头烂额,大儿子在班上成绩倒数,...

  • 自然语言处理N天-AllenNLP学习(How-to 01)

    有一篇帖子总结了学习处理NLP问题中间的坑。NLP数据预处理要比CV的麻烦很多。 去除停用词,建立词典,加载各种预...

  • 生命是用来学习快乐的!

    感恩遇到中美NLP! 生命是用来学习快乐的! 感谢一年多以前和NLP的邂逅。在新年到来伊始,想好好审视总结一番,到...

  • 第一篇: 词向量之Word2vector原理浅析

    一、概述 本文主要是从deep learning for nlp课程的讲义中学习、总结google word2ve...

  • 0前言

    正所谓“无总结,不进步”。发几篇文章总结梳理一下对AI学习的成果(NLP自然语言处理方向),学习的方法就是最质朴的...

  • 自然语言处理N天-AllenNLP学习(Laziness in

    有一篇帖子总结了一下学习处理NLP问题中间的坑。NLP数据预处理要比CV的麻烦很多。 去除停用词,建立词典,加载各...

  • NLP学习HW1

    NLP入门组队学习 题目理解 报名了NLP组队学习,这是第一天的学习。 赛题名称: 零基础入门NLP之新闻文本分类...

  • NLP学习总结---jieba分词工具

    jieba 是python中自带的一个用于分词的库,是学习NLP最基本的一个知识点和敲门砖,下面对jieba 的用...

  • Note - 深度学习框架总结(for NLP)

    框架罗列和归类 底层深度学习框架:theano tensorflow pytorch mxnet paddlepa...

网友评论

    本文标题:NLP学习总结

    本文链接:https://www.haomeiwen.com/subject/rizjtxtx.html