美文网首页
自然语言处理的思想整理

自然语言处理的思想整理

作者: 徐薇薇 | 来源:发表于2017-05-16 19:27 被阅读56次

    这篇是草稿,待看完更多书后统一整理。建议网友先看托马斯•科弗的《信息论基础》。语言处理又是和弗里德里克•贾里尼克这位大师紧密联系在一起的。

    语言编码首先是词的编码规则,再是语法的编码规则。

    词的编码规则有声码即拼音文字,形码,量码即数字。

    ictclad对文本集合预处理,包括对文本进行分词和词性标注,之后识别文本集合的人名,地名,组织机构。然后应用tf-idf对文本中的所有词项权值计算,选出关键词。

    语法编码:从规则到统计

    词是表达语义的最小单位。最容易的分词方法是查字典,梁南元教授提出来的。语言的歧义是分词的阻碍。现在最好的分词是清华大学郭进博士提出来的。

    说到统计,得谈到概率。

    我们常说信息很多,那到底有多少呢?如何量化?

    某个角度上讲信息量取决于不确定性的多少。也要通过分组和结合概率算。

    信息处理,很大问题上都在解决不确定性。如何解决和处理二义性?当获取的信息与研究事物有相关关系时,就可以减少。也就是利用相互关系原理,利用相关的信息。

    统计一方面可以衡量某一个算法或者解决方案的好坏,也就是找出最优解

    概率统计中的推理中有,不得不提到布尔运算。

    逻辑运算有三个基本的,与或非。一定要深刻理解啊!!

    搜索引擎

    搜索引擎的原理:自动下载网页,建立索引,根据相关性进行排序。

    建立最简单的索引结构是每一篇文献都对应一个二进制数,1代表这个文献有这个关键词,0代表没有。有多少文献就有多少位数,用很长的二进制字符串表示一个关键词是否出现在每篇文献中。

    于是,搜索引擎的索引就变成一张大表,每一行对应一个关键词,每个关键词后面跟着一组数字,是包含该关键词的文献序号。

    图论的遍历算法要好好看啊,思想精髓要把握住啊。。广度遍历和深度遍历。

    网络爬虫,使用哈希表存储网页是否下载过。

    网络爬虫的解析程序看看。

    如何计算网页的权重和排序网页?破解权重的方法是转成二维矩阵相乘,然后迭代,并且利用稀疏矩阵思想。

    遍历中的图论:主要解决是什么问题?是识别。

    有限状态机和动态规划好好看看。

    先解决80%的问题,后解决20%的问题。

    计算机不需要学习人的做法,就像飞机不必像鸟一样飞行?我不能理解,我要好好想想为什么?

    余弦定理与相关性:余弦值越大,相关性越大。

    先计算两两网页的相似性,如果在一个阀值内就合并,基于这个分类完后再两两合并。时间成本高。

    奇异值与相关性

    矩阵与相关,分类:向量夹角越大时,相关性越差

    相似性:信息指纹与相似哈希表

    反作弊:通信模型和图论。

    记得看看上面两个。

    数学模型与香农第一定理

    贝叶思网络与分类,主题:

    每一个状态只与它直接相连的状态有关,和它间接相连的状态没有直接关系,那么它就是贝叶斯网络。

    条件随机场与句法分析

    图论中的维特比算法

    利用动态规划解决最短路径问题

    相关文章

      网友评论

          本文标题:自然语言处理的思想整理

          本文链接:https://www.haomeiwen.com/subject/tpvkxxtx.html