文本挖掘和分析初步

作者: 朱小虎XiaohuZhu | 来源:发表于2015-06-15 11:58 被阅读1685次

文本挖掘和分析初步
ImageQ|文本挖掘工具|在线文本挖掘工具|分析"霍
文本挖掘工具|在线文本挖掘工具|分析"女子带宝宝自考&
文本挖掘工具|在线文本挖掘工具|分析"哈勃"
文本挖掘工具|在线文本挖掘工具|分析娱乐圈热门语料
用机器学习做中文情感分类
资源盘点：有用的文本分析，文本挖掘和信息检索软件
影视评论分析（三）-- 情感分析
文本挖掘工具,分享常用的文本挖掘工具分析步骤！
为什么这么喜欢perl?

Neil Zhu，简书ID Not_GOD，University AI 创始人 & Chief Scientist，致力于推进世界人工智能化进程。制定并实施 UAI 中长期增长战略和目标，带领团队快速成长为人工智能领域最专业的力量。
作为行业领导者，他和UAI一起在2014年创建了TASA（中国最早的人工智能社团）, DL Center（深度学习知识中心全球价值网络），AI growth（行业智库培训）等，为中国的人工智能人才建设输送了大量的血液和养分。此外，他还参与或者举办过各类国际性的人工智能峰会和活动，产生了巨大的影响力，书写了60万字的人工智能精品技术内容，生产翻译了全球第一本深度学习入门书《神经网络与深度学习》，生产的内容被大量的专业垂直公众号和媒体转载与连载。曾经受邀为国内顶尖大学制定人工智能学习规划和教授人工智能前沿课程，均受学生和老师好评。

coursera Text Mining and Analytics

文本挖掘和分析

文本挖掘近似于文本分析
将文本数据转化为高质量信息 或者 可以作用的知识
1. 最小化人工成本
2. 供可选的决策判定
与文本检索相关，这是所有文本挖掘系统的基本组成部分
1. 信息检索可以看做是文本挖掘的前期处理
2. 文本检索对知识的生成（provenance）有用

文本数据和非文本数据的比对：

人类作为主观的接收器
Real World —（sense）—> Sensor —（report）—>Data

Paste_Image.png

文本数据来自于人类的创造性工作（当然也可能是一些内容的复制和再创作，在众多的内容产生的社交网站上，正是对应着上图的最下面的场景）。首先创作，然后形成人与人之间的交互（通过文本数据本身的媒介，用户之间形成了较为深入的关联），每个个体作为一个信息的接受器，根据已经获得的文本信息加上自己对某些问题或者事件的思考，最终产生新的内容。这个系统处于一个不断地迭代和重复循环的过程之中。

数据挖掘的一般性问题

Paste_Image.png

在数据挖掘这个大的领域中，可以看到有各种各样的数据产生源，通过不同的接收器获得真实世界的反应（表现在不同的数据，有数值的，分类的，关系的，甚至视频数据和文本数据），在我看来，这些数据内在是具有不断深化的进程，从简单到复杂，从单层到多层，这种复杂性也反映了世界的真相（我们读过的书，实际上就是人类思想的汇聚和深化，这就是文本数据棘手的地方，相比于图像和视频数据相对局部的关联性，一篇文章的词词相关性远远超过了前面这几类数据，而电影这样的数据，与文本数据类似，只是构成的基本要素不同，这里揣测一下，今后 deeplearning 应该会应用在对视频内容的理解上）

数据产生后，将这些数据丢给各类数据挖掘系统，可以得到相对应的可以作用的知识