词关联挖掘和分析

作者: 朱小虎XiaohuZhu | 来源:发表于2015-06-15 18:21 被阅读814次

Neil Zhu,简书ID Not_GOD,University AI 创始人 & Chief Scientist,致力于推进世界人工智能化进程。制定并实施 UAI 中长期增长战略和目标,带领团队快速成长为人工智能领域最专业的力量。
作为行业领导者,他和UAI一起在2014年创建了TASA(中国最早的人工智能社团), DL Center(深度学习知识中心全球价值网络),AI growth(行业智库培训)等,为中国的人工智能人才建设输送了大量的血液和养分。此外,他还参与或者举办过各类国际性的人工智能峰会和活动,产生了巨大的影响力,书写了60万字的人工智能精品技术内容,生产翻译了全球第一本深度学习入门书《神经网络与深度学习》,生产的内容被大量的专业垂直公众号和媒体转载与连载。曾经受邀为国内顶尖大学制定人工智能学习规划和教授人工智能前沿课程,均受学生和老师好评。

词关联挖掘和分析

Paste_Image.png
  • 什么是词关联?
  • 为何要找出词关联?
  • 如何找出词关联?

基本的词关系:Paradigmatic 纵聚合和 Syntagmatic 横组合关系

  • Paradigmatic: A 和 B 有 paradigmatic 关系,当他们是可以被互相替代的(A 和 B在同样的类别中)
  • E.g., “cat” and “dog”; “Monday” and “Tuesday”
  • Syntagmatic:A 和 B 有 syntagmatic 关系,当他们可以组合在一起(A 和 B 语义相关)
  • E.g., “cat” and “sit”; “car” and “drive”

为何挖掘词关联?

  • 对于提升许多NLP任务的准确性很有帮助
  • POS tagging,parsing,实体识别,首字母缩略展开
  • 语法学习
  • 对文本检索和挖掘中的很多应用直接产生作用
  • 文本检索(例如,使用词关联来推荐一个查询的变体)
  • 自动生成话题导图供浏览使用:词是节点而关联是边
  • 比对和总结观点(例如,哪些词与 iPhone 6 的电池正面和反面评论最为相关?)

挖掘词关联:直觉

Paradigmatic:相似的上下文

Paste_Image.png
  • context("cat") 和 context("dog") 多相似?
  • context("cat") 和 context("computer") 多相似?

Syntagmatic:相关的出现

Paste_Image.png
  • 当“eats”出现,其他什么词也会出现?
  • “eats”出现对预测“meat”出现的帮助多大?
  • “eats”出现对预测“text”出现的帮助多大?

挖掘词关联:一般思路

  • Paradigmatic
  • 使用其上下文来表示每个词
  • 计算上下文的相似度
  • 拥有较高的上下文的相似度的词更加可能有 paradigmatic 关系
  • Syntagmatic
  • 计算两个词共现在一个上下文(如句子或篇章)的次数
  • 比较他们共现和独立出现的次数
  • 高共现数却相对低得独立出现数的词更可能有 syntagmatic 关系
  • paradigmatic 关联的词倾向于与相同的词有 syntagmatic 关系 -> 两种关系的联合发现
  • 这些想法可以用很多不同的方式实现出来

相关文章

  • 词关联挖掘和分析

    Neil Zhu,简书ID Not_GOD,University AI 创始人 & Chief Scientist...

  • [转]Spark购物篮分析:关联规则挖掘

    1、浅谈数据挖掘中的关联规则挖掘 2、Hadoop/MapReduce购物篮分析:关联规则挖掘 3、Spark购物...

  • 不会大数据,也能读懂关联分析

    关联分析(规则)即挖掘关联现象,从大量数据当中发现事物、特征或者数据之间的,频繁出现的相互依赖关系和关联关系。关联...

  • 2019-01-13

    1. 关联 关联, 指的是关联分析, 这里引用百度百科的定义. 关联分析又称关联挖掘,就是在交易数据、关系数据或其...

  • 典型关联分析(CCA)原理总结(转自刘建平Pinard)

    典型关联分析(Canonical Correlation Analysis,以下简称CCA)是最常用的挖掘数据关联...

  • 数据挖掘——关联分析

    前言 关联规则是人类认知客观事物形成的一种认知模式。人们可以从庞大的事物个体中发现一个或者多个的关联。从而建立出关...

  • 零售业的数据挖掘

    数据挖掘的任务和方法 数据挖掘通过预测未来趋势及行为,做出前摄的、基于知识的决策。数据挖掘 的任务主要是关联分析、...

  • 共词分析

    共词分析分类 共词聚类分析最近邻等算法 共词关联分析关联规则相关算法 共词词频分析统计 突发词检测法相对增长率突然...

  • Python数据挖掘012-关联规则

    关联规则挖掘是数据挖掘中第三个比较大的类别。 关联规则分析也称为购物篮分析,最早是为了发现超市销售数据库中不同的商...

  • 购物篮分析算法与实践

    1. 购物篮分析 购物篮分析(Market Basket Analysis)是数据挖掘十大经典算法之一关联规则挖掘...

网友评论

    本文标题:词关联挖掘和分析

    本文链接:https://www.haomeiwen.com/subject/kcqsqttx.html