来源:CPDA数据分析师网 / 作者:数据君
让我们坚持使用大数据的半结构化或非结构化内容源
这种内容缺乏结构性,因此更难于理解数据中发生的事情并发现其中隐藏的模式和见解隐藏的业务价值,为了解决这个问题,出现了多种技术,包括“机器学习”,“深度学习”和文本挖掘。在深入探讨这些技术的优点之前,让我们退后一步,看看我们想使用大数据来理解的问题,不仅是正在发生的事情,而且是为什么发生的事情(数据的上下文)。
CPDA数据分析师为什么了解我们正在处理的信息的“背景”为何如此重要?
用外行的话来说,这就是食物的味道,我们可以没有味觉和嗅觉地生活,但是如果没有它,我们会错过使食物值得食用的原因,同样我们可以挖掘大数据并了解,通过上下文,我们如何挖掘和理解上下文?我们已经提到了两种技术(机器学习和文本分析),如今机器学习无处不在,因此几乎可以肯定您已经听说过这个短语,这很可能与电视节目有关,在该节目中在一场普通知识竞赛中击败了两个人。大多数人没有意识到的是,不仅仅是简单的机器学习。
击败人类的机器是所有技术的结合
正是机器学习和文本分析的结合才成为现实,机器学习是一种用于对信息进行分类和分类的绝妙技术(这是关于棒球的,这是汽车评论),但是它并不是很好地为该分类添加风味。句子我希望通用汽车创造了一款超酷的新跑车与通用汽车创造了一款超酷的新跑车有很大的不同,它的文本分析使我们能够更深入地了解陈述的味道,第一个是愿望第二点是对存在的东西的肯定陈述。
您如何从内容食物的味道中提取上下文
作为人类我们了解我希望创建通用汽车和创建通用汽车之间的区别,一个是欲望,另一个是对实际事物的看法,作为一个可能会想要购买汽车的人,我们会更加强调意见而不是欲望。我们如何使机器理解这些几乎相同的句子具有非常不同的上下文?语法解析满足了这一需求,使机器可以将人类的理解编纂成文,尤其是与情感等事物有关的理解。让我们看一下语法解析:我希望通用汽车制造出一款很棒的新车。
正确的语法分析显示了我们如何确定这对于GM并不是真正的好消息的开端
因为它代表了一种愿望,通过这种解析,我们对诸如情感之类的事物如何附加到所描述的实体有了规则,对于通用汽车来说,通用汽车创造了一款很酷的新车,显然是个好消息,因为对于汽车而言酷是一个积极的词。
我们如何确定愿望会削弱情绪呢?
事实证明,诸如“希望”或“指示”之类的动作词具有改变树中情绪的规则;希望减弱其左侧的情感,而指示将右侧的情感移动到左侧的对象,因此我指示通用汽车制造一款超酷的新车实际上对我来说是不错的情感,正是这种对文本的深入了解,使我们能够收集文档的上下文并制定更好的业务决策,汽车迷的大数据收集将获得有关酷炫的新跑车的信息,但是如果没有上下文,我们将永远无法理解他们是否在谈论谣言生产新产品或最近发布,如果我们没有讨论的内容,那么我们很容易就数据在告诉我们什么而做出错误的推论,并使用这一事实准确而又不完整的图景来做出真正糟糕的业务决策。
没有上下文大数据就是平面数据
这可能是低估了上下文的重要性,因为如果没有上下文,大数据洞察力可能就是糟糕的数据洞察力,但是在良好的环境下您将真正了解这些信息量的“内容”和“原因”,因此您可以做出有见地和可靠的决策,当您开始考虑在企业中利用什么以及如何利用大数据时,请确保如果其中包含非结构化信息,则请选择一种能够充分挖掘该信息以使您做出合理而准确的决策的技术。
网友评论