MapReduce实战：Auto Complete

MapReduce实战：Auto Complete

作者: __0_0__ | 来源:发表于2017-07-29 09:48 被阅读0次

MapReduce实战：Auto Complete
sublime个人设置
Auto-Complete
vue+elementui,使用注意点
vscode常用插件整理
phpstorm yaf代码提示自动补全
sublime text微信小程序代码片段的使用
Java ClassPath
vscode + vue 配置指南
浏览器记住密码特性

预备知识：

1、Ngram语言模型：

》该模型基于这样一种假设：第n个词的出现只与前面N-1个词相关，而与其它任何词都不相关，整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。

》假设一个字符串w=w1w2….wn; wi可以是一个字，一个词或者一个短语，我们把一个可以计算 P(W) 或者P(wn|w1,w2…wn-1) 的模型称为语言模型，Language model，或者写成LM。

》目的：在给定语料库中，计算一个字符串出现的概率问题。

作用：a、机器翻译 P(high winds tonight) > P(large winds tonight)；b、拼写纠正，The office is about fifteen minuets from my house P(about fifteen minutes from) > P(about fifteen minuets from)；c、语音识别 P(I saw a van) >> P(eyes awe of an)；d、文本分类；还有自动摘要生成、问答系统等。

》如何计算字符串W出现的概率，即如何计算p(w)

例如：如何计算P(its, water, is, so, transparent, that)出现的概率呢？

这就涉及联合概率和条件概率的知识了。

回顾一下联合概率公式：

P(A,B,C,D) = P(A)P(B|A)P(C|A,B)P(D|A,B,C) （1）

一般地： P(x1,x2,x3,…,xn) = P(x1)P(x2|x1)P(x3|x1,x2)…P(xn|x1,…,xn-1) （2）

即

所以字符串“its water is so transparent”出现的概率计算方法是

P(“its water is so transparent”) =

P(its) × P(water|its) × P(is|its water)

× P(so|its water is) × P(transparent|its water is so)

但是，但我们计算P(wn|w1,w2…wn-1)的时候，比如

由于要计算wi出现的概率，就要去统计前i-1词出现的情况，假设词库中有M个词，就有M^(i-1)种可能，这样导致计算量太大了。

于是，我们做一个简单的马尔科夫假设（Markov Assumption）：假设第i个词出现的概率只与前面的N--1个词有关，这就是N-gram语言模型的由来。比如计算的概率时候，我们假设单词the出现的概率只与前面出现的一个词有关，那么

。

因此，在假设第i个词出现的概率只与前面的N-1个词出现有关的前提下，在计算p(wi|w1w2…wi-1)的时候，就变成了公式4，在计算p(w)=p(w1w2….wn)的时候就变成了公式5，这就是N-gram语言模型。

当N=1的时候，

，叫一元模型，Unigram model；

N=2的时候，

，叫二元模型，Bigram model；

当N=3的时候，

，叫三元模型，trigram model；

好了，接下来针对二元模型，我们如何去估计这些概率参数呢？

用的方法就是最大似然估计，也就是公式（6）和（7）了！

C(wi-1)表示词wi-1在语料库中出现的频数。

一、项目的整体工作流程：

后端：在hadoop上构建两个Job，一个用于从数据集构建Ngram Library，一个根据概率来构建Library model，生成数据导入database中。（N－gram）

前端：利用JQuery, PHP, Ajax来调用database数据，实现实时autocompletion，在网页端展示搜索引擎的Auto Completion 功能。

二、主要实现部分：

1、job1:

Map：从HDFS中读入数据集，拆分成2-n个单词的组合，发送给Reduce处理

Reduce：统计key出现的次数，结果输出至HDFS中。

2、job2:

Map：读取Job1 的处理结果，如读入的为： this is cool/t20，则将其处理为：outputkey：this is ，outputvalue：cool＝20的形式，发送至Reduce

Reduce：接收的形式为如this -> <is=30, is book=10>

相关文章

MapReduce实战：Auto Complete
预备知识： 1、Ngram语言模型：》该模型基于这样一种假设：第n个词的出现只与前面N-1个词相关，而与其它任何...
sublime个人设置
{ "auto_complete": true, "auto_match_enabled": true, "bol...
Auto-Complete
vue+elementui,使用注意点
1, 实际有效的是auto-complate属性:比如 auto-complete="new-password" ...
vscode常用插件整理
Auto Close TagAuto Complete TagAuto ImportAuto Rename Tag...
phpstorm yaf代码提示自动补全
1、下载文件https://github.com/xudianyang/yaf.auto.complete2、打开...
sublime text微信小程序代码片段的使用
1.在你的sublime text的用户配置中添加如下配置: { "auto_complete": true, "...
Java ClassPath
Java class path 最近遇到了两个问题设置 Atom 的 auto complete 的时候发现需要...
vscode + vue 配置指南
工欲善其事必先利其器 setting.json 插件Auto Close TagAuto Complete Tag...
浏览器记住密码特性
取消浏览器记住密码 auto-complete="new-password" 问题描述: 项目交互要求登录提交按钮...

网友评论

本文标题：MapReduce实战：Auto Complete

本文链接：https://www.haomeiwen.com/subject/aaqqlxtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|MapReduce实战：Auto Complete|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！