Spark解决构建倒排索引问题的步骤

Spark解决构建倒排索引问题的步骤

作者: 皮皮杂谈 | 来源:发表于2019-06-18 00:44 被阅读11次

构建倒排索引是一个经典的大数据问题，为了简化该问题，我们可以假设输入是一个包含大量文本文件的目录，输出是每个词对应的倒排索引。

相比于MapReduce，采用spark解决问题则简单得多：用户无需受限于（MapReduce中的）Mapper、Combiner和Reducer等组件要求的固定表达方式，而只需将解决方案翻译成Spark提供的丰富算子即可。总结起来，用Spark解决问题可以分为以下几个步骤：

处理步骤

1、读取自定目录下所有文本文件列表，并通过parallelize算子将文件划分成K份，每份交给一个任务处理。

2、每个任务按照以下流程依次处理分配到的文件：读取文件、分词、统计词在该文件中出现的次数。

3、按照单词进行规约（使用reduceByKey算子），将同一单词在各文件中出现的次数信息连接（join）起来，并写入最终输出目录中。

相关文章

网友评论

本文标题：Spark解决构建倒排索引问题的步骤

本文链接：https://www.haomeiwen.com/subject/pdgtqctx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

每天写1000字

热点阅读

读书

想法

每天写1000字

简友广场

关于我们|服务条款|联系我们|Spark解决构建倒排索引问题的步骤|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！