美文网首页
spark,es之踩坑记

spark,es之踩坑记

作者: 亲吻大海的鲨鱼 | 来源:发表于2017-07-14 18:20 被阅读0次

这几天用spark和es写了点统计和查询,记录下这过程中踩过的一些坑。

先说说spark中的坑吧,记得之前在书上看spark算子的时候,是这么说action和transformation的区别的:transformation变换/转换算子:这种变换并不触发提交作业,完成作业中间过程处理。action行动算子:这类算子会触发 sparkcontext 提交 job 作业。

当时看过之后也没太在意这句话,可是这几天真正实践的时候出现了一个百思不得其解的问题。好吧,当我信心满满的写完一堆map,filter,groupby的时候开始调试,问题来了,map函数的断点死活进不去,顿时开始怀疑人生......后来偶然间和一个网友讨论这事儿,才得知这里的奥秘,map属于transformation,它是会延迟加载的,只有当你调用了rdd.collect才会触发map去执行,也就是上面说的那两类算子的区别。

第二个问题,我要从es里面查询每天的流量数据,然后拿到里面的每条数据根据ip分组统计该ip的访问次数,然后就噌噌写完了,当时想的是用es查询,分组统计直接spark reducebykey。写惯了java面向对象的代码,自然而然的就在循环里调了连接spark-es的context,然后reducebykey了。很显然这样功能是实现了,但是性能却会有很大影响,而且spark的函数有点类似于面向过程的思想,这么调用显然不符合思想,最终换成了es的分组聚合。

最后一个es的奇葩的问题,按照时间范围搜索的时候,明明有数据在那个范围内,死活就是搜索不出来,后来发现mapping里这个字段竟然是string类型的,好坑,然后各种删mapping,再重建。最后把那个字段的日期定义成了date,再次搜索完美解决,还需要注意一个地方,时间的查询条件最好写成毫秒值,那样的话就不会出现什么日期转化异常,省的在这上面浪费时间了。

刚接触es好多坑还需要继续踩,欢迎有用到这些技术的朋友一起探讨!

相关文章

  • spark,es之踩坑记

    这几天用spark和es写了点统计和查询,记录下这过程中踩过的一些坑。 先说说spark中的坑吧,记得之前在书上看...

  • SpringStreaming+Kafka

    摘自 :Spark踩坑记——Spark Streaming+Kafka [TOC] SpringStreaming...

  • hbase-mutator踩坑

    spark-streaming消费kafka数据,采用buffermutator写hbase踩坑记 场景 otte...

  • Spark踩坑记:初试

    Spark简介 整体认识 Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架。最初在20...

  • ES学习笔记4

    ES与其他架构配合使用 springdata、spark、flink +es springdata (不想记 懒得...

  • Spark相关学习链接(持续更新)

    Spark 向Spark1.6开炮:问题总结与踩坑: http://www.tuicool.com/article...

  • Spark读取elasticsearch数据指南

    最近要在 Spark job 中通过 Spark SQL 的方式读取 Elasticsearch 数据,踩了一些坑...

  • 大数据爬坑收录

    爬出过的坑 大数据运维过程就是一个踩坑的过程。如下分享一些踩过的坑,以供参考。 Hive Spark Flink ...

  • spark数据导入踩坑记

    最近公司有不少关于数据同步的业务需求,比如需要将mysql表同步到hive中或者同步为parquet等格式存放在H...

  • Spark 踩坑记—Spark Streaming+Kafka

    本文首先对 spark streaming 嵌入 kafka 的方式进行归纳总结,之后简单阐述 Spark str...

网友评论

      本文标题:spark,es之踩坑记

      本文链接:https://www.haomeiwen.com/subject/zorohxtx.html