问题
在初用spark streaming 1.5.2 自带的low level 连接kafka例子(JavaDirectKafkaWordCount)时,出现如下错误:
java.lang.NoSuchMethodError: net.jpountz.util.Utils.checkRange([BII)V
at org.apache.kafka.common.message.KafkaLZ4BlockInputStream.read(KafkaLZ4BlockInputStream.java:176)
根据网上的解答,这是因为kafka用了1.2版本lz4, 但是程序运行时使用了1.3版的lz4。 由于两个版本中的checkRange方法差异大,1.3版的Utils类没有checkRange方法了,所以报NoSuchMethodError。参见这里。
修改lz4版本
查看项目依赖了哪个版本的lz4: mvn dependency:tree
发现程序用了spark-core中的net.jpountz.lz4, 是1.3版的,而不是kafka对应的1.2版,所以出错。
于是我将net.jpountz.lz4 从spark-core中去除:
重新查看lz4的依赖关系:mvn dependency:tree
上图可以看出已经使用了1.2版的lz4。
问题依旧
修改版本号后重新在yarn中运行,发现还是报“java.lang.NoSuchMethodError: net.jpountz.util.Utils.checkRange([BII)V” 这个错。
这说明程序还是用的1.3版lz4, 这是什么原因呢?
问题解决 spark.yarn.user.classpath.first=true
我从这篇博客得到启发,很可能1.2版的lz4被yarn自带hadoop jar包中的1.3版lz4覆盖了。于是我参照那篇博客,在spark-submit 命令中设置spark.yarn.user.classpath.first=true :
--conf spark.yarn.user.classpath.first=true \
--jars /your path/spark-streaming-kafka_2.10-1.5.2.jar \
这样设置后yarn中优先使用用户传上去的jar包,保证了lz1.2不被覆盖。yarn中的environment UI可以看到优先使用了spark-streaming-kafka_2.10-1.5.2.jar:
结论
解决本问题的需要两步:
1.在pom.xml中尽量去除1.3版的lz4, 可以使用maven的<exclusion>去除。
2.在yarn上运行是设置“spark.yarn.user.classpath.first=true”参数,保证1.2版的lz4优先被使用, 不被hadoop相关jar包中的lz4覆盖。
网友评论