美文网首页
FPGrowth算法实践问题总结

FPGrowth算法实践问题总结

作者: Anan_楠 | 来源:发表于2019-02-28 11:22 被阅读0次

前言

前段时间开始接触大数据相关分布式框架,对Hadoop和Spark的运行机制有了初步了解。在此基础上,我进行了一次关于FPGrowth关联规则算法的简单实践,此文章是对实践过程中所遇问题的总结归纳。
另:GitHub实践项目地址:https://github.com/NAMZseng/Spark_FPGrowth


Q1

Spark 2.x版本无1.x版本中的lib文件夹

从 2.x版本开始,原有的lib目录下的整个大jar包(lib/spark-assembly-*jar)已经分散到各个小的jar包从,放置在jars/目录下。

Q2

每次提交spark任务到yarn的时,出现 Neither spark.yarn.jars nor spark.yarn.archive is set

  • Reason:
    因为没有设置spark.yarn.jars,所以每次提交任务到yarn,yarn都会把$SPARK_HOME/jars打包成zip文件上传到hdfs对应的用户目录,这样对任务的顺利执行没有太大影响,但因为每次都需要上传,所以会降低任务执行的效率。
  • Solution:
    将spark.yarn.jars上传到hdfs中,并指定其为公共依赖包
    • hdfs dfs -mkdir /root/spark_jars
    • hdfs dfs -put $SPARK_HOME/jars/*  /root/spark_jars/
    • 在spark-default.conf中添加 spark.yarn.jars hdfs:///root/spark_jars/*

Q3

spark-submit 提交任务时,出现NoClassDefFoundError

Q4

提交任务时,出现beyond the 'VIRTUAL' memory limit. 2.2 GB of 2.1 GB virtual memory used

  • Reason:
    为YARN的虚拟内存计算方式导致。若用户程序申请的内存为1GB,YARN根据此值乘以一个比例(默认为2.1)得出申请的虚拟内存的值2.1GB,当YARN计算的用户程序所需虚拟内存值大于计算出来的值时,就会报出以上错误。
  • solution1:在yarn.site.xml修改yarn.nodemanager.vmem-pmem-ratio值(默认为2.1)
  • solution2: 将yarn.nodemanager.vmem-check-enabled的值改为false,即不检查VM的值

Q5

提交任务时,出现Remote RPC client disassociated. Likely due to containers exceeding thresholds, or network issues. Check driver logs for WARN messages

  • minSupport或minConfidence设置太大,spark运行时内存不足。
  • 应根据数据选取合适置信参数

相关文章

  • FPGrowth算法实践问题总结

    前言 前段时间开始接触大数据相关分布式框架,对Hadoop和Spark的运行机制有了初步了解。在此基础上,我进行了...

  • FPGrowth算法

    重点看如何构造条件fp树FPGrowth算法

  • FpGrowth算法

    FpGrowth算法通过构造一个树结构来压缩数据记录,使得挖掘频繁项集只需要扫描两次数据记录,而且该算法不需要生成...

  • FPGrowth 算法使用详解

    当初要研究关联规则挖掘算法,就是为了解决 商城购物车页 采用协同过滤效果一般的问题,既然对 FPGrowth算法原...

  • 面试常问的排序算法

    排序算法总结 排序是算法问题中的经典问题。为什么要总结排序算法呢?你懂的 : (假设所有的排序都是要求最终结果为:...

  • 机器学习_感知机

    近期,打算重温机器学习算法,之前看过之后就忘了,没有达到真正的消化,这次以思考总结和代码实践为主,发现一些不懂问题...

  • 算法与数据结构(十) 总结

    课程总结 过程: 线性问题: 树形问题: 图论问题: 更多算法问题 算法设计相关: 贪心:从最小到最大,或从最大到...

  • 数据挖掘中的关联关系+Apriori算法+FPGrowth算法

    推荐系统中常用的几种算法: 基于内容的推荐(静态):内容特征表示,特征学习,推荐列表 基于协同过滤的推...

  • 回溯算法总结

    回溯法学习总结 回溯算法也是算法导论中常用的算法,回溯算法类似于暴力求解算法,经常用在求可能解的问题。下面我将从三...

  • 打造人生算法

    好奇感知、灰度认知、黑白决策、疯子行动 这是得到专栏作者老喻在《人生算法》中总结的算法。 算法就是解决特定问题求解...

网友评论

      本文标题:FPGrowth算法实践问题总结

      本文链接:https://www.haomeiwen.com/subject/zxacuqtx.html