美文网首页
群内2018_6月讨论整理

群内2018_6月讨论整理

作者: 喵_十八 | 来源:发表于2018-07-03 00:15 被阅读0次

    归档至github

    说明

    以下内容来自群中出现的问题,大家讨论的结果
    Q群:432600958
    微信群:加微信w3aboutyun,附上about云铁粉
    部分内容整理时,已经注明出处,但很多内容,较为零碎,也无暇整理,如有不妥,请联系我,谢谢。

    两个集群间迁徙hive数据有什么方案 --by 阿黄生

    时间

    2018.06.01

    内容

    Step1
    迁移hdfs数据至新集群,通过distcp实现

    Step2
    源集群metastore数据备份导出(mysql导出)

    Step3
    新的集群导入metastore数据(mysql导入)

    Step4
    升级hive内容库(如果hive版本需要升级操作,同版本不需要操作)

    Step5
    修改 metastore 内容库的集群信息(重要)

    REF

    Distcp
    hadoop跨集群之间迁移hive数据

    Scala优雅的实现

    时间

    2018.06.01

    问题

    存在一个Array[String] 例如 Array("A","B","C","D",....."Z")
    现在希望替换B为 b1,b2,b3,b4,b5,然后转为String
    即生成如下结果

    Ab1CDEF...Z
    Ab2CDEF...Z
    Ab3CDEF...Z
    Ab4CDEF...Z
    Ab5CDEF...Z

    怎么能写的优雅点?

    思路

    生成一个可变的Array,替换array(2) 然后mkString

    创建SparkContext 两种写法

    时间

    2018.06.05

    内容

    第一种写法

    val sc = new SparkContext(sparkConf)
    

    第二种写法

    val sc = SparkContext,getOrCreate(conf)
    

    两者的区别在于,第一种写法是根据SparkConf 新建一个sparkContext,这里注意一旦设置完成SparkConf,就不可被使用者修改。
    第二种写法,是先使用现用的SparkContext,没有再创建一个。主要用于多applications共享SparkContext。
    api解释:

    This function may be used to get or instantiate a SparkContext and register it as a singleton object. Because we can only have one active SparkContext per JVM, this is useful when applications may wish to share a SparkContext.
    This method allows not passing a SparkConf (useful if just retrieving).
    Note: This function cannot be used to create multiple SparkContext instances even if multiple contexts are allowed.

    在实际应用中,如果没有多applications 共享sparkContext的业务需求,两者无差别。(不过getOrCreate这种写法看着好像厉害点)

    编写应用的jar包 和 spark自带的jar包冲突

    时间

    2018.06.10

    内容

    问题描述

    使用jpmml 报错如下:

    java.lang.NoSuchMethodError: org.jpmml.model.JAXBUtil.createFilteredSource(Lorg/xml/sax/InputSource;[Lorg/xml/sax/XMLFilter;)Ljavax/xml/transform/sax/SAXSource;
            at org.jpmml.model.filters.ImportFilter.apply(ImportFilter.java:94)
            at org.jpmml.model.PMMLUtil.unmarshal(PMMLUtil.java:33)
    

    查看jar包,能够发现有这个类。

    查看依赖是否有冲突
    mvn -Dverbose dependency:tree --> tree.txt

    [INFO] +- org.jpmml:pmml-evaluator:jar:1.4.1:compile
    [INFO] |  +- (org.jpmml:pmml-model:jar:1.4.1:compile - omitted for conflict with 1.2.15)
    [INFO] |  +- com.google.guava:guava:jar:24.0-jre:compile
    

    可以发现,使用jpmml时,使用的pmml的版本为1.4.1

    <dependency>
        <groupId>org.jpmml</groupId>
        <artifactId>pmml-evaluator</artifactId>
        <version>1.4.1</version>
    </dependency>
    

    但是spark mllib 中自带的jpmml的版本为1.2.15,直接使用的时候,会因为jar包依赖冲突报错

    解决方案

    具体思路是使用shade。

    Step1
    新建一个空的项目,将jpmml以及它的相关依赖包以shade的打包成一个独立的jar包,对应jpmml相关类的使用均从此jar包引用。

    <dependencies>
        <dependency>
            <groupId>org.jpmml</groupId>
            <artifactId>pmml-evaluator</artifactId>
            <version>1.4.1</version>
        </dependency>
        <dependency>
            <groupId>org.jpmml</groupId>
            <artifactId>pmml-evaluator-extension</artifactId>
            <version>1.4.1</version>
        </dependency>
    </dependencies>
    
    
    <build>
        <plugins>
            <plugin>
                <groupId>org.apache.maven.plugins</groupId>
                <artifactId>maven-shade-plugin</artifactId>
                <version>2.4.2</version>
                <configuration>
                    <createDependencyReducedPom>false</createDependencyReducedPom>
                </configuration>
                <executions>
                    <execution>
                        <phase>package</phase>
                        <goals>
                            <goal>shade</goal>
                        </goals>
                        <configuration>
                            <relocations>
                                <relocation>
                                    <pattern>org.jpmml</pattern>
                                    <shadedPattern>my.pmml.jpmml</shadedPattern>
                                </relocation>
                                <relocation>
                                    <pattern>org.dmg</pattern>
                                    <shadedPattern>my.pmml.dmg</shadedPattern>
                                </relocation>
    
                            </relocations>
                        </configuration>
                    </execution>
                </executions>
            </plugin>
        </plugins>
    </build>
    
    • 将org.jpmml映射为my.pmml.jpmml
    • 将org.dmg映射为my.pmml.dmg
      然后利用mvn clean install命令进行打包得到jpmml-base-1.0-SNAPSHOT.jar,创建一个属于你自己版本的jpmml包。之后将该包上传到私服maven镜像。

    Step2
    在工程中使用自己的jpmml包
    原始的maven 依赖

    <dependency>
        <groupId>org.jpmml</groupId>
        <artifactId>pmml-evaluator</artifactId>
        <version>1.4.1</version>
    </dependency>
    

    新的maven 依赖

    <dependency>
        <groupId>my.pmml.jpmml</groupId>
        <artifactId>pmml-evaluator</artifactId>
        <version>1.0-SNAPSHOT</version>
    </dependency>
    

    原来的import

    import org.dmg.pmml.FieldName;
    import org.dmg.pmml.PMML;
    import org.jpmml.evaluator.ModelEvaluator;
    import org.jpmml.evaluator.ModelEvaluatorFactory;
    import org.jpmml.model.PMMLUtil;
    

    新的import

    import my.pmml.dmg.pmml.FieldName;
    import my.pmml.dmg.pmml.PMML;
    import my.pmml.jpmml.evaluator.*;
    import my.pmml.jpmml.model.PMMLUtil;
    

    Ref

    jpmml
    用dependency:tree查看maven引入jar包的传递依赖
    java 依赖包冲突,使用maven的Shade方式解决

    关于图计算

    时间

    2018.06.26

    内容

    • spark graphx实现的算法都比较简单,复杂的一般都得自己再写
    • 如果,数据量不大,java之类的都有一些开源的图计算jar包,能够支持
    • 我们对关系计算,引入了neo4j数据库,大数据量就在库中查询实现,小数据量引用开源图算法包

    一个奇怪的问题: A master URL must be set in your configuration

    时间

    2018.06.28

    内容

      val sparkConf = new SparkConf().setAppName("XXXX")
      val sc = new SparkContext(sparkConf)
    

    这个放在main方法外面就会报异常。非常诡异。

    REF

    异常解决:A master URL must be set in your configuration

    资料分享

    Spark Summits介绍及如何下载相关视频资料

    链接 密码:kuxh

    相关文章

      网友评论

          本文标题:群内2018_6月讨论整理

          本文链接:https://www.haomeiwen.com/subject/lqwruftx.html