hadoop第七天

作者: d1450eb71426 | 来源:发表于2016-04-20 21:53 被阅读37次

    1.公司用的最多的就是hive的udf
    2hive和数据库的区别:关系数据库可以实时增删改查, hive是数据仓库,一写多读, 可以保存大量数据,可以分析计算,不能实时修改,要先下载,修改,上传,不能删除,只能删除文件
    hive数据挖掘工具,一种sql解析引擎,可以把sql语句转化成MR在job上运行
    业务通过hive解决,不求就自定义udf,最后考虑mapreduce
    hive里面的表对应hdfs里面的文件夹,hive表里面的数据对应hdfs里面的文件
    hive的用户接口常用shell命令行,jdbc/odbc问题多,过场多,打开连接,连接,关闭连接,对并发和连接支持不好,淘宝都用shell
    hive的状态下运行hdfs的命令
    (遇到的困难,hive执行不了)修改源码
    公司中sqoop和hive用的多
    spark是内存计算,数据量大吃不消,hive的地位高
    hive的udf,就是自定义函数
    存储过程和函数的区别?存储过程有输入有输出,但是函数有返回值,存储过程没有
    系统位数,jdk的版本,都会导致错误
    负载均衡服务器(f5)只负责消息转发,不处理逻辑
    自动化采集框架flume 1.5.0
    数据采集基于多agent
    flex视图工具
    5:历史数据至少200G,每天2-3G,集群20台左右,200G一般业务MR跑半个小时,pv,uv指标,cookie唯一标识

    相关文章

      网友评论

        本文标题:hadoop第七天

        本文链接:https://www.haomeiwen.com/subject/inwblttx.html