1.公司用的最多的就是hive的udf
2hive和数据库的区别:关系数据库可以实时增删改查, hive是数据仓库,一写多读, 可以保存大量数据,可以分析计算,不能实时修改,要先下载,修改,上传,不能删除,只能删除文件
hive数据挖掘工具,一种sql解析引擎,可以把sql语句转化成MR在job上运行
业务通过hive解决,不求就自定义udf,最后考虑mapreduce
hive里面的表对应hdfs里面的文件夹,hive表里面的数据对应hdfs里面的文件
hive的用户接口常用shell命令行,jdbc/odbc问题多,过场多,打开连接,连接,关闭连接,对并发和连接支持不好,淘宝都用shell
hive的状态下运行hdfs的命令
(遇到的困难,hive执行不了)修改源码
公司中sqoop和hive用的多
spark是内存计算,数据量大吃不消,hive的地位高
hive的udf,就是自定义函数
存储过程和函数的区别?存储过程有输入有输出,但是函数有返回值,存储过程没有
系统位数,jdk的版本,都会导致错误
负载均衡服务器(f5)只负责消息转发,不处理逻辑
自动化采集框架flume 1.5.0
数据采集基于多agent
flex视图工具
5:历史数据至少200G,每天2-3G,集群20台左右,200G一般业务MR跑半个小时,pv,uv指标,cookie唯一标识
网友评论