hadoop第七天

作者: d1450eb71426 | 来源:发表于2016-04-20 21:53 被阅读37次

1.公司用的最多的就是hive的udf
2hive和数据库的区别：关系数据库可以实时增删改查， hive是数据仓库，一写多读，可以保存大量数据，可以分析计算，不能实时修改，要先下载，修改，上传，不能删除，只能删除文件
hive数据挖掘工具，一种sql解析引擎，可以把sql语句转化成MR在job上运行
业务通过hive解决，不求就自定义udf，最后考虑mapreduce
hive里面的表对应hdfs里面的文件夹，hive表里面的数据对应hdfs里面的文件
hive的用户接口常用shell命令行，jdbc/odbc问题多，过场多，打开连接，连接，关闭连接，对并发和连接支持不好，淘宝都用shell
hive的状态下运行hdfs的命令
（遇到的困难，hive执行不了）修改源码
公司中sqoop和hive用的多
spark是内存计算，数据量大吃不消，hive的地位高
hive的udf，就是自定义函数
存储过程和函数的区别？存储过程有输入有输出，但是函数有返回值，存储过程没有
系统位数，jdk的版本，都会导致错误
负载均衡服务器（f5）只负责消息转发，不处理逻辑
自动化采集框架flume 1.5.0
数据采集基于多agent
flex视图工具
5：历史数据至少200G，每天2-3G，集群20台左右，200G一般业务MR跑半个小时，pv，uv指标，cookie唯一标识

网友评论

Hadoop系

本文标题：hadoop第七天

本文链接：https://www.haomeiwen.com/subject/inwblttx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

hadoop第七天

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

Hadoop系