2017-3-20
over/row_number分组用法,
一套数据,多种引擎(impala/Hive/kylin) - 大数据和云计算技术 (欢迎关注同名微信公众号) - ITeye技术网站
http://jiezhu2007.iteye.com/blog/2153589
SQL on hadoop目前最成熟的应该是Hive,发展早,使用多。Hive是目前互联网企业中处理大数据、构建数据仓库最常用的解决方案,甚至在很多公司部署了Hadoop集群不是为了跑原生MapReduce程序,而全用来跑Hive SQL的查询任务。目前Hive的主要缺点:1,data shuffle时网络瓶颈,Reduce要等Map结束才能开始,不能高效利用网络带宽2,一般一个SQL都会解析成多个MR job,Hadoop每次Job输出都直接写HDFS,性能差3,每次执行Job都要启动Task,花费很多时间,无法做到实时4,由于把SQL转化成MapReduce job时,map,shuffle和reduce所负责执行的SQL功能不同。那么就有Map->MapReduce或者MapReduce->Reduce这样的需求。这样可以降低写HDFS的次数,从而提高性能。很明显,由于架构上的天然涉及,Hive只适合批处理。
hive_图文_百度文库
http://wenku.baidu.com/view/8d36fb26804d2b160b4ec09d.html?from=search



网友评论