优先级:功能--》可读性--》维护-->扩展 --》性能
用设计优化 代替 代码复杂度,降低 维护
可读性:
1.编码规范;
2.日志规范
维护:
1.多级配置:(xml,json)xml 可读性;json解析方便;xml统一解析接口;json多模块、对外传递信息
2.多级日志:logging;log4j
3.多级测试:单元测试;集成测试;回归测试
4.用python封装所有hive hadooop streaming hbase细节
5.多态、封装、java:用设计解决竞态条件,多线程隔离
6.hadoop hbase 与业务隔离
7.技术选型:java hadoop < python +hadoop streaming < hive (map结构;udf 都解耦;性能优化);
扩展:
1.平行扩展;模块解耦
2.结构统一:doc /query 结构化;
3.section 平行扩展
4.特征平行扩展
5.hive join 管理sectiion与特征
性能:
1.全流程考虑,衡量性能
2.只在瓶颈优化性能
监控:
1.多粒度监控
2.可视化
3.报警
语言选型:
shell 管调度
python管输入,输出,配置;
python +java 计算;
分布式用 hadoop streaming /hive(xml json schema)/hbase
使用python隔离、封装hadop stareaing, hive,hbase,配置接口
网友评论