1.任何数据删除都要默认进入回收站,切记不要贪一时之快直接删除跳过回收站。
2.所有配置里的秘钥都需进行加密存储,时刻关注整个系统的安全。
3.轻量级非数据服务要有机房间切换的能力,加快恢复速度。
4.大规模和小规模场景不是量的变化,是质的差异。
5.实时计算链路长,延时敏感,要有各阶段的详细监控指标来反映问题,方便问题定位。
6.提供客户自助排查作业和重启等基础运维能力。
7.出问题的第一时间需要通知客户,否则客户的各种询问会让你痛不欲生!!!
8.存储瓶颈除了容量,文件数也是个大问题。
9.大规模计算平台至少要能容忍单机故障,存在单点故障的系统切记不能上线!!!
10.离在线混合部署是一个节约的好思路。
11.hdd&sdd混合存储提升shuffle性能。
12.规模大、压力大、要时刻关注硬件和网络发展,尽快拿到尽可能多的科技红利!
网友评论