1、900w Node count
- zookeeper-3.4.6
- 24u,32g,SSD
- Xmx=Xms=8g
在 Node count 到达 900w 之后(node 存储的数据因业务而异),会出现一些异常:Old Gen 居高不下,内存无法有效回收,经常触发 Old GC 或者 YGC 时晋升失败,进而导致集群状态异常,表现为请求超时,包括 echo stat | nc 127.0.0.1 2181。
调整 Xmx=Xms=16g,后情况有所改善,只是减少了 GC 次数而已,但是依旧会因为 GC STW 时间长导致出现同样情况;随着 Node count 上升到 1400w,恢复同样恶劣。
临时解决方法:清掉无用 node 数据,重启 zk。
解决思路:
1、扩容节点没用,因为每个节点的数据都是这么多的
2、扩容 Xmx 只能临时解决燃眉之急
3、用法不当,node count 数量如此之巨,显然把 zk 当 db 或者 cache 使用了,如果不想改动架构,需要用完就删
网友评论