美文网首页freebsd玩转大数据互联网科技
隐藏的数据:WhatsApp的数据秘密

隐藏的数据:WhatsApp的数据秘密

作者: 大圣众包 | 来源:发表于2016-09-29 17:39 被阅读81次

    WhatsApp作为一款社交软件,几年间从默默无闻到风靡全球,其背后隐藏的数据是如何的庞大,可想而知。今天,就跟随大圣众包威客平台(www.dashengzb.cn)的脚步,一起窥探海量数据中的其中一部分。

    一、基础统计

    月4.65亿用户;

    平均每日接收190亿消息,发送400亿消息,6亿张图片,2亿条语音,1亿段视频;

    峰值期间1.47亿的并发连接数——电话连接到系统;

    峰值期间每秒23万次登陆操作——手机上线及下线;

    峰值期间每秒32.4万信息流入,71.2万流出;

    约10个工程师致力于Erlang,他们肩负了开发与运维。

    二、节日峰值

    平安夜流出达146Gb/s,相当多的带宽用于服务手机;

    平安夜视频下载达3.6亿次;

    新年夜图片下载约20亿(46k/s);

    新年夜图片最高下载次数为3200万次。

    三、堆栈概况

    Erlang R16B01(打了自己的补丁);

    FreeBSD 9.2;

    Mnesia(数据库);

    Yaws;

    使用了SoftLayer云服务和实体服务器。

    四、硬件概况

    大约550个服务器+备份;

    150个左右的Chat服务器(每个服务器处理大约100万的手机、峰值期间1.5亿的连接);

    250个左右的多媒体信息服务器;

    2x2690v2 Ivy Bridge 10-core(总计40的超线程技术);

    数据库节点拥有512GB的内存;

    标准计算节点搭载64GB内存;

    SSD主要用于可靠性,存储资源不足时还用于存储视频;

    Dual-linkGigEx2(公共的面向用户,私有的用于后端系统);

    Erlang系统使用的核心超过1.1万个。

    五、系统概况

    独爱Erlang;

    语言非常棒,适合小工程团队;

    非常棒的SMP可扩展性,可以运行高配的主机,并且有益于减少节点,运维复杂性只与节点数有关,而不是核心数;

    扩展性就像扫雷,总可以在问题爆发之前发现并解决,世界级事件相当于做系统的压力测试;

    可以飞快地更新代码。

    六、架构概况

    手机客户端连接到MMS(多媒体);

    Chat连接到瞬态离线存储,用户之间的消息传输通过后端系统控制;

    Chat连接到数据库,比如Account、Profile、Push、Group等。

    七、多媒体数据库介绍

    内存Mnesia数据库使用大约2TB的RAM,跨16个分片存储180亿条记录;

    只存储正在发布的消息和多媒体,但是在多媒体发布时,会将信息储存在数据库中;

    当下单服务器只运行100万的并发连接。

    八、解耦

    隔离瓶颈,让之不会存在整个系统中;

    紧耦合会导致相继故障;

    正在解决问题时,保持尽可能多的吞吐量;

    异步处理以最小化吞吐量延时;

    当延时不可预知及在不同点存在时,异步可以尽可能地保证吞吐量;

    解耦可以让系统运行尽可能的快。

    九、避免HOL阻塞

    线头阻塞是首位处理会饿死队列中的其他项目;

    分离读和写队列,特别是在表格上执行事务,写入方面的延时不会影响读取队列;

    分离节点内部队列,只有当消息发送给问题节点时才会做备份,这将允许消息自由地传输,问题被隔离开来,给Mnesia打补丁以保证async_dirty级响应时间,App发送消息后就会被解耦,因此当一个节点发生故障时,不会导致负载问题;

    在不确定延时场景下使用FIFO模型。

    十、Meta Custering

    需要一种方法来控制单集群体积,并允许它跨很长距离;

    建立wandist,基于gen_tcp的分布式传输,由许多需要相互通信的节点组成;

    1个基于pg2的透明路由层,建立一个单跳路由调度系统。

    十一、分割服务

    在2到32间进行分割,大部分服务都被分割成32个;

    pg2addressing,分布式进程组,用于集群上的分片寻址;

    节点进行主从设置,用于容灾;

    限制访问单ets或者Mnesia进程的数量到8,这会让锁争用处于控制当中。

    十二、优化系统

    每条消息都被用户快速地读取,60秒内完成50%;

    添加一个回写缓存,这样消息就可以在写入文件系统之前被交付,缓存命中率达98%;

    如果IO系统因为负载而阻塞,缓存会对消息交付起到额外的缓冲作用,直到IO系统恢复;

    给BEAM(Erlang VM打补丁)以实现异步文件IO来避免线头阻塞问题,在所有异步工作线程上轮训文件系统端口请求,在大型mailbox和缓慢磁盘的情况下可以缓解写入;

    使用大量的fragments降低Mnesia表格的访问速度;

    账户表格被分割成512份打入“island”,意味着用户和这512个分片间存在一个稀疏映射,大部分的fragments都是空的和空闲的;

    哈希模式会导致建立大量的空bucket,有些甚至会非常长,而双线的变化解决了这个问题,并将性能从4提升到1。

    十三、补丁略展

    mnesia_tm是个非常大的选择循环,因此虽然负载未满,也可能会造成事务的积压,打补丁以收取事务流并且保存以作稍后处理;

    添加多个mnesia_tmasync_dirty发送者;

    存在许多的跨集群操作,因此Mnesia最好从附近的节点加载;

    给异步文件IO加入循环调度;

    使用ets哈希开防止w/phash2的同时发生;

    优化ets main/name table来应对规模;

    不要队列mnesia dump,因为队列中存在太多的dumps时,schema ops将不可行。

    日600亿消息,月4.65亿用户,WhatsApp是怎样做到的?答案尽在Erlang。Erlang是一种可以应对大规模并发活动的编程语言和运行环境。在大数据产业日益繁盛的今天,它的地位将越来越重要。

    原文地址:http://www.dashengzb.cn/articles/a-234.html

    (更多大数据与商业智能领域干货、或电子书,可添加大圣花花个人微信号(dashenghuaer))

    相关文章

      网友评论

        本文标题:隐藏的数据:WhatsApp的数据秘密

        本文链接:https://www.haomeiwen.com/subject/olqlyttx.html