VIPSHOP的全链路监控
LOGVIEW的问题
- 没有调用关系
- Nginx accesslog只能根据自身的一些metrics来判断是否出问题
MERCURY PEAK
- 100 million message / second
- 15 billion message / day
- 15T / day
- 1T index / day
我觉得我当时做LOGVIEW/TELESCOPE做的不好的地方
- 数据的采样
- 服务的治理,包括对于系统组件本身的监控,版本的管理。这个很有感触,比如手游中的sdk的升级
- 服务的降级,对于不同计算指标,和Spark计算任务(这里是否需要job之间的关系?not sure)
- 敏感信息的脱敏,比如用户的身份信息等
REMARK
- wall time / event time,wall time就是接收到这个event的事件,而event time就是event里面的时间戳
- shift_to_metric的metric name,比如response_time_osp_cart,这样做的目的,其实是为了降低tag的数目。因为OpenTSDB在tag数目很多的情况下,性能会非常的差。
小米广告平台
不是很懂具体的算法,以一些数据为主。
baseline-LR(+38%)-FTRL天级别(+47%)-FTRL小时级别(+52%)
搜索关键字广告
日收入提升20倍,发展,文本相关性 - 行为相关(协同过滤)-CTR(FTRL)
导航,千人千面以后,收入+82%
蘑菇街
计算的三要素
- 海量
- 实时
- 计算灵活性
- 满足1和2的是类似storm的流式计算
- 满足2和3的是的是MySQL
- 满足1和3的是Hive
未来方向
- 用Apache Flink,实现Google的DataFlow
- 华为开源的StreamCQL,需要看看。上次听携程的张翼也讲过
REMARKS
蘑菇街利用DSL构造的实时计算job,非常惊艳,做的很棒,有时间要仔细研究。
饿了么
一些业务数据
日均2亿,订单500w+,城市1000+,员工15000+。技术1000+。
需要关注的是关于Cassandra的应用,Cassandra不依赖于Hadoop的组件,数据对等,没有中心节点。虽然有二级索引,但每个节点只有自己本地数据的一份二级索引。可以尝试下将二级索引写入其他集群,比如ES的做法。其实这个HBase+ES的方案在唯品会时候我就提过了,貌似大家都不感冒,so sad:(
关于Kafka跨机房,和我们公司业务不同,游族有非常大量的海外业务,有跨国家,跨大洲的数据传输需求,这个国内的公司经验似乎不多。
其他
早上为了赶7点30的火车,5点就起床了,下午结束自己的分享以后,已经基本在打瞌睡状态了。下午Echo的陈健分享的,太干货了,全是音频技术方面的一些算法,让人有点懵啊。万达的呈祥分享了关于Apache Flink的实践,当时对于Apache Flink的了解不多,在选型的时候希望能用比较熟悉的工具来搞,所以还是选择了Spark。听呈祥说,Flink又能保证实时性,又能保证准确性,这点直接研究,而且Flink和CEP有着天生的集成(如果没记错的话)。
最后附上几张照片
SDCC杭州站Day1的简单记录 SDCC杭州站Day1的简单记录 SDCC杭州站Day1的简单记录
网友评论