程序员最重要的两个东西

作者: winwill2012 | 来源:发表于2015-11-13 15:06 被阅读486次

程序员最重要的两个东西
做一名程序猿是一种怎样的体验？
数据工程师妹子养成手记——数据库篇
第一节：我们不画三角形！
人生两个最值得追求的东西
重要的东西
重要的东西
重要的东西
重要的东西
重要的东西

开篇

先来讲一个故事，最近在改造项目中日志处理服务，使用了公司内部公共的一些组件与服务。好不容易改造完成了，前几天开始灰度上线，上线观察了一天，从监控平台上可以看到，每次流量高峰期（一般早中晚各一次）就会出现大量的thrift反序列化失败的问题。出现问题怎么办呢？解决呗，就这样，故事开始了...

数据流图

先来介绍整个服务的数据流示意图，如下：

每台服务器都会部署一个scribe-agent，用于将本机产生的日志发送到远端的scribe-server；
scribe-server将收集的日志分别打印到HDFS和kafka。

然后我这边有一个服务去消费kafka的数据，做一些数据分析。

发现问题

服务跑了一天多，我从公司内部的监控平台上发现，我的服务（消费kafka的服务）在每一个日志高峰期都会出现大量的thrift结构反序列化失败的异常。

解决问题

发现问题之后我有几个可以怀疑的地方：

打印日志的服务和消费日志的服务使用的thrift版本不一致，导致序列化失败（我的问题）；
日志序列化或者反序列化的时候有多线程安全问题，导致数据被打乱(我的问题)；
由于消费kafka过程中使用了disruptor框架做异步处理，怀疑disruptor有bug；
日志在传输过程中被篡改（不是我的问题）；

其中第三点可以细分为以下几个可能：

scribe-agent写日志到scribe-server有bug（scribe-agent是其他team同事负责的）
scribe-server将日志写到kafka有bug（其他team同事负责的）

一般来说，排查问题都应该从自身问题找起，所以首先来证明自己的清白：

通过MD5检查写日志的服务和分析日志的服务使用的thrift是同一个版本；
google了一下，我使用的序列化和反序列化应该没问题，并且我们主业务也是使用相同的方法；
将disruptor的ringBuffer大小设置为0，变异步成同步；

做了上述修改与实验之后，还是没有解决问题，所以可以断定问题出在第四步：日志在传输过程中被篡改。

于是发邮件咨询相关的同事，得到的回答都是没有问题的，很多业务都使用我们的服务，从来没出现过问题，你再找找原因吧。，没办法啊，气场不够，只能说声谢谢，然后继续自己摸索。

三天时间过去了，还是没能找到自己的原因，我真是快要奔溃了，于是在leader的陪同下亲自去找之前邮件沟通过的同事，大概聊了20分钟，最后对方突然说：流量高峰期的时候，我们会将日志写到本地文件，随后再次读取的时候可能真的会有问题，巴拉巴拉一堆，说我们看看吧，一会儿给你们回邮件。

回来等了几分钟，收到邮件了：这个确实是我们的一个bug，你们流量太大了，之前都没有遇到过，我们会尽快修复，到时候通知你们。

总结

程序员天生自信，当受到质疑时，第一反应就是："我的程序肯定没问题"；
程序员最最重要的两个东西：技术，名气，如果没有技术和名气，别人根本不把你当回事，遇到问题时都会认为是你自己的问题，所以，努力提升自己技术和影响力吧！

声明

本文首发于个人技术博客，转载请注明出处，本文链接：http://qifuguang.me/2015/11/13/%E7%A8%8B%E5%BA%8F%E5%91%98%E6%9C%80%E9%87%8D%E8%A6%81%E7%9A%84%E4%B8%A4%E4%B8%AA%E4%B8%9C%E8%A5%BF/
如果你喜欢我的文章，请关注我的微信订阅号：“机智的程序猿”，更多精彩，尽在其中：

网友评论

本文标题：程序员最重要的两个东西

本文链接：https://www.haomeiwen.com/subject/gqxkhttx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

程序员最重要的两个东西

开篇

数据流图

发现问题

解决问题

总结

声明

相关文章

程序员最重要的两个东西

做一名程序猿是一种怎样的体验？

数据工程师妹子养成手记——数据库篇

第一节：我们不画三角形！

人生两个最值得追求的东西

重要的东西

重要的东西

重要的东西

重要的东西

重要的东西

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

互联网科技

程序员

产品大学

技术