最近很多人吐槽啊,这问题一两句话还真说不清楚。
先说说学校计费系统的发展过程吧,从校园网开始收费,最早用的是亿邮的计费系统,但到了 2008 年的时候,由于该系统自身设计的限制,每天晚上上线人数多的时候就崩溃,几乎天天崩溃。没有办法了,只好升级,在测试了城市热点和深澜两家厂商的产品后,选择了深澜的产品。也就是刚刚被换掉的俗称的“气死人 3000”。当时升级之后,网络的稳定情况得到了很大改善,当然今天上论坛的大多数人都是感受不到的。
(那时我还在学院,只是用户,骂网络中心的主力啊,你们骂的这点,算什么啊。后来一不小心跟着领导上了网络中心的贼船,总不好自己骂自己吧,也就很少说话了。)
在当时,学校的出口是几百兆,在线人数也顶多是万人的级别,“气死人 3000”也还能支撑。可用了几年后,开始出现各种各样的问题。譬如前一两年网总是动不动崩了,怎么都登录不进去,每次恢复都要折腾很长时间,我印象深刻的 2014 年底也免费过很长一段时间。所以大家吐槽是正常的,作为实际的系统运维和管理者,我们也很想吐槽。要是有个稳定的系统,我们能上班喝喝茶,下班陪陪娃,多爽啊!用得着苦逼的整天盯着这个破网吗?
问题的产生源于两个方面,一方面是网络的使用量不断增加,另一方面是“气死人 3000”作为十年前设计的产品,在系统架构、系统安全、产品功能的层面存在很多很多问题。
由于学校建设了无线网,使用的内网 IP 地址范围一下子扩大,导致该系统内部哈希表实现上的 bug 被暴露出来,后果就是你在某个随机的 IP 上可能永远也登录不进去,除非换 IP 或者系统重启,哈希表重建,可重启系统所有人都要掉线啊。
而系统安全方面的问题就更严重了,实际上很多次断网都是因为某些学生找到系统漏洞后把它给搞坏了(说真的咱们学校的学生很强大,很多漏洞都是我们报给厂商的)。2014 年底那一次,在厂商没有办法彻底解决安全漏洞之前,我们只好通过重新部署系统,在各个组件之间加严格的访问控制,来减小系统漏洞对稳定性的影响。又把老搞我们的人揪来谈话。做完之后,相对而言好了很多,但实际上一年之内系统还会莫名重启一两次。再者那个倒霉的自服务,总是连不上去吧,我们分析是有学生自己写客户端做查询,刷新频率太高,而那个自服务的运行机制根本支撑不了那么高的刷新率,所以总被刷死,可我也拦不住学生自己做客户端啊。
再者,随着移动互联网的发展,大家都有一堆手机啊、平板啊什么的,都想连无线网,那就必须要放开多设备登录,可“气死人 3000”不能很好的处理多设备连线后流量变化的问题,你有 10G,每个设备连线后都可以用 10G,最后你就用了 20G,钱就变负的了,到时候依然要吵架。所以一直不敢把多设备登录数量提高,一直是两个。可这又连带造成无线网认证出问题,因为你拿着移动设备到处跑,前面登上去了,中间断了,后面再登不行了,因为前面那个 IP 还没自动下线。于是无线网又接着被各种吐槽。当然无线网漫游还有很多别的技术问题要解决,升级计费系统只是解决这个问题的第一步。
这么多问题在,而且都是因为系统自身设计缺陷导致的根本没有办法解决的问题,怎么办呢?厂商的办法自然是开发新版,从根本上去解决各种在上一代产品无法解决的问题。而厂商的新版做完了,自然就要放弃对上一代产品的支持,你可以继续用,出了问题我不管了,因为管不了,想解决就升级!这么做对吗?站在软件工程的专业角度看,绝对是对的,软件是有生命周期的,当它的生命周期走到尽头,就需要用新的软件代替。
于是只能升级,必须升级,就算挨骂也得升级。这事情今天我们可以耗着不做,但过一年、过两年也肯定要做。
“气死人 4000” 其实去年六月就已经在别的高校陆续上线,我们为什么又用老系统扛了一年呢,因为我们不想做小白鼠,我们做小白鼠,就意味着升级后各种奇葩问题层出不穷,到时候倒霉的还是网络用户,所以就等了好久。
从去年十一月,我们开始跟厂商计划升级的事情,为了升级,需要做哪些事情呢?
- 新版本的各种功能测试、数据迁移测试
- 新版本和学校的好几套无线网AC控制器的认证对接测试
- 缴费对接,包括 第三方支付缴费、现金缴费、经费卡缴费、一卡通缴费等
- 开户功能对接
- 微信企业号对接
- 短信网关对接、页面定制等各种乱七八糟的小事儿
基本都要靠我们自己完成,相当一部分需要厂商提供接口,可厂商接口没有开发完,于是我们还是成了小白鼠,各种吵架,已经把厂商的研发骂的快要被辞掉了。
从四月初开始,我们开始逐步完成各个方面的外围功能,部署了新版系统,并且在四月二十号下线旧系统,做数据迁移。后来经过各种折腾,终于把新版系统接入了,开始进行在线测试。一直测试到昨天晚上。测试过程中发现新版系统还是有不少小毛病,但只能如此了,箭在弦上不得不发。
昨天晚上十二点开始结算,结算后陆续有用户缴费、上线,盯到一点多觉得应该没啥问题了,就睡了。但今天早上刚出门就有人说出了问题,到校一看这问题根本不是我们自己能解决的。问题的原因解释起来比较复杂,总之出现在厂商前几天临时换的一个核心程序上,换那个程序的原因是为了解决安卓新版系统无线网 1X 认证兼容性,但引入了今天早上我们碰到的 bug。最后终于找到了,大家都很庆幸,中午的时候开始正常了。
等熬完了这个星期,估计升级带来的连带影响就会慢慢消除了。
还是那句话,升级是希望校园网更稳定。但修路就难免占道,就肯定会影响交通,我们也希望把影响降到最低,我们也希望每一步操作之后都得到正确的结果,但搞软件的都知道,不可能。所以,影响了大家正常的工作、学习、生活,也只能说抱歉了。
以后校园网会更稳定吗,我觉得会,但这话没法正式场合公开说啊,说了就打脸,啪啪的。
网友评论