这道面试题是开放的。熟悉的情境,很容易给出一个回答。但随着被面试者思维方式、知识领域及深度的不同,回答可能大相径庭。
在接着往下阅读时,你可以先想想自己的答案。
00.jpg没理解题目的回答:
- 和新闻联播对时,“滴”的一声时,看我的电脑时钟是多少;
- 我的电脑时钟和网络是同步的,很准的;
还算正常的回答:
- 打开两台电脑的时钟,把两台电脑的显示器放一起,拍张照,对比读数;
- 在两台电脑上都设置10点钟的闹钟,看会不会同时响;
电子工程师的回答:
- 你是问CPU的时钟吗?给我一台10G采样率双通道的示波器就能看出来了;
- 是系统时间?让两台电脑在收到同一个脉冲信号时,分别报告自己的时间;
网络工程师的回答:
- 给两台电脑发一个广播,让它们在收到广播后立刻报告自己的时间;
- 用了NTP吗?查看ntpq -p的offset;
……
你可能有更精彩的回答……
本实验室将采用可操作的、尽可能精确的实验作为回答。
实验方案
题目并没有说两台电脑是和时间服务器同步的,所以目的只是测量两台电脑之间的系统时间是否一致。
用date命令(高精度选项)直接看一下两台主机的系统时间。本地的;远程的;本地的;远程的:
user@host1:~$ date -Ins && ssh host2 date -Ins && date -Ins && ssh host2 date -Ins
2017-05-30T10:43:48,185599225+0800
2017-05-30T10:43:48,274676190+0800
2017-05-30T10:43:48,260682724+0800
2017-05-30T10:43:48,350594728+0800
显然,host2的时间读数更大一些。但这究竟是host2的时钟快了,还是ssh调用所花的时间导致的呢?现在还不好说。
假设这个时间差异是T1:
T1 = Diff + RTT12
其中,Diff 是两台电脑真实的时间差异,RTT12是host1到host2数据往返所花的时间(严格来说是ssh调用所花的时间)。
反方向做同样的测试:
user@host2:~$ date -Ins && ssh host1 date -Ins && date -Ins && ssh host1 date -Ins
2017-05-30T10:43:51,223937548+0800
2017-05-30T10:43:51,280363886+0800
2017-05-30T10:43:51,296071347+0800
2017-05-30T10:43:51,351845065+0800
host1与host2的时间差异设为T2,则:
T2 = -Diff + RTT21
简单地认为两个方向的往返时间是相等的,于是有:
Diff = (T1 – T2)/2
RTT = (T1 + T2)/2
估算一下:
- T1: 89076965, 89912004
- T2: 56426338, 55773718
- Diff: 16325313, 17069143
- RTT: 72751651, 72842861
上面的单位都是ns. 也就是说时间差异是16.3~17.1ms, ssh路途往返耗费72.8ms
这个结果可信吗?于是写了一段脚本,把这个测试过程自动化,观察一段时间的结果。
下图是每秒测量一次,1个小时的测量数据。为了在对数坐标下显示,时间差异用绝对值。
01.png说明:
- 起初两台电脑的时间差大约1秒,因为开启了NTP时间同步服务,在某个时刻会突然同步;
- 脚本是Perl写的,RTT(550ms)比Shell直接执行date命令(72.8ms)大了许多。
实验1:没有时间同步时
在没有时间同步的情况下,观察2组/3台主机:A, B, S的时间差异。
02.pngA, B, S实际上是在ESXi上的3台虚拟机。虚拟机的时钟可能和硬件实钟会有某种同步策略,所以看到的并不是单方向的变化。
实验2:与远程NTP服务器同步
在A,B,S上都开启NTP服务,时间服务器使用Debian Linux默认的NTP server (x.debian.pool.ntp.org)。
03.png因为幅度悬殊的原因,实际上使用中位数更有意义。可以看到A-S或B-S的时钟差异在30~50ms.
实验3:与本地NTP服务器同步;服务器与远程同步
在A,B,S上都开启NTP服务,其中A,B与本地的S同步,但S还是与远程NTP server同步。
04.png可以看到A-S或B-S的时钟差异在3ms左右,一致性比远程NTP同步高了一个数量级。
实验4:与本地NTP服务器同步;服务器使用本地时钟
在A,B,S上都开启NTP服务,其中A,B与S同步,但S直接使用本地时钟,配置为:
server 127.127.1.0 prefer
05.png结果有点出乎意料,时间不一致接近60ms。
实验5:分时操作系统的执行延时
由于通常的操作系统是非实时操作系统,同样的指令占用的执行时间并不是固定的。做一个简单的实验,看看这个因素对测量会有多大影响。
下图给出了在两台机器上,读取系统时间(gettimeofday)这一调用所花的时间(各运行500000次)
06.png可以看出99.97%的执行都在1us及以下。这说明分时执行对统计结果的影响很小。
当然,整个ssh调用耗时的波动范围更大一些(RTT的统计值上可以反映出来)。
结语
用ssh调用读取另一台机器上的系统时间,和本地时间比较,并利用双向ssh调用抵消调用所花的时间,从而可以较准确计算出两台主机上的系统时间差。
虽然在分时操作系统上不能保证执行时间的固定,但通过统计可以逼近结果。由于ssh调用所花的时间在0.6ms以下,所以测量的精度至少是1ms级的。
另外,如果用非加密的web调用,或者自己实现远程调用,应该会有更高的效率,可能会对测量精度略有提高。
利用这一测量,可以观察NTP的同步效果。如果和远程NTP服务器同步,时钟的一致性实测在50ms以内;如果和本地NTP服务器同步,时钟的一致性在3ms左右;但如果本地NTP服务器使用本地时钟,一致性会下降很多(60ms左右)。
由于硬件/虚拟机时钟的波动、网络的波动、NTP的精度,都导致这种一致性总是处于波动之中。总体上,在局域网内,使用NTP同步,能达到毫秒级的一致性就不错了。
网友评论