1. 至强处理器介绍
至强(Xeon)是英特尔针对服务器和工作站市场的处理器品牌,但也有某些超级计算机采用此处理器。Xeon采用x86架构和/或x86-64架构,和采用IA-64架构的Itanium不同。
至强处理器与常规桌面级CPU相采用同一套微结构(微内核),但更关注于核心数量而非时钟频率,并增加了针对服务器和工作站的高级功能,例如ECC内存,更多的内核数量,更大的RAM和高速缓存,提供企业级的可靠性,可用性和可维护性的Machine Check Architecture (MCA)异常处理机制等。此外,某些型号还支持QPI(快速通道互联)和UPI(超级通道互联)总线,从而将多个CPU连接在一起,从而提供2路、4路、8路等多路处理能力。。
至强(Xeon)处理器目前主要有6个系列:
- E3系列:针对入门级工作站、移动工作站、小型企业服务器等应用的单路处理器,通常为2/4/8核,提供必要的性能和视觉功能,处理器架构每年跟随消费级处理器同步更新;
- E5系列:针对高端工作站的双路/四路处理器,最高22核,支持4通道内存技术和QPI(快速通道互联),提供大幅增强的性能和功能,专为下一代数据中心的架构而设计,每年更新,处理器架构落后E3一代;
- E7系列:面向数据要求苛刻的关键任务和数据中心的双路/四路/八路处理器,最高24核,支持4通道内存技术和QPI(快速通道互联),提供实时分析、任务关键型业务处理以及大数据洞察能力,强调可靠性、可用性和可服务性(RAS);
- 可扩展处理器系列:分为铜牌、银牌、金牌、铂金4个等级,分别对应于E5和E7的不同产品定位,最高28核,支持4通道内存技术和UPI(超级通道互联);
- D系列:用于空间和功率受限环境的片上系统 (SoC),最高16核,将可扩展平台架构创新引入到片上系统 (SoC) 处理器,以支持低功耗、高密度解决方案,且集成了基本网络以及安全和加速功能;
- W系列:针对主流工作站,最高28核,基于可扩展平台架构,提供硬件增强的工作负载性能、安全性和可靠性。
此外,至强还包含至强融核系列处理器,目前最新的Xeon PHI处理器基于英特尔®集成众核架构(MIC 架构),能为要求最苛刻的高性能计算应用程序提供大规模并行处理和矢量化服务,最高支持72核,36M L2 Cache。
2. 至强处理器核心技术介绍
2.1 多路互联技术
多路互联技术用于在单块主板上安装多块互相连接的处理器,主要包括:
- Intel的QPI(快速通道互联)/UPI(超级通道互联)技术:由英特尔开发并使用的用于替代FSB(前端总线)并与AMD的HT(HyperTransport)技术竞争的点对点处理器互联架构,最高速度9.6GT/s(38.4GB/s);2017年,英特尔通过SkyLake微架构发布了基于QPI的UPI(超级通道互联)技术,采用共享地地址空间技术和基于目录的一致性snoop协议,通过新的封包格式提高传输效率,最高速度可达10.4GT/s(41.6GB/s),支持低功耗模式,并且不再要求资源预分配;
- HT联盟的HT(HyperTransport)技术:曾被称作“闪电数据传输”(Lightning Data Transport,LDT),,是一种高速、双向、低延时、点对点(P2P)、串行或者并行的高带宽连接总线技术,1999年由AMD提出并发起成立HyperTransport开放联盟,于2001年4月2日开始投入使用,广泛用于AMD、IBM、苹果、Nvidia、MIPS、龙芯、思科、Broadcom等厂商的处理器上,目前有1.x, 2.0, 3.0和3.1等版本,最高速度51.2GB/s,支持d电源管理;
- Nvidia的NVLink技术:NVIDIA开发并推出的一种串行点对点总线和通信协议,主要使用在Nvidia GPU和IBM Power处理器上,最高速率为单通道25GT/s(25GB/s),在IBM Power 9的6通道模式下可达300 GB/s。
2.2 众核处理器
众核(Manycore)处理器是专为高度并行处理而设计的专用多核处理器,不追求流水线深度、超线程等计数来提高单核性能,而是包含大量简单独立的处理器内核,因此具有更高的吞吐量或更低的功耗,但是具有更高的延迟和较低的单线程性能。
Cache一致性是限制多核处理器扩展的难点。众核处理器通过消息传递,暂存式内存,DMA,分区化的全局地址空间(Partitioned global address space,PGAS),只读/非一致性高速缓存等技巧绕过这个难点。GPU实际上可以认为是具有多个着色器处理单元的众核处理器。
2.3 多通道内存技术
多通道内存技术是一种可以提升内存数据发送性能的技术,通过在DRAM和内存控制器/芯片组之间,增加更多的并行通信通道以增加数据发送的带宽。理论上每增加一条通道,数据发送性能相较于单通道而言会增加一倍。通常情况下,多通道对内存的规格和插槽都有要求,只要满足要求才能使能多通道模式。
目前常见的多通道技术多为双通道的设置,例如两组64-bit DDR提供128位的DDR通道。支持四通道技术的处理器包括Intel/AMD的高端处理器、包含ARM CoreLink CCI-500技术的Cortex-A72等处理器,以及高通和三星的高端处理器等。支持八通道技术的有AMD EPYC、Cavium ThunderX2等服务器处理器。此外,英特尔2012年展示的Haswell-EX架构也支持八通道DDR4。
2.4 多线程技术
多线程技术包括同时多线程(SMT)和时间多线程:
- 同时多线程(Simultaneous multithreading,SMT):也称同步多线程,即在一个时钟周期中发出多个线程的多个指令。支持SMT计数的处理器包括IBM Power、MIPS、SUN/Oracle/富士通Sparc、AMD Bulldozer/Zen微架构等处理器;超线程(HT, Hyper-Threading)是英特尔专有的同步多线程(SMT)实现,通过在CPU内部仅复制必要的资源让两个线程可同时运行,从而在同一周期内处理两个线程的工作,模拟实体双核心、双线程运作。
时间多线程(Temporal multithreading)也称交叉多线程,即在一个时钟周期中发出一个指令,交错发出不同线程的多个指令。时间多线程目前仅在CDC 6000(1960s)、Tera MTA (1988) 、XMOS XCore XS1(2007)等Barrel(桶)处理器上出现。
2.5 Machine Check Architecture (MCA)异常处理机制
Intel服务器处理器提供的硬件错误检测和报告机制,包括系统总线错误,ECC错误,奇偶校验错误,Cache错误、TLB错误等,包括一组用于设置MCA的MSR寄存器和记录硬件错误的附加MSR寄存器。
2.6 ECC内存
在ECC技术出现之前,内存中应用最多的另外一种错误检查技术,是奇偶校验位(Parity)技术,仅能发现错误而不能纠正错误。
ECC内存够实现错误检查和自动纠正技术的内存,可以自动检测和纠正最常见的内部数据损坏,使系统得以正常的操作,不致因错误而中断。通常情况下,ECC内存保持一个内存系统不受单一位错误的影响,即使用5位ECC码纠正8位数据中的1位错误。数据位每增加一倍,ECC只增加1位检验位,即数据位为16位时ECC位为6位,32位时ECC位为7位,数据位为64位时ECC位为8位,依此类推。
2.7 向量处理技术
向量处理技术能够直接操作一维数组(向量),与一次只能处理一个数据的标量处理正好相反。向量处理技术可以在特定工作环境中极大地提升性能,尤其是在数值模拟或者相似领域。向量处理技术最早出现于20世纪70年代早期,并在70年代到90年代期间成为超级计算机设计的主导方向。由于常规处理器设计性价比的快速下降,基于向量处理的超级计算机在90年代末逐渐让出了主导地位。现在,绝大多数商业化CPU实现都能够提供某种形式的向量处理指令,用来处理多个向量化的数据集,也就是所谓的SIMD(单一指令多重数据)。此外,还有多重指令处理多重向量化数据集的MIMD(多重指令多重数据)技术。
网友评论