高速 SerDes 技术及前景(趋势和挑战).docx
C1.K高速SerDeS技术及前景(趋势和挑战)1前言半导体技术的不断更新与进步把人们带入一个全新的数字时代,数字经济,自动驾驶、互联网+、高性能图像媒体处理、云计算、云办公,还有即将到来的元宇宙等等热点的应用,又一次掀起了跨时代的信息革命,但这一切的成就都要归功于传输速率的不断提高,亳无疑问,数据传输技术的创新决定了信息革命这座大厦的高度、强度。随着人类文明的不断进步,人们对数据的传输速率要求、数据的高效及性能越来越高,一些高速的接口应运而生,SATA,DP,RapidlO,HDMI,USB3.0,XAU1.RXAUI,PCIExpress等这些高速接口的底层都是基于SerdeS技术,下面我们就从数据通信的历史入手,逐步的揭开SerdeS技术的神秘面纱。2早期通信从1838年摩尔斯发明有线电报,传统的模拟通信发生了巨大的变革,后来的无线电报、真空管的横空出世再到人类第一部计算机,模拟通信和数字通信技术不断的发展演变,直到上世纪八十年代,数据传输以串行为主的,结构简单,占用引脚资源较少,性价比高,易于开发并工程化等优点,比如UART20KbPS,48510Mbps、SPIlMbps.IlC等,后来在一些总线通信中,逐渐改为并口通信,比如我们常见的Mn接口可以达到100MbPS左右。TXD-(SHkXSH3X2>O""rxd-m1.1.1.r1.nJC1.K并行通信并行接口是多个bit在多根数据线上同时传输到接收端,数据以字节或字为单位输入/输出设备或控制对象传送信息的。与此相对的串行接口是在一根数据线上以1位数据位为单位与I/O设备或通信设备传送信息。从一定程度上大大提高了数据传输的速率,实际应用中,比如在CPU与外设之间同时需要两位以上信息传送时,主要采用并行接口,并行接口适用于近距离、高速度的场合。3并行技术的发展和瓶颈并行计算机的发展并不是一帆风顺的,首先,在并行计算中缺乏像串行计算中,冯诺依曼模型那样的广泛认同的并行计算模型,尽管存在上述诸多模型如:PRAM模型、APRAM模型,BSP模型,1.OGP模型,C3模型等,但是它们都是基于并行计算机不同层次和类型的抽象,没有一个可以成为普遍接受的简单的准确的计算模型,又随着应用技术对速率的渴望越来越高,百MbPS级别的传输率以及难以满足各种需求,比如5G的高速通信,高分辨率的图像处理,显卡的数据应用,高性能的计算和服务器,这些应用动辄要求GbpsGTs级别的速率,并口发展遇到的严重的瓶颈。(三)dkelkOTXdataOTxelkRXdataRXSystemsynchronousinterfacedata9T×OkrefdataRXsourcesynchronousinterface系统同步和源同步时钟的并行通信随着速率增加信号的眼图逐渐模糊并行通信对于时钟倾斜和抖动引起的信号衰减比较敏感,如下例子士兵在训练出操的时候,20人一排走正步,速度越快就越难对齐,在术语上为CIOCkSkew;人数越多越难对齐,术语上叫数据位宽。ClockSkewJitterrlJitter伴随着并行速率的增加,时钟抖动即Jitter的影响越来越严重,示波器的眼图可以到最后波形叠加十分严重,如上图随着速率增加信号的眼图逐渐模糊一图,接收端己经完全无法识别有效的信号了,并行的发展瓶颈主要如下:两个芯片间的时钟传播延时(CloCkSkeW)并行数据各个bit的传播延时(dataskew)时钟的和数据的传播延时不一致(Skewbetweendataandclock)多根同步信号在高速率时会发生串扰(共模传输,差模传输,静态传输),而且繁多的信号很难在PCB并行通信的PCB布线,要求等长,线宽间距一致,IayOUt的成本和难度很高,外部的连线也受到严重的限制,整个系统硬件成本高昂,系统的稳定性很难提高,举个例子,比如32个人并排向前走,速度越快,越容易互相踩踏。总之,并行数据很难做到很高的传输效率,成本也越来越高昂,理解了上面SkeW的概念,我们来做一个小的计算来理解。32bit数据的并行总线,传输的各种延迟skew都是比较理想理想的状态:数据从发送端的Skew=100psPCB走线引起的Skew=100ps时钟的周期抖动jitter=+-50ps接收端触发器采样窗口=20OPS最理想并行的有效频率=1/(100+100+100+200)=2.0GHZ(DDR)或者1.0GHz(SDR单边沿)。在如此苛刻的优化硬件的条件,用了32根信号外加各种时钟和控制信号,有效频率才做到2G左右,常用的DDR4核心频率基本是400800MHz之间,我们发现并行通信的边际效益越来越低了。4高速串行SerDes的关键技术在经历了并行技术的严重的瓶颈,通信领域的工程师又回过头来想起了串行技术的好,与并行技术对比,串行技术有以下的好处:-IO的占用少布线简单没有信号间的串扰系统的硬件成本低有读者会问,通信领域最早就是串行通信,为何发展到并行通信后,又重新发展起来串行通信呢?那是因为近几年一些关键的技术发展,帮助串行通信突破了原有旧架构上的瓶颈。BB/108EncodelntrtFtFOSCQmMf*W5(quAbmCQfltMfF11b«wd0-0PCSUyerPMA1.ayer三lQMSerdes功能框图我们先从Serdes的基本功能来理解,SERDES是英文SERiaIizer(串行器)DESerializer(解串器)的简称,它包含了串化/解串器,均衡,FIFO,差分通道,编码器等主要功能模块。几项关键的Serdes技术促进了串行通信效率的大幅度提高,以下我们重点分析:4.1 差分通信(differentialsignaling)与传统的单端通信不同,差分信号由一对相反信号组成,接收端以两者的绝对值来判断信号,这样差分信号在传输过程中,即时受到干扰,也是同一方向上的,两者的绝对值并没有变化,保持了传输信号的完整性。现在最新的接口技术如以太网,1.VDS,MIP1,HDM1等都是采用了差分通信技术。4.2 时钟恢复CDR(ClockDataRecovery)简单来讲,CDR技术就是把时钟信号和数据信号打包在一个信号里发送,在接收端再解包,所以没有CIoCk线了,也就没有Ck)CkSkeW了,也不存在时钟与数据的SkeW了,在上文的计算公式里一下就少了2(X)PS的延迟了,这个于早期的源同步时钟和系统同步时钟相比是一个巨大的进步,CDR技术也称为自同步技术,因为这个技术早期并没有,所以限制了当时串行通信的发展。4.3 均衡技术(ChanneIEqUaliZation,Eq)现实的信号传输通道(芯片封装,PCB走线和线缆)存在趋肤效应和介质不均匀,造成寄生电容和阻抗,导致数据传输在高频时有严重的衰减。10E*06IoE*07IOeWe10E*0910EHOFrequency;Hz3nOtngrCorxj信号在IOYHZ开始严重的衰减在28GbPS信号能量衰减30db,电压幅度只剩3%为了应对高频信号的衰减,Serdes技术在接受端和发送端都有通道均衡EqualizaHon,原理是根据信号眼图的衰减频率,在特定频率提高信号的强度,抵消衰减幅额。发送端波形256Gbs3OiChannelTinw(出m)st>。一EveFFE8+DFE25.6Gbs30iChdnnel没开均衡的接收眼图打开均衡的接收眼图没开均衡与开均衡后4.4 PCS(PrOtoCOICOdeSUbIayer)层编解码技术编码技术将的原始数据插入辅助编码,提供时钟修正、块同步、通道绑定和将带宽划等功能8b10b编码是最常用的一种,由IBM开发己经被广泛采用。8b10b编码机制是Infiniband,千兆位以太网,FiberChannel以及XAUIIoG以太网接口采用的编码机制。它是一种数值查找类型的编码机制,可将8位的字转化为10位符号。这些符号可以保证有足够的跳变用于时钟恢复。连续的0或者1的情况出现,否则容易导致很长时间没有信号跳变而丢失同步信息,8B/I0B编解码电路提高了线路良好的信号稳定性。针对其他的接口应用,还有4B/5B与64B/66B等编解码技术,大原理是一样的,就是插入辅助编码,提高信号链路的稳定性。4.5 高速SerDes技术和各种接口的关系随着差分通信,时钟恢复,均衡,编码等几个新技术的实现,串行通信这颗老树又迎来了新的春天,现在最新的SerdeS已经达到了112GbPS的传输速率,为数字时代通信的高速应用,如大数据存储,5G通信,云计算,图形游戏A1.自动驾驶,打下了坚实的基础!PHYSerialTX/RXSoftMacroHardMacroSerDesPMA-PhySiCaImediaattaChment差分通道,均衡器,串行/解串器PCS-PrOtOCOlCOdeSUblayer(针对特定的协议如PClE,USB3.0,SATA等进行编码)8b10b编码解码,FIFO经过以上的分析,大家对这几个技术名称应该有更深一步的认识,在各种我们熟知的高速接口中,PClEXPreSS,USB3.0,XAUI万兆以太网,SATA,DP,RapidIO,HBM这些高速接口的底层都是基于SerdeS技术。USBMPCkMIOPWsa1a3SGMI高速Serdes技术的发展趋势和挑战主要回顾Serdes的发展历程,提出了Serdes技术分代及其特点,讲述当前国内外Serdes的技术现状,以及SerdeS技术的发展趋势,对SerdeS架构和各模块技术演变、关键技术挑战进行了分析,并从协议、电路设计、信号完整性、发展趋势几个维度加以详细讨论。Serdes是英文单词串行器(Serializer)和解串行器(De-SeriaIizer)的合成词,可以称之为串行解串器。根据其功能来讲,SerdeS就是在发送端将并行数据转换为串行数据,在接收端将串行数据恢复为并行数据的电路。目前,SerdeS技术在有线通信方面已经得到了广泛应用。按照应用连接的类型,主要分为芯片与光模块的互联;芯片与芯片的互联;以及以太网互连。以太网接口主要有IOBASE-T、IoBASE-F、100BASE-T10BASE-FX.1000BASE-X100obase-T接口,在跨城市互联中将主要用到ge及以上的接口。ge物理接口有1000BASE-X(802.3z标准)和100OBASE-T(802.3ab标准)两种。未来的高速率接口(100G或以上)均为GE类型,为了与100GE兼容,OTU4标准的制定为100GE,高端路由器厂家目前均可提供100GE,并大部分计划开发I(X)GEoTN接口。可以预见的是未来的高速端将是以太网和OTN这两种类型。在以并行通信主导的内存颗粒的访问接口领域,也有分别是海力士和AMD主导的HBM(HighBandwidthMemory,高带宽存储器)以及Intel支持、美光主导的HMC(HybridMemoryCube)等串行接口,作为与DDR5不同的一种演进方向。由此我们可以看到,Serdes已经跟随通信协议,广泛应用在电信、IT和个人消费电子领域。并且随着通信容量的快速提升,各种通信协议的单通道数据率也快速提升,例如图1所示的几种协议演进。(Gbp*)图1:部分协议的单通道数据率1技术现状目前,国际上最先进的SerdeS单通道为64128Gbits之间。在功耗方面,除了单通道最大功耗(mW)夕卜,由于电路功耗跟工作的数据率强相关,所以通常也使用每bit消耗的功耗(pJb)来衡量。在ISSCC2019会议上,1BM发表的单通道128Gbitsl.3pJb的发送器和100Gbitsl.lpJb的接收器,基本代表了当前国际SerdeS技术的最高水平。令人注意的是,华为旗下的海思半导体在Serdes领域也有相当先进的技术,己经形成了从45nm7nm工艺,IoGbit/s64Gbits的多款IP核,并在近百款芯片中商用。在2018年和2019年的ISSCC会议上,华为加拿大研究所先后发表了基于台积电16nm64Gbits和7nm60Gbits的Serdes,并且接近商用,代表着国产Serdes技术的最高水平。另外,大学院校在Serdes领域研究也取得了很大的进步,有多篇32Gbit/s、40Gbit/s、50Gbits的学术成果。2发展历程SerdeS技术的发展,依本文作者观点,可以分为以下几个阶段,第1阶段:单通道数据率低于6Gbits,工艺一般采用45nm及以上。此时Serdes数据率相对较低,对SerdeS电路设计、锁相环(P1.1.)的指标、链路信号完整性要求较低,接收端(ReCeiVer,RX)采用固定CT1.E参数等可以满足需求。第2阶段:单通道数据率从6Gbits15Gbits,工艺水平一般在28nm45nm°此时,对P1.1.设计指标要求提升,而且RX的连续时间线性均衡器(Continuoustimelinearequalizer,CT1.E)判决反馈均衡器(DecisionFeedbackEqualizer,DFE)要求采用自适应等算法,使得在不同链路应用场景下获得CT1.E最优配置,还能根据高低温变化带来的链路信号完整性变化,动态调整接收DFE参数,使得误码率在协议规定范围以内。第3阶段:单通道数据率从15Gbits到30Gbits,工艺水平一般在16nm到28nm°工艺参数对电路的影响、功耗等问题变得更为突出,需要更加精细的设计电路以及封装、单板、连接器等。第4阶段:单通道最高数据率大于30Gbits以上,采用I6nm甚至更先进的工艺水平。通常在3OGbits以下的应用可以采用传统的NRZ编码,3OGbits以上的应用需要考虑采用PAM-4编码,通过牺牲信号的幅度来换取时序上的宽裕。因此,SerdeS架构有了很大变化,通常会采用DSP和高速ADC等技术来处理PAM-4编码。一个完整的SerdeS系统,包括参考时钟,P1.1.,上层协议,编解码,发送端(TmnSmitIer,TX),信道,接收端(RX)等部分组成。其中有源器件主要是芯片本身如SerdeS的收发端,外部的ESD防护器件,光模块等;无源器件包括单板、背板及走线,AC耦合电容连接器,背板,SMA头,线缆等。下面,我们进一步从这些方面讨论Serdes的发展趋势和挑战。3协议Serdes通常作为通信协议的物理层的物理介质(PMA)子层部分,由此要严格准从协议规定°Serdes作为一个芯片的底层模块,除了满足单一的通信协议数据率越来越高的挑战,基于成本等考虑,通常还要求同一个SerdeslP核能够兼容多种协议。从SerdeS设计的角度,常见的通信协议可以分为几大类别。第I类:普通的协议。此类协议除了数据率,位宽及其电气参数差异外,没有对SerdeS提出其他特殊要求。第2类:PCIE.SAS、SATA等协议。这几种协议,要求根据链路的恶劣情况进行调整速率,即速率可自协商,这时Serdes可以被上层控制。并且由于多应用在个人电脑、数据中心等领域,对EMl辐射有要求,所以要求SerdeS有对扩频时钟(SSC)的产生和接收能力。并且PCIE支持热插拔,由此要能够检测对端器件是否在位,满足热插拔需求。另外还要支持功耗管理等功能。第3类:PON协议。此类协议要求支持连续(COntinUe)收发和突发(BUrSD收发模式,而一般CDR会对连续长时间的1信号或者0信号产生锁定异常,因此CDR需要特殊的架构才能满足此类协议的要求。4锁相环常见的锁相环通常基于1.e振荡器(1.CVCo)或者环形振荡器(RingVCo)结构。环形振荡器易集成、面积小、且容易产生多相位的时钟。1.C振荡器的电感占用芯片面积较大,设计难度较高,优点是相噪性能更好。但是随着Serdes数据率的提高,电感越小谐振频率越高,所以电感占用面积大的缺点有所缓解。反而是环形振荡器P1.1.的功耗、相噪等问题,无法满足更高的要求。但是随着SerdeS对P1.1.频率、相噪、功耗等提出了越来越高的要求。在IOGbps以上的Serdes设计中,通常会使用基于1.CVCO的P1.1.,以获得更好的相噪水平。2文U3中*XVCo-KXrpVCoiUJm比从1.CVCO-P1.1.和ringVCO-P1.1.的性能比较我们可以看出:1.CVCO-P1.1.在抖动方面具有较大优势,在约(45)GHZ以下的低频应用时,ringVCO-P1.1.在功耗和面积上有一定优势。但随着频率的更加,ringVCO需要更大的电流来提高振荡频率,1.CVCo占最大面积的电感和电容器件将更小,所以功耗和面积缺点不再那么突出了。一般来说,在58GHz以下的应用中,基于MngVCO的P1.1.是可行的。如果在更高的频率,基于1.CVCO的P1.1.更为合适。5发送端发送端主要功能包括如下。串行器:将并行信号转换为串行信号。前馈均衡器(FFE):实现预加重或者去减重,以补偿信道对信号的衰减作用。驱动器:提过对输出信号摆幅、上升下降沿等可调的驱动能力。串行器的核心是多路复用器电路,常见的有3类:一步式的多路更用器,二进制的多路复用器,多种夏用器组合不均匀串行器,如图3所示。一步式黛用。(b)二选制黛用B(c)不均匀震用B3一种8:1的多路复用器如图4所示。PhSOPhs7是同频率但等相位差的时钟,只有在Phs7和Phs4同时为高时,数据D7B和D7才能被送出;只有在PhSo和Phs5同时为高时,数据DOB和DO才能被送出,依次类推。4-iu循环的等相位差时钟,将数据D0D7和D0BD7B依次串行高速输出,即可达到并行转串行的目的。此类结构优点在于电路简单,缺点是难以应用在数据位宽较宽的场景。而且在高速并串转换时,对时钟相位的抖动等要求很高,而变得难以实现。也就是说,一步式更用器的最高工作速率低于二进制复用器,所以一步式匏用器一般应用在低速Serdes并串转换电路中,或者作为不均匀串行器的第1级。不均匀复用器,既可以灵活配置位宽,也避免了一步式复用器对多相时钟的高指标要求,并且比二级制复用器更高效,因此是一种很适合高速串行器的结构。发送端的驱动端电路,常见的是CM1.和SST结构。CM1.结构本身方便电流叠加,所以很容易实现预加重功能。但是输出摆幅与输出阻抗和驱动电流的乘积相关,输出阻抗通常又被限制在5010()C,因此要获得大摆幅就必须使用较大的驱动电流,使得功耗居高不下。这在功耗问题日益突出的今天,己经变得无法接受。文献中的两种不同阻抗调整方式的SST结构如图所示,SST结构的输出摆幅与其电源电压直接相关,一般来说产生同样摆幅,SST结构的功耗只有CM1.结构的1/4左右,因此在IOGbps以上的Serdes中越来越受到青睐。B6文24中采用不M的阻抗方式的两种SSTIg构但是SST结构的预加重信号叠加相比CM1.结构更为复杂。使问题更加困难的是,采用并联SST等结构来实现预加重功能时,由于开关的MoS管数量不同,阻抗匹配难以保证。因此,通常需要阻抗校准电路和状态机来保证初始化时,SerdeS发送端的阻抗能够匹配在差分100C左右。6接收端信道的插损与信号频率成正比,频率越高衰减越大。所以随着Serdes数据率提升,信道的衰减也越来越严重。为了补偿信道的衰减,通常需要在发送端预加重功能和接收端均衡功能。接收端的均衡器一般由CT1.E和DFE构成。CT1.E和DFE已经广泛应用于当前的SerdeS架构中。RX设计面临的几个挑战是:更优的DFE拓扑和CDR拓扑,以及更优的自适应算法。DFE架构经历了全速直接DFE(FUnratedireCtDFE)、半速直接DFE(HalfratedireCtDFE)、展开全速DFE(FullrateunrolledDFE),展开半速DFE(UnrolledhalfrateDFE)和多路复用半jDFE(MuItiplexedhalfrateDFE)等结构。由于展开式和多路复用等结构,不用通过电流加法电路对DFEtaP进行求和,而使得时序比直接式DFE更宽松,更适合用于解决速率提升带来的时序紧张问题。根据RX输入数据和本地时钟之间的相位关系,可以把CDR体系结构分为3类。1)使用反馈相位跟踪的拓扑,包括基于锁相环结构的CDR(P1.1.basedCDR).延迟锁定回路(D1.1.baSedCDR)、相位插值器(PhaseinterpolatorbasedCDR)和注入锁定(Injection-IockedbasedCDR)结构。2)无反馈相位跟踪的过采样(OVer-SamPIing)拓扑。3)使用相位对准但无反馈相位跟踪的拓扑,包括门控振荡器(GatedOSCillatOr)和高Q值带通滤波器结构。也可根据应用场景将CDR分为突发模式和连续模式的CDRo突发模式系统通常用于点对多点应用中,不同的发送方在突发之间传输具有静默时间间隔的包数据。每当请求传输数据包时,数据传输链路被重新激活,并且在其他时间保持不活动状态,如以太网无源光网络(EP0N)、千兆无源光网络(GPoN)等。突发模式CDR结构一般采用无反馈相位跟踪的拓扑结构,如门控振荡器和过采样技术。基于相位插值器的CDR不存在抖动峰值或稳定性问题,具有无限的相位捕获范围,但存在量化误差。因此,需要根据芯片不同的应用场景来选择最佳的SerdesCDR结构。自适应算法可以由数字逻辑状态机来执行,也可以固件的形式烧录在片上MCU中执行。例如PClE等协议在速率切换时,要求24ms以内达到规定的误码率以下,否则协商失败,留给自适应执行的时间非常有限。因此,就需要设计合理的自适应算法,或者提高状态机或者MCU的运行频率,才能符合协议要求。7信号完整性由于频率越高插损越大的链路参数特性,随着SerdeS通道的数据率越高,对芯片封装、在测试时常用的SoCket夹具、PCB走线处理、连接器等构成的信号完整性也越敏感。高速Serdes对PCB走线的信号完整性提出了越来越严苛的要求,例如PCB板材的选取,过孔的处理,是否需要背钻等等,都是信号完整性所要考虑的问题。在5-8Gbits以下的Serdes单板PCB设计时,一般选择常用的FR4级别板材就能满足信号完整性的要求;在更高速的PCB应用时,则要考虑M4、M6或者同级别的PCB板材。同时,需要对过孔进行埋孔、背钻等做特殊处理,这样也大幅增加了投板成本。8结论通信业务对于Serdes数据率的需求日益增长,当前基于CMOS工艺实现的Serdes最高单通道数据率己经达到128bits,无论对于CMOS电路设计还是链路信号完整性,单通道数据率的进一步提高己经变得越来越困难。与此同时,很多系统应用对Serdes的功耗的还有苛刻的要求,也是设计人员面临的巨大挑战之一。硅光子技术可以基于硅和硅衬底材料,利用CMOS制程将电信号转换为光信号传输。光替代链路的铜线,可以得到很好的传输数据率和极低的损耗。如果硅光子技术获得突破和成熟,加上单板光走线,可实现芯片与芯片之间光互联,那么,SerdeS技术的侧重点会变得很大的不同,将对驱动能力要求大大的降低。因此,硅光子技术是一种极具可能性的演进方向。