万众期盼的小芯片标准最新进展

2021-03-28 10:01:23 来源:EETOP编译 翻译:马天云

原文:semiengineering 特约编译:马天云

引言:生态是使小芯片(Chiplet)技术得到采用并获得长期成功的必要部分,而生态是围绕标准建立的。这些标准正在慢慢被构建起来。

目前对小芯片的需求还在增加,但对大多数公司来说,这种转变是缓慢进行的,直到可验证的标准被行业接受。

互操作性和兼容性依赖于供应链的诸多层级达成的一致。不幸的是,分散的行业需求可能会导致冗余的解决方案。

标准有利于促进专门化。在芯片行业的早期,一个公司必须完成设计,实现和制造的全部流程。然而,对于大多数公司来说,通过定义良好的接口和模型(如PDKs,BSIM模型和库),是可以将制造与设计分离开来的。

IP行业的出现使公司能够专注于系统和差异化部分的设计,但他们仍然需要自己完成大部分的实现工作。在IP供应商和客户之间衔接的连接器和模型的标准化为减轻负担提供了可能。

今天,我们正处在另一个等级的专业化风口,在这个等级上,一个公司只需要设计系统,并设计和实现差异化部分,而不用考虑商品化部分的实现制造。这种模式可以通过小芯片的形式来实现,小芯片是已经完全实现和制造出的小部件,并可以定制化地构建系统。为了达到这个目标,行业需要一些新的标准。

一些大型系统公司已经完成了开拓性工作,这些公司都在自研系统和小芯片模块(图1)。这使它们能够提供更大或更加模块化的产品,并在这个过程中解决许多难题。他们制造这些系统的方法也都各有不同。

毫不奇怪,这些解决方案差异很大。OpenFive SOC IP产品营销高级总监KetanMehta表示:“仅仅针对ASIC公司的需求,行业就可以被划分为一系列供应产品。这些公司需要的是定制化芯片,而且需要快速的解决方案,他们不想等到标准制定和发展差不多了才开展业务。因此,所有这些公司都在开发和验证专有的实现。”

图1:一些2.5D集成的早期开拓者。图源:OpenFive

第一个部分开放系统(IP和系统由不同的公司开发)是高带宽内存(high bandwidth memory, HBM)。在这个系统中,DRAM由一家公司提供,并被集成到另一家公司设计的系统中,然后由第三家公司封装起来。这为适用范围有限的应用提供了一个解决方案,除此外,还有其他制造/封装技术也专注于使内存更接近逻辑。

当使用现成的小芯片对逻辑进行互联时,将获得更大的受益。这将打破所有部分必须来自同一技术节点的限制。尽管这存在诸如差异扩展和翘曲导致的可靠性问题,但随着时间的推进,这些问题很可能得到解决。除此外,仍亟待开发出可行的商业模式。

对小芯片的需求来自多个方向。CHIPS联盟执行董事RobMains表示:“我们遇到了一个可以帮助缓解公司在该领域遇到的许多挑战的真正机会。我们需要一个标准化的交互接口,一个标准化的物理接口,必须针对特定的芯片处理技术或封装技术进行实例化。除了这些,需要一个EDA生态。DARPA的愿景是正确的,让全球各个水平的设计团队合作是很重要的。这有助于达成共识,并有助于产品的质量保障,从而产生有效的结果。”

今天的行业并非如此。这与计算机科学家Andrew Tanenbaum的观察更接近:“标准的好处是有很多选择。” 但是,随着越来越多的参与者试图巩固该领域并尝试解决制造封装与电气标准息息相关的问题,这种情况开始发生变化。我们需要协议以确保整个系统中的数据完整性。除此之外,还需要解决许多其他问题,例如物理布局,供电网络,测试,调试,监测以及许多其他问题。大家已经开始着手调查其中的一些问题。

先前的文章讨论了小芯片的总体推动力以及对开发流程的影响。本文的重点是不断发展的标准,这些标准可能推动市场的发展,虽然这并不能说明所有人的立场或者彼此的关系。

物理层

从单一封装布局到多模块的集成封装极大地改变了互连。西门子EDA高级封装解决方案总监Tony Mastroianni说:“传统的ASIC需要大型I/O驱动器来驱动通过封装,电路板和外部接口的信号,范围可能从几十毫米到几米。2.5D die-to-die接口部署了较小的I/O驱动器,仅需要通过中介层来驱动与相邻模块的水平连接即可,其大小可能在几十到数百微米之间。3D die-to-die接口甚至部署了更小的I/O驱动器,仅需要将垂直连接直接驱动到堆叠在其上或下的模块即可,这些可能在几纳米到几百纳米的数量级。2.5和3D方法在本质上拥有较低的驱动强度和较短的走线长度,可显着降低功耗并增加I/O带宽,从而将能源效率(pJ/bit)提高了几个数量级。”

在这一方面有几个可用方法。“一种小芯片的集成方法完全避免了使用精细几何互连,” Kandou标准副总裁Brian Holden说,“通过这种方法,小芯片之间的互连仅仅建立在有机封装基板上。这避免了复杂的制造过程以及与硅中介层相关的额外成本和良率损失。低功率超短距离(ultra-short reach, USR)SerDes可以用于小芯片之间的高速互连。”

我们可以找到一种物理接口的解决方案。OpenFive的Mehta说:“当你将一个模块分解为多个小模块时,可以将其放在基板上,也可以放在中介层上。这二者之间差别很大。使用中介层可以处理数千个信号,而使用基板,最多只能处理几百个信号。例如,如果客户实现的是同时具有HBM的大型模块,则他们别无选择,只能在中介层上实现。这需要并行接口,因为中介层将容纳数千个信号。”

英特尔已经在围绕其嵌入式多芯互连桥(Embedded Multi-die Interconnect Bridge , EMIB)开发自己的小芯片技术。与2.5D方法特有的大的硅中介层不同,EMIB使用具有多个布线层的非常小的电桥。这种电桥在基板制造过程中被嵌入并作为其中的一部分。

并行还是串行?

并行和串行之间的争论可能会持续很长时间,而且不可能有单一的解决方案。每个不断发展的标准都是许多不同因素之间的权衡。

Synopsys高速SerDes高级产品经理Manmeet Walia解释说:“客户真正关心的是最低延迟,最低功率,各岸端(beachfront)的带宽,可达性能以及成本,而这基本都和收益相关。”

图2:定义可接受的接口。图源:Cadence

标准正在朝着多个方向发展,以优化各种设计因素。“串行连接使用非常轻巧的SerDes,” Walia说,“它们具有简单的物理接口,只基于DLL时钟的转发方法,不需要任何决策反馈等化。”

串行标准由光学互联网络论坛(Optical Internetworking Forum, OIF)推动。他说:“这被称为112G USR或超短距离(extra short reach, XSR)连接。这些应该最迟在2021年内得到批准。但是要记住各项活动不是基于标准批准书开展的。它们是根据已经可用的草案而进行的。OIF的草案现在可以获取了。”

在并行方面有一些标准的提出。首先是开放式高带宽互连(Open High Bandwidth Interconnect, OpenHBI)。这是由开放计算项目(Open Compute Project’s , OCP)的开放领域专用体系结构(Open
Domain-SpecificArchitecture, ODSA)子项目领导的。预计在今年年中批准。

英特尔已经开发了高级接口总线(Advanced Interface Bus, AIB)。英特尔可编程解决方案小组CTO办公室高级总监Jose Alvarez说:“ AIB 2.0的规范已经可以在CHIPS Alliance GitHub找到。这项工作正在进行中,马上要发布了。我们的目标是达到每条线每秒4GB,每个接口每秒约7.6TB的带宽。但这不仅仅和带宽有关,而且和能耗有关。目前每比特的能源利用率是0.85pJ,我们达到了每比特0.5pJ,而DARPA PIPES项目希望将其提高到每比特0.1pJ。这是一个更长的范围,但是我们正在朝着这个方向努力。”

许多公司已经部署了一种称为“电线束”(Bunch Of Wires, BOW)的方法。GUC在2020年11月发布的新闻稿中展示了这种接口的一些性能数据,并展示了一些性能权衡。它引用了模块之间的无差错通信,每1 mm 各岸端全双工带宽为0.7 Tbps,消耗0.25 pJ/bit。GUC相信,下一代产品将支持每1 mm各岸端 1.3Tbps的无错全双工带宽,而使用TSMC 5nm工艺的功耗则为0.25 pJ /bit。

与串行连接相比如何?GUC表示,与使用超短距离基于SerDes的封装基板通信的替代解决方案相比,并行连接的功耗要低6至10倍。

协议

芯片之间可靠的数据传输不仅仅需要物理接口。Fraunhofer IIS自适应系统工程部高级系统集成小组负责人兼高效电子部门负责人Andy Heinig表示:“未来需要更高级别的标准,而不是非常低级的接口标准。这种更高级别的协议可能是面向应用程序的。它们在像光学前端的模拟-数字应用或像数据中心AI应用加速器的数字加速器之间将有所不同。”

生产力和可重用性与抽象层级有关。“互连的下一层是在通信结构,协议,总线,网络方面。” Arteris IP的研究员兼系统架构师Michael Frank说,“ CCIX和CXL即将到来。人们正在对其进行构建,但是缺乏可以使不同小芯片通信的标准。”

计算表示连接(Compute Express Link, CXL)是用于处理器,内存扩展和加速器的缓存一致性互连。其2.0规范于2020年11月发布。目标是保持CPU内存空间与连接设备上的内存之间的内存一致性,从而实现资源共享并降低软件堆栈的复杂性。

同样,用于加速器的高速缓存一致性互连(Cache Coherent Interconnect for Accelerators, CCIX)已从系统内应用程序转移到封装内应用程序。“随着2.5D和小芯片的推动,我们基本上摆脱了长延迟和高功率SerDes或接口,并具有并行接口或非常低延迟的XSR或短距离SerDes,”CCIX联合体技术指导委员会主席,并在Xilinx担任CCIX,CXL和ODSA联合体的技术负责人Millind Mittal说道,“ CCIX利用了PCIe的数据链路层,但之后将其分离为优化路径。我们正在定义下一个版本,以适应新的传输方式。对于2.0,我们正在考虑适应封装内集成选项。”(见图3)

图3:CCIX 2.0集成选项。图源:CCIX联盟

Arm也提出了一个标准。Walia说:“这是结构的一部分,他们拥有所谓的相干网格网络(Coherent Mesh Network, CMN)结构。如果你在模块到模块的接口上有两个计算芯片互相通信,那么结构到结构的接口须看起来像是单个结构。这里零延迟是非常重要的。”

不仅仅是信号

获取信号接口标准很重要,但是要制造可重用的小芯片,还需要更多的标准。“我们今天必须定制IP。” Walia说,“这可能意味着移除标准的C4,并用微型接触点替换它们。我们紧密合作,多次迭代。在我们与客户及其封装供应商之间经常会有三到四次的迭代。”

其中一些问题正在得到解决。Mehta说:“ ODSA和AIB已经提出了一种接触点布局。它定义了SerDes的布局方式或并行线的布局方式。当两个设备属于同一客户时,它们具有一点灵活性。但是,如果不是闭环系统,那么对于如功率和热量的许多事物,都需要标准。”

功率是一个大问题。“如何通过这些微型接触点来承担100瓦的功率?” Ansys产品营销总监Marc Swinnen问, “你需要有一个单独的电源分配连接,物理连接方案,厚型TSV或什么可以在芯片中承担功率的东西。当今最常用的技术是将微型接触点的集合聚合到作为单个连接的接触点区域中。因此,可以选择其中的100个,它们都是Vss或Vdd,并且它们都可以协同工作,电流将分配给各个接触点。现在,必须进行非常仔细的分析,以确保所有这些接触点都不会过热而导致局部熔化。”

我们也需要额外模型。“我需要一个这样的功率模型,那样的热量模型。” Cadence的IC封装和跨平台解决方案产品管理小组主管John Park说, “针脚间距标准是什么?当人们开始思考小芯片到小芯片接口的标准时,要考虑一份检查清单。我相信对此没有一个单一标准。可能会有5个,10个,甚至更多。封装的种类繁多,没有标准适用于所有内容。虽然最后我们都会找到。大型设计中可能有数十个甚至可能数百个小芯片,如果使用层压板进行设计,整个面积可能会变得很大。那么信号需要传播多长距离?”

随着重大问题的解决,新的问题将会浮出水面。英特尔的Alvarez说:“在CHIPS联盟内部,通过AIB 2.0,我们正在向小芯片添加其他概念,例如安全性。我们还在寻找其他方法处理接口,协议等。我们希望为小芯片开发提供更完整的硬件框架。”

结论

半导体行业正在通过标准整合专有小芯片。今天,许多专有解决方案已交由标准机构处理。整个行业正在整合这些解决方案,但是只有一定程度的合并是可能的,或者可能符合我们的需求。

案例将推动提案的采用率,如果取得初步成功,那么这个方向将会冒出更多案例,但是它们都可能需要标准做出一些变化,因为灵活性和优化始终很难平衡。

  1. EETOP 官方微信

  2. 创芯大讲堂 在线教育

  3. 创芯老字号 半导体快讯

相关文章

全部评论

  • 最新资讯
  • 最热资讯
X
Baidu