万博manbext网页版登录(中国大陆)官方网站入口

万博manbext网页版登录app官网芯片和中间层顶部之间的电引诱十分小-万博manbext网页版登录(中国大陆)官方网站入口

作家 | ZeR0裁剪 | 漠影

在本年的云狡计产业嘉会AWS re:Invent上,亚马逊云科技(AWS)罕有识公布了多数对于硬件基础枢纽及芯片的细节信息,包括自研干事器CPU Graviton系列、自研AI芯片Trainium系列、AI超等干事器、最大AI干事器集群等。

这场开诚布公的共享,既让咱们窥得这家公共最大云狡计巨头深厚的硬件基立功底,也让咱们饱览了从CPU研发战术、先进封装、后面供电、AI芯片脉动阵列到芯片互连、AI集合的多样底层工夫翻新。尤其是对于云狡计基础枢纽、数据中心芯片遐想从业者而言,其中有好多值得细品的教悔和想路。

大会时间,亚马逊云科技狡计与集合副总裁Dave Brown还与智东西等少数媒体进一步就基础枢纽与芯片研发的战术和细节进行交流。他告诉智东西,Trainium3基本上统统遐想都会围绕生成式AI,AWS已泄露Trainium3是其首款继承3nm工艺的芯片,算力上一代的2倍、功耗诽谤40%,但面前领路工夫细节可能为前锋早。他还剧透说亚马逊云科技预测来岁会渐渐发布更多细节。

一、CPU遐想理念:不为基准测试而造芯

亚马逊云科技的自研干事器CPU和AI芯片均已在其数据中心落地,被许多著名IT企业继承。连苹果都是其座上宾,在构建Apple Intelligence等AI干事的背后用到了Graviton3、Inferentia2、Trainium2等亚马逊云科技自研芯片。

据Dave Brown共享,亚马逊云科技数据中心里用到的干事器CPU中,畴昔两年有突出50%的新增CPU容量是其自研干事器CPU芯片Gravtion。公共最大购物节之一亚马逊Prime Day有突出25万个Graviton CPU支抓操作。

在2018年,亚马逊云科技看到Arm中枢发展变快,萌发了结合这种工夫弧线与亚马逊云科技客户需求开发一个定制通用处理器的念头。Graviton由此降生,其推出和落地也带来了Arm芯片着实投入数据中心的时刻。

今天,Graviton被简直每个亚马逊云科技客户平素使用。90%的前1000个Amazon EC2客户都运哄骗用Graviton。

Graviton4是现时最苍劲的亚马逊云科技自研干事器CPU,每个中枢提供30%更多的狡计身手,vCPU数目和内存是上一代的3倍,尤其适用于大型数据库、复杂分析等条款最高的企业职责负载。

Dave Brown强调说,在遐想芯遽然,亚马逊云科技不是奔着赢得基准测试,而是专注于本体职责负载性能。

在他看来,业界热衷于优化基准测试,就像是“通过100米短跑来检会马拉松”。本体职责负载的活动与整洁的基准测试截然不符,它们是絮聒的、不可预测的,果然职责负载遭遇的问题可能与微基准测试都备不同。

比如,表面上,Graviton3的性能比Graviton2提高了30%,但测试Nginx时性能进步多达60%,因为亚马逊云科技极大减少了分支诞妄预测。Graviton4也雷同,微基准测试分数比上一代提高了25%,运行果然MySQL职责负载的弘扬则足足提高了40%。

当代CPU就像一个复杂的汇编管说念,前端获取妥协码指示,后端执行指示。

在评估性能时,亚马逊云科技会张望不同职责负载对CPU微架构的压力,比如职责负载是否对前端停摆明锐,前端停摆受分支数目、分支主义或指示等成分的影响,或者后端停顿受L1、L2和L3缓存中的数据以及指示窗口大小的影响。

对于每一代的Graviton,客户都不错浅易地切换到最新的实例类型,独立即看到更好的性能。

在安全性上,亚马逊云科技还加密了Graviton4与Nitro之间的PCIe链路,作念到更极致的全进程安全防护。

二、高性能芯片遐想的重要黑科技:先进封装与后面供电

几年前,封装还很浅易,基本上是一种封装单个芯片并将其引诱到主板的挨次。但当今这个决策变得先进好多。你不错把先进封装假想成用一种叫作念中介层(interposer)的稀奇开辟把几个芯片引诱在一个封装里。

中介层本人本体上是一个Chiplet,它当作一个微型主板,提供了引诱芯片的身手,其带宽是普通PCB主板的10倍。

Graviton3和Graviton4都继承了先进封装工夫。Graviton4有7个Chiplet,中间大芯片是狡计中枢,外围更小的芯片作念一些事情,比如允许芯片拜访内存和系统总线的其他部分。通过永诀狡计中枢,亚马逊云科技有用地将Graviton4的中枢数目增多50%。

这种挨次对Graviton十分有匡助,但引入AI芯片遐想中会遭遇一些挑战。

2018年,看到加快器实例和深度学习趋势后,亚马逊云科技决定构建AI芯片。其首款自研AI芯片是2019年的Inferentia,能够切实诽谤袖珍推理职责负载的本钱,比如亚马逊Alexa通过移动到Inferentia省俭了多数资金。

2022年,亚马逊云科技推出了其首款自研AI检会芯片Trainium1,并收场可将在Trainium1上运行的职责负载省俭约50%。

亚马逊云科技高档副总裁Peter DeSantis在re:Invent大会现场展示了Trainium2的封装,内部有两颗狡计芯片比肩放在中间。其狡计die的晶体管数目是Trainium1狡计die的2.2倍。

想在一个系统上获取最多的狡计和内存,要用先进的封装或制造工夫来制造大芯片。Trainium2上等于这么作念的。但这遭遇了第一个工程极限——芯片制造有尺寸限定,在800平方毫米傍边。

每个狡计芯片足下的两颗芯片是HBM内存堆栈,每个狡计芯片Chiplet通过CoWoS-S/R封装与两个HBM堆栈通讯。通过堆叠芯片,可将更多内存装入调换区域,从而减少耗尽、开释的能量。

那为什么不成把封装作念得更大呢?这等于第二个限定所在。

今天的封装本体上被限定在最大芯片尺寸的3倍傍边。假如将狡计芯片和HBM取出,不错看到中间层,底下有用来引诱芯片和中介器的微凸点。

这是亚马逊云科技旗下Annapurna芯片团队制作的一张图片。他们沿着紫色的线仔细切出了芯片的横截面,然后用显微镜从侧面放大图像。左上角是狡计芯片,足下有HBM模块,HBM模块层都位于一个薄的连气儿晶圆上。芯片和中间层顶部之间的电引诱十分小,每个大要是100μm,比细盐粒还小。

而要让芯片保抓褂讪引诱,就必须得限定封装大小。

同期,Trainium2还引入了后面供电,把电源线挪到晶圆后面,以减少布线拥塞。

半导体利用微弱电荷的存在或不存在来存储和处理信息,当芯片遭遇电压下落时,它们频频得恭候到供电系统调治。芯片在完成狡计任务需要提供多数的能量,为了在低电压下传输统统的能量,需要使用大电线,减少电路传输长度,从而来幸免所谓的电压下落。

三、打造最强AI硬件猛兽,背后的工夫秘方

检会更大的模子,需要构建更好的AI基础枢纽、更苍劲的干事器集群。这条款有更好的AI芯片和AI集合。

在re:Invent大会上,亚马逊云科技小心公布了几个重磅AI硬件家具。

一是亚马逊和Anthropic正在合作构建的Project Rainier,一个领有数十万颗Trainium2芯片的超等干事器集群。这个集群将具备Anthropic面前用于检会其启航点的Claude模子的集群5倍的狡计身手。

二是能检会和部署寰宇上最大模子的Trainum2超等干事器。它引诱了4个狡计节点,集成了64个Trainium2芯片,将峰值算力推广至83.2PFLOPS,寥落算力更是高至332.8PFLOPS,将单个实例的狡计、内存和集合性能提高4倍。

三是亚马逊云科技迄今作念机器学习检会最高能效的干事器——Trainium2干事器。一个Trainium2干事器容纳有16个Trainium2芯片,可在单个狡计节点提供20.8PFLOPS的狡计身手。由Trainium2芯片提供支抓的Amazon EC2 Trn2实例也认真可用,可提供比现时GPU驱动的实例向上30%~40%的性价比。

这些Trainium2芯片通过超快的NeuronLink互连工夫引诱在一都。

在芯片遐想上,Dave Brown老师了CPU、GPU、NPU三类芯片微架构的不同。

CPU针对多数复杂逻辑的快速执行,每个缓存对应限定引擎和执行引擎。

GPU主要用于数据并行,限定单位较少,执行单位多。其运算过程会波及一些数据在缓存和HBM内存之间的倒换。

为了减少无效的内存占用,亚马逊云科技Trainium芯片继承的是脉动阵列(Systolic Arrays)架构,与谷歌TPU如出一辙,平直传递狡计扫尾,能够诽谤内存带宽需求。

在生态开辟上,亚马逊云科技提供了一个其自研AI芯片的专用编译讲话新Neuron Kernel接口(NKI),用于便捷开发者平直对其AI芯片进行深度调试,从而更充分地挖掘芯片性能。

单芯片的性能强,在本体落地中无意管用。要复古起业界最大的大模子检会和推理,必须能够提高多数芯片互连时的系统级算力利用率。

亚马逊云科技自研的NeuronLink芯片到芯片互连工夫可将多个Trainium2干事器组合成一个逻辑干事器,带宽为2TB/s,延伸为1μs。

与传统高速集合条约集合不同的是,NeuronLink干事器不错平直拜访相互的内存,从而创造出一台“超等干事器”。

Peter DeSantis也花时刻科普了一下为什么大模子推理越来越迫切,以及它对AI基础枢纽苛刻了如何的新条款。

大模子推理有两种职责负载——预填充(prefill)和token生成。预填充是输入编码,其中处理指示和其他模子输入,为token生成作念准备。这个过程需要多数的狡计资源来将输入调遣成传递给下一个程度的数据结构。完成后,狡计出的数据结构将被传递给第二个推理职责负载,由它生成token。

Token生成的趣味趣味之处在于,模子按划定生成每个token,一次一个。这对AI基础枢纽苛刻了十分不同的条款,每次生成token时,必须从内存中读取通盘模子,因此会对内存总线产生多数需求,但它只使用极少的狡计,简直与预填充职责负载都备违犯。

这些职责量各别对AI基础枢纽意味着什么呢?一朝token运行生成,只需要以突出东说念主类阅读速率的速率生成它们。这不是很快,但当模子越来越多地用于agentic职责流,在投入职责流的下一步之前,需要生成通盘反映。是以当今客户海涵的是快速预填充和快速token生成。

对着实快速推理的渴慕,意味着AI推理职责负载也寻求使用最苍劲的AI干事器。这两种不同职责负荷是互补的。预填充需要更多的狡计,token生成需要更多的内存带宽,是以在吞并个苍劲的AI干事器上运行它们不错匡助收场出色的性能和成果。

这就证实了亚马逊云科技力推自研AI干事器及集群的中枢驱能源。

四、如何构建AI集合?10p10u架构、定制光纤电缆及插头、搀杂式路由条约

云集合需要快速推广以合适增长,亚马逊云科技每天向公共数据中心添加数千台干事器。但AI的推广速率更快。

据Peter DeSantis共享,亚马逊云科技的云集合在可靠性方面依然作念到99.999%。AI职责负载对限制、速率、可靠性的条款更甚。要是AI集合阅历了旋即的故障,通盘集群的检会过程可能会延伸,导致资源闲置和检会时刻延长。

如安在云集合的翻新基础上构建一个AI集合呢?亚马逊云科技打造了10p10u集合。

10p10u的物理架构与传统CLOS集合架构区别不大,亮点是收场了10Pbps传输带宽、10μs集合延伸,连起来后构成可用于检会的超等集群。

下图展示了亚马逊云科技在不同集合结构中装置的连总计目,其中10p10u在畴昔12个月已装置突出300万条。

结构如下图所示,继承简化的无电缆机箱遐想,左侧是8张Nitro卡,右侧是两颗Trainium2加快器。

多数的光缆投入机架,要构建这么的密集集合结构,需要十分精准的互连交换机,并要应酬复杂性大大增多的挑战。

针对布线复杂问题,亚马逊云科技研制了一些稀奇的光纤电缆、光纤插头,并针对超大限制集群打造了一种全新集合路由条约。

其中一个翻新是开发了一个定制的光纤电缆Fiber optical trunk cable。不错把它当成一根超等电缆,它将16根孤独的光纤电缆组合成一个坚固的引诱器,能够大大简化拼装过程,排斥引诱诞妄的风险。

使用骨干引诱器将在AI机架上的装置时刻裁减了54%,何况作念到看起来更整洁了。

还有定制光纤插头——Firefly Optic Plug。

这个玄机的低本钱开辟就像一个微型信号反射器,支抓在机架到达数据中心之前进行全面测试和考证集合引诱。这意味着干事器到达时,不会厌世任何时刻调试、布线。

此外,即使是微弱的灰尘颗粒,也会显耀诽谤完整性并形成集合性能问题。而Firefly Optic Plug具有双重保护密封功能,可驻扎灰尘颗粒投入光纤引诱。

临了一个挑战是提供更高的集合可靠性。

亚马逊云科技对光链路的可靠性作念了好多优化,将失败率诽谤到0.002以下。

AI采聚合最大的故障起首是光链路。光链路是微型激光模块,在电缆上发送和吸收光信号。这些失败不可能被都备排斥,因此需要接头如何减少失败的影响。

每个集合交换机都需要数据来告诉它们如何路由数据包。在AI采聚合,这个舆图可能需要接头数十万条旅途。每次光链路出现故障,映射就需要更新。

如何快速而可靠地作念到这一丝?最浅易的挨次是汇注解决映射。

优化集合听起来很招引东说念主,但当集合限制弘大时,中央限定就会成为瓶颈。检测故障会很穷苦,交换机更新可能十分赋闲,何况中央限定器是单点故障。这等于为什么大型集合频频使用BGP和OSPF等条约去中心化的原因。

然则去中心化的决策也不完好意思。在大型采聚合,当链路出现故障时,集合交换机需要破耗多数时刻进行合营,并为集合找到新的最优映射。

也等于说,在面对超大限制集群组网时,汇注式和分散式的传统路由条约都靠近挑战。

靠近次优选拔时,则需要开辟一条新的说念路。对此,亚马逊云科技研发了一种全新的搀杂式集合路由条约SIDR(Scalable Intent Driven Routing),通过将汇注式和分散式限定的上风相结合,能在很短时刻内重新策动集合旅途,为超大限制集群提供更好的快速故障检测、反映和复原身手。

SIDR不错浅易理会成让中央酌量者将集合分解成一个结构,这个结构不错下推到采聚合的统统交换机。这么它们看到故障时,就能作念出快速、自主的决定。 扫尾,SIDR能在1秒内反映故障,何况在亚马逊云科技集合上作念到比其他替代挨次快10倍。其他集合可能还在重新狡计门道,10p10u集合依然复原职责了。

结语:云大厂自研芯片的风向标

当作在自研芯片落地上最见效的云狡计大厂之一,亚马逊云科技的芯片遐想教悔、自研芯片对云业务的本体影响、迭代与翻新地点一直备受瞩目。在经受智东西等媒体采访时间,Dave Brown也转头了亚马逊云科技自研芯片的一些重要上风,包括本钱低、限制大、落地快、褂讪可靠等。

本钱上,要是采选Trainium2可将本钱较H100诽谤50%,那么这对客户粗野是很有招引力的点。

限制上,亚马逊云科技的限制确保其芯片能够正常运行,会在推出Trainium前作念多数测试,确保芯片一朝推出就一定会见效,不会出现硬件需要撤离的情况。

限制大还意味着更容易获取所需的产能。Dave Brown提到亚马逊云科技与英特尔、台积电等企业的合作告成,以为台积电到好意思国凤凰城投资建厂是聪敏之选。亚马逊云科技勉力于于收场供应链多元化,是台积电的最大客户之一,也一直与英特尔细密合作,相互匡助进行遐想翻新,预测不会受领导层变动的影响。

落地上,亚马逊云科技有专诚团队,负责立即能将芯片放到干事器中,中间不存在一两个月的迟误延误,因此能裁减落地时刻,有迷漫好的芯片来支抓客户进行大讲话模子的检会。

还有完整的家具组合和可靠干事。亚马逊云科技提供不单是是芯片,还包括存储、Kubernetes干事器、API、安全、集合等,这么丰富的组合拳是其他供应商难以提供的。在褂讪性上,亚马逊云科技通常具备上风,在实时会诊和修补遭遇的问题、确保干事不受影响方面依然深得云干事客户的信任。

生成式AI海浪激动卑劣商场对更高性能、高性价比、活泼可定制的AI基础枢纽苛刻了强需求。而亚马逊云科技在AI基础枢纽底层工夫与工程上的探索与翻新万博manbext网页版登录app官网,正为业界提供一个既能合适客户业务需求、诽谤系统复杂性又能提高供应链话语权的出色参考范本。



 

热点资讯

相关资讯



Powered by 万博manbext网页版登录(中国大陆)官方网站入口 @2013-2022 RSS地图 HTML地图

Copyright Powered by站群 © 2013-2024