> 财商
北京2025年12月4日 美通社 -- 亚马逊云科技在2025 re:Invent全球大会上,宣布Amazon EC2 Trainium3 UltraServers(下称Trn3 UltraServers)现已正式可用,由亚马逊云科技首款3nm AI芯片驱动,为不同规模的企业提供运行高强度AI训练与推理工作负载的能力,帮助客户更快更省地训练和部署AI模型。与Trainium2 UltraServers相比,Trn3 UltraServers在AI场景中提供高性能,实现高达4.4倍的计算性能、4倍的能效提升以及近4倍的内存带宽,使AI开发速度更快、运营成本更低。Trn3 UltraServers可扩展至最多144颗Trainium3芯片,提供高达362 FP8 PFLOPs的性能,延迟降低4倍,可更快速训练更大规模的模型,并支持大规模推理场景。包括Anthropic、Karakuri、Metagenomics、Neto.ai、Ricoh与Splashmusic在内的客户已经通过Trainium将训练与推理成本降低至原来的50%。值得的一提的是,Amazon Bedrock也已在Trainium3上运行生产级工作负载。
AI模型规模与复杂度持续提升,正在逼近计算和网络基础设施的极限。客户希望缩短训练时间并降低推理延迟(即AI系统接收输入到生成对应输出的时间)。如今,训练尖端模型所需的基础设施投入只有少数企业能够承担,而大规模提供 AI 应用服务则需要大量计算资源,成本很容易失控。即使采用当前最快的加速实例,仅靠增大集群规模也难以突破并行化限制,无法显著缩短训练时间,而实时推理需求则进一步超出单实例架构的能力边界。为帮助客户突破这些限制,亚马逊云科技宣布Amazon EC2 Trn3 UltraServers今日起正式可用。Trn3 UltraServers基于全新的3nm制程工艺的Trainium3芯片,使各类规模的企业能够更快训练更大的AI模型,以更低成本服务更多用户,让更多机构能够以更低门槛获取支撑未来前沿AI项目所需的算力。
Trainium3 UltraServers:为下一代AI工作负载而生
Trn3 UltraServers在单一系统中集成多达144颗Trainium3芯片,计算性能较Trainium2 UltraServers提升高达4.4倍。这使企业能够处理过去难以实现或成本过高的AI项目:模型训练速度更快,周期从数月缩短至数周;可同时处理更多用户的推理请求;并进一步缩短产品上市时间,并降低整体运营成本。
使用OpenAI的开源权重模型GPT-OSS对Trn3 UltraServers进行测试发现,相比Trn2 UltraServers,其单芯片吞吐量提升3倍,响应速度快4倍。这意味着企业在更小的基础设施规模下即可扩展AI应用以应对峰值需求,直接提升用户体验,同时降低单次推理请求的成本。
这些改进源于为AI场景专门设计的Trainium3芯片。该芯片通过先进的设计创新、用于加速芯片间数据传输的优化互连结构以及能够在处理大型AI模型时消除瓶颈的增强型内存系统,实现了突破性的性能提升。除了性能增长之外,Trainium3实现显著的节能效果,与前几代相比能效提升40%,在大规模部署中尤为关键,从而能够提供更具成本效益的AI基础设施,同时降低数据中心的整体能耗与环境影响。
专为规模化设计的先进网络基础设施
亚马逊云科技将Trn3 UltraServer打造为从芯片架构到软件栈的垂直集成系统。该集成的核心是一套专为消除分布式AI计算中常见通信瓶颈而设计的网络基础设施。全新的NeuronSwitch-v1使每台UltraServer的带宽提升2倍,而增强型Neuron Fabric网络则将芯片间通信延迟降低至不足10微秒。
未来的AI工作负载,包括agent系统、MoE架构和强化学习应用,都需要海量数据在处理器之间无缝流动。亚马逊云科技打造的这一网络体系,使过去难以实现的近乎即时响应型AI应用成为可能,并进一步解锁全新用例,例如可即时处理并执行数据的实时决策系统,以及响应自然、无延迟的流畅对话式AI。
对于有规模化需求的客户,EC2 UltraClusters 3.0可连接数千台UltraServer,最多可搭载100万颗Trainium芯片,是上一代的10倍,从而为训练下一代基础模型提供所需的基础设施。如此规模让许多过去无法实现的任务成为可能,包括在万亿token级数据集上训练多模态模型,或为数百万并发用户提供实时推理服务。
客户已在前沿规模上获得显著成果
客户已经从Trainium中获得显著价值。与其他方案相比,Anthropic、Karakuri、Metagenomics、Neto.ai、Ricoh与Splashmusic等企业通过Trainium将训练成本降低了最多50%。亚马逊云科技的基础模型托管服务Amazon Bedrock目前已在Trainium3上运行生产级工作负载,充分证明该芯片已具备企业级部署能力。
包括Decart在内的先锋AI企业正借助Trainium3处理实时生成式视频等高要求工作负载。Decart是一家专注高效优化生成式视频与图像模型的AI实验室,为实时互动体验提供技术支持。该公司利用Trainium3实现了帧生成速度提升4倍、成本仅为GPU一半,这使得计算密集型应用规模化落地变得可行,并催生从个性化实时体验到大规模模拟在内的全新互动内容类型。
在Project Rainier项目中,亚马逊云科技与Anthropic合作,将超过50万颗Trainium2芯片连接为全球最大AI算力集群,其规模是训练Anthropic上一代模型所用基础设施的5倍。Trainium3在此基础上进一步扩展UltraCluster架构,为下一代大规模AI算力集群和前沿模型提供更高的性能与可扩展性。
展望下一代Trainium
亚马逊云科技已经着手研发下一代Trainium4,其设计目标是在各项性能指标上实现显著提升,包括至少6倍的FP4处理性能、3倍的FP8性能以及4倍的内存带宽,以支撑下一代前沿模型的训练与推理需求。随着硬件与软件的持续优化,最终的整体性能提升将远高于这些芯片参数本身的提升幅度。
Trainium4在FP8性能上的3倍提升是一次基础性飞跃,使AI模型的训练速度至少提升3倍,或处理至少3倍的推理请求,并可通过持续的软件增强与特定工作负载优化获得更多额外加速。FP8作为行业标准的精度格式,能够在现代AI工作负载中平衡模型准确性与计算效率。
为实现更强的扩展能力,Trainium4将支持NVIDIA NVLink Fusion高速芯片互连技术。通过这一集成,Trainium4、Graviton与Elastic Fabric Adapter(EFA)能够在通用MGX机架内无缝协作,构建兼容GPU与Trainium服务器的高性价比机架级AI基础设施,形成一个灵活且高性能的平台,为高要求的AI模型训练与推理工作负载进行优化。
- 搜索
-
- 12-04Trainium3 UltraServers正式发布,助力客户更快更省地训练和部署AI模型
- 12-04冻干柠檬+鳕鱼高汤,张顺心·嗨吃家柠檬酸辣粉速食新选择!
- 12-04房山君澜度假酒店开业即热销 中式度假范本彰显品牌硬实力
- 12-04网龙旗下普罗米休斯与 Augment Me 建立战略合作,共同推动 AI 赋能的学习体验
- 12-04NX集团参加上海第八届中国国际进口博览会(CIIE)
- 12-04专业户外服饰品牌坦博尔,以品质匠心科技推动中国户外冰雪运动发展
- 12-042025 MAMA 移动互联网营销峰会广州站落幕,共话AI时代增长新范式
- 12-04梦百合0压酒店联合轻聆音疗推出颂钵静心疗愈营,开启0压新体验
- 12-04万豪万枫酒店持续拓展在沪布局 上海青浦万豪万枫酒店盛大揭幕
- 12-04ABB ACS880获得中国船级社首张电气传动类产品网络安全型式认可证书