当地时间1月13日,英伟达的AI芯片Blackwell GB200机架因出现过热和芯片连接方式故障,导致其客户如微软、亚马逊AWS、谷歌和Meta等纷纷削减订单。这些故障对数据中心的部署进程造成了阻碍,影响了数据中心计划的实施。
据悉,首批装有Blackwell GB200的机架出现了连接方式故障。这些故障可能与芯片设计或制造过程中的缺陷有关,导致了连接不稳定或不兼容的问题。
目前,这些故障主要影响了首批搭载Blackwell芯片的机架,从而引发了客户的担忧。其中,微软、亚马逊网络服务公司(AWS)、谷歌和Meta这四大主要客户已经削减了对Blackwell GB200机架的订单。
同时,部分客户正在等待其他版本的机架或购买更老款的AI芯片。比如,因延迟交付,微软原本计划安装大量GB200的凤凰城数据中心现在已经装满了H200芯片。有消息人士透露,如果英伟达无法解决这些问题,其性能可能会低于公司承诺的水平。
尽管英伟达强调搭配机架能发挥更好的芯片效能,但许多客户可能更倾向于单独购买Blackwell芯片。如果英伟达及其供应商能够迅速修复上述故障,客户可能会改变做法,重新考虑购买更多的机架。
英伟达的Blackwell芯片已经历了多次延迟交付,主要原因是过热问题和设计缺陷。
此前,英伟达就被曝Blackwell GB200在装有72个处理器的服务器中使用时,每个机架的功耗可能高达120千瓦,导致了严重的过热问题。这种高功耗限制了GPU的性能,并增加了组件损坏的风险。而过热问题不仅影响了数据中心的散热和电力供应,还对新数据中心的启用和运营造成了挑战。
尽管面临这些问题,英伟达在2024年11月表示Blackwell芯片已全面投产,并预计将在未来几个季度内供不应求。然而,由于过热和互联故障等问题,此次Blackwell芯片交付再次出现延迟。
目前,微软和亚马逊等公司均拒绝置评或发表评论。
不过,因机架故障问题,此次英伟达的股价一度重挫近5%。
公司网站:www.szmjd.com