|
12月29日消息,用上雖然NVIDIA目前在AI訓(xùn)練領(lǐng)域無(wú)可匹敵,堆疊但面對(duì)日益增長(zhǎng)的設(shè)計(jì)即時(shí)推理需求,其正籌劃一項(xiàng)足以改變行業(yè)格局的下代“秘密武器”。 據(jù)AGF透露,將引NVIDIA計(jì)劃在2028年推出的用上Feynman(費(fèi)曼)架構(gòu)GPU中,整合來(lái)自Groq公司的堆疊LPU(語(yǔ)言處理單元),以大幅提升AI推理性能。設(shè)計(jì) Feynman架構(gòu)將接替Rubin架構(gòu),下代采用臺(tái)積電最先進(jìn)的將引A16(1.6nm)制程,為了突破半導(dǎo)體物理限制,用上NVIDIA計(jì)劃利用臺(tái)積電的堆疊SoIC混合鍵合技術(shù),將專為推理加速設(shè)計(jì)的設(shè)計(jì)LPU單元直接堆疊在GPU之上。 這種設(shè)計(jì)類似于AMD的下代3D V-Cache技術(shù),但NVIDIA堆疊的將引不是普通緩存,而是專為推理加速設(shè)計(jì)的LPU單元。 設(shè)計(jì)的核心邏輯在于解決SRAM的微縮困境,在1.6nm這種極致工藝下,直接在主芯片集成大量SRAM成本極高且占用空間。 通過(guò)堆疊技術(shù),NVIDIA可以將運(yùn)算核心留在主芯片,而將需要大量面積的SRAM獨(dú)立成另一層芯片堆疊上去。 臺(tái)積電的A16制程一大特色是支持背面供電技術(shù),這項(xiàng)技術(shù)可以騰出芯片正面的空間,專供垂直信號(hào)連接,確保堆疊的LPU能以極低功耗進(jìn)行高速數(shù)據(jù)交換。 結(jié)合LPU的“確定性”執(zhí)行邏輯,未來(lái)的NVIDIA GPU在處理即時(shí)AI響應(yīng)(如語(yǔ)音對(duì)話、實(shí)時(shí)翻譯)時(shí),速度將實(shí)現(xiàn)質(zhì)的飛躍。 不過(guò)這也存在兩大潛在挑戰(zhàn),分別是散熱問(wèn)題和CUDA兼容性難題,在運(yùn)算密度極高的GPU 再加蓋一層芯片,如何避免“熱當(dāng)機(jī)”是工程團(tuán)隊(duì)的頭號(hào)難題。 同時(shí)LPU強(qiáng)調(diào)“確定性”執(zhí)行順序,需要精確的內(nèi)存配置,而CUDA生態(tài)則是基于硬件抽象化設(shè)計(jì)的,要讓這兩者完美協(xié)同,需要頂級(jí)的軟件優(yōu)化。 |
