里程碑時(shí)刻!螞蟻推出業(yè)內(nèi)首個(gè)100B擴(kuò)散語言模型
12月12日消息,刻螞擴(kuò)散“螞蟻開源”公眾號(hào)發(fā)文,蟻推語螞蟻技術(shù)研究院正式推出LLaDA2.0系列離散擴(kuò)散大語言模型(dLLM),出業(yè)并同步公開技術(shù)報(bào)告。內(nèi)首
這一發(fā)布打破了行業(yè)對(duì)擴(kuò)散模型難以擴(kuò)展的模型固有認(rèn)知,實(shí)現(xiàn)了參數(shù)規(guī)模與性能的刻螞擴(kuò)散雙重重大突破。
LLaDA2.0系列包含基于MoE架構(gòu)的蟻推語16B (mini) 和里程碑式的100B (flash) 兩個(gè)版本,首次將擴(kuò)散模型的出業(yè)參數(shù)規(guī)模成功擴(kuò)展至百億量級(jí)。
尤為引人注目的內(nèi)首是,該模型在代碼、模型數(shù)學(xué)及智能體任務(wù)上的刻螞擴(kuò)散性能超越了同級(jí)別的自回歸(AR)模型。
通過螞蟻創(chuàng)新的蟻推語Warmup-Stable-Decay (WSD) 持續(xù)預(yù)訓(xùn)練策略,LLaDA2.0能夠高效繼承現(xiàn)有AR模型的出業(yè)知識(shí)儲(chǔ)備,顯著避免了從頭訓(xùn)練的內(nèi)首巨大成本。
在訓(xùn)練優(yōu)化方面,模型LLaDA2.0結(jié)合了置信度感知并行訓(xùn)練(CAP)和擴(kuò)散模型版DPO,不僅保障了生成質(zhì)量,更充分發(fā)揮了擴(kuò)散模型并行解碼的先天優(yōu)勢(shì)。最終,模型實(shí)現(xiàn)了相比AR模型高達(dá)2.1倍的推理加速。
LLaDA2.0的成功有力證明:在超大規(guī)模參數(shù)下,擴(kuò)散模型不僅完全可行,更能展現(xiàn)出比傳統(tǒng)自回歸模型更強(qiáng)的性能與更快的速度。
(責(zé)任編輯:娛樂)
- 國(guó)際銀價(jià)突破80美元后跳水 市場(chǎng)擔(dān)憂風(fēng)險(xiǎn)積聚
- 比特幣今年慘遭滑鐵盧 樂觀者預(yù)測(cè):明年或逆襲成“年度最佳”
- 真瞬間剎停!央視播出福建艦電磁彈射超近畫面:太震撼
- 斬獲TGA年度最佳!《光與影:33號(hào)遠(yuǎn)征隊(duì)》制作人談成功秘訣:別太在意玩家
- CBA常規(guī)賽:北控隊(duì)主場(chǎng)4分險(xiǎn)勝遼寧隊(duì)止連敗
- 斬獲TGA年度最佳!《光與影:33號(hào)遠(yuǎn)征隊(duì)》制作人談成功秘訣:別太在意玩家
- 69歲老太12樓扔垃圾砸壞車輛被判刑引熱議:官方提醒高空拋物太危險(xiǎn)
- B站發(fā)布“廣播電臺(tái)主持人扶持計(jì)劃” 讓陪伴成長(zhǎng)的聲音永不消失
- 零跑首款MPV D99亮相:增程、純電雙動(dòng)力 續(xù)航全球同級(jí)最長(zhǎng)
- 最高時(shí)速120km/h!廣汽L3自動(dòng)駕駛進(jìn)入實(shí)證測(cè)試
- 零下20度也阻擋不了東北人買小米汽車!雷軍:我相信YU7冬季續(xù)航肯定是純電車中最好的之一
- 國(guó)臺(tái)辦:只有回到“九二共識(shí)” 兩會(huì)對(duì)話溝通機(jī)制才能重啟
- 西風(fēng)顯卡展出AMD RX6000 GPU成堆的“尸體”!號(hào)稱從不拒保
- 大嘴格柵+貫穿尾燈:比亞迪全新皮卡專利圖流出 預(yù)計(jì)明年上市
- 危地馬拉西部一客運(yùn)巴士墜谷致15死19傷
- 公安機(jī)關(guān):懸賞追捕臺(tái)灣居民簡(jiǎn)文昇、陳順進(jìn)
- 華為又一次全國(guó)首個(gè):實(shí)測(cè)能讓5G上行提升數(shù)倍
- 存儲(chǔ)漲價(jià)有多瘋!DRAM報(bào)價(jià)翻了七八倍 一個(gè)內(nèi)存條漲超1000元:漲價(jià)還沒停呢
- 京東七鮮小廚:面向全國(guó)招募經(jīng)營(yíng)合伙人,計(jì)劃2026年完成所有一二線城市布局
- 日本一無人島密密麻麻都是北海獅:給當(dāng)?shù)貪O業(yè)造成巨大損失
