騰訊混元發(fā)布全新視頻生成模型:14G消費(fèi)級(jí)顯卡流暢運(yùn)行 生成5
作者:娛樂(lè) 來(lái)源:綜合 瀏覽: 【大 中 小】 發(fā)布時(shí)間:2025-12-29 18:16:12 評(píng)論數(shù):
11月21日消息,騰訊今日,混元騰訊混元大模型團(tuán)隊(duì)宣布開(kāi)源最新視頻生成模型HunyuanVideo 1.5,發(fā)布費(fèi)級(jí)這是全新一款基于Diffusion Transformer(DiT)架構(gòu)、參數(shù)為8.3B的視頻生成生成輕量級(jí)視頻生成模型,支持生成5-10秒的模型高清視頻。
該模型已經(jīng)搶先在“元寶”上線,消顯普通用戶可以直接體驗(yàn),流暢可通過(guò)兩種方式:一是運(yùn)行輸入文字描述(Prompt),直接實(shí)現(xiàn)“文生視頻”;二是騰訊上傳圖片配合Prompt,輕松將靜態(tài)圖片轉(zhuǎn)化為動(dòng)態(tài)視頻?;煸?/p>
據(jù)介紹,發(fā)布費(fèi)級(jí)HunyuanVideo 1.5模型能力全面,全新支持中英文輸入的視頻生成生成文生視頻與圖生視頻。
其中,模型圖生視頻能力展現(xiàn)出圖像與視頻的高度一致性,生成的視頻在色調(diào)、光影、場(chǎng)景、主體和細(xì)節(jié)等方面都能與原圖較好匹配。
模型還具備強(qiáng)指令理解與遵循能力,能夠精準(zhǔn)地實(shí)現(xiàn)多樣化場(chǎng)景,包括運(yùn)鏡、流暢運(yùn)動(dòng)、真實(shí)的物理規(guī)律遵循、寫(xiě)實(shí)人物和人物情緒表情等多種指令。
在元寶中可以通過(guò)文字和圖片生成視頻
同時(shí),HunyuanVideo 1.5支持寫(xiě)實(shí)、動(dòng)畫(huà)、積木等多種風(fēng)格,并可在視頻中生成中英文文字,滿足多樣化內(nèi)容創(chuàng)作需求。
在畫(huà)質(zhì)方面,模型可原生生成480p和720p高清視頻,并可通過(guò)超分模型提升至1080p電影級(jí)畫(huà)質(zhì)。
此前,視頻生成領(lǐng)域的開(kāi)源SOTA旗艦?zāi)P椭辽儆?0B,需要超過(guò)50GB顯卡方可部署。
HunyuanVideo 1.5定位為“開(kāi)源小鋼炮”,顯著降低了使用門(mén)檻可在14G顯存的消費(fèi)級(jí)顯卡上流暢運(yùn)行,真正讓每一位開(kāi)發(fā)者和創(chuàng)作者都能“玩起來(lái)”。
HunyuanVideo1.5通過(guò)多層次的技術(shù)創(chuàng)新,實(shí)現(xiàn)了生成效果、性能與尺寸上的平衡。
HunyuanVideo 1.5創(chuàng)新的SSTA稀疏注意力機(jī)制(全稱(chēng)Selective and Sliding Tile Attention,選擇性滑動(dòng)分塊注意力)在保證高質(zhì)量生成的同時(shí)顯著提升推理效率,配合多階段漸進(jìn)式訓(xùn)練策略,在運(yùn)動(dòng)連貫性、語(yǔ)義遵循等關(guān)鍵維度均達(dá)到商用水平。
