|
近日,數(shù)硬阿里通義實(shí)驗(yàn)室低調(diào)推出的剛旗新一代模型Z-Image-Turbo迅速成為焦點(diǎn)。 數(shù)據(jù)顯示,艦?zāi)_@張細(xì)節(jié)繁復(fù)的型阿新生型掀圖像在RTX4090顯卡上僅耗時(shí)2.3秒即渲染完成,而顯存占用指針?lè)€(wěn)穩(wěn)地停在了13GB。圖模 這一成績(jī)讓無(wú)數(shù)圍觀的數(shù)硬開(kāi)發(fā)者和硬件發(fā)燒友瞬間安靜了下來(lái),因?yàn)檫@意味著一個(gè)參數(shù)量?jī)H為6B的剛旗輕量級(jí)模型,在實(shí)測(cè)表現(xiàn)上不僅追平,艦?zāi)I踔列》搅耸忻嫔媳姸鄥?shù)量在20B以上的型阿新生型掀閉源旗艦?zāi)P汀?/p> 官方測(cè)試表明,圖模該模型僅需8步采樣即可交付印刷級(jí)別的數(shù)硬畫(huà)質(zhì)。 更為重要的剛旗是,它極大地降低了硬件門(mén)檻,艦?zāi)?span style="color:#ff0000;">消費(fèi)級(jí)顯卡RTX 30606G版本即可流暢運(yùn)行,型阿新生型掀最高顯存占用也被嚴(yán)格控制在16G以內(nèi)。圖模這對(duì)于廣大并沒(méi)有頂級(jí)計(jì)算資源的獨(dú)立創(chuàng)作者而言,無(wú)疑是一次真正的算力解放。 在生成質(zhì)量與語(yǔ)義理解方面,Z-Image-Turbo展現(xiàn)出了對(duì)中文語(yǔ)境的深刻洞察。它攻克了長(zhǎng)期困擾AI繪畫(huà)界的痛點(diǎn),即對(duì)超長(zhǎng)中文嵌套指令的理解能力。 無(wú)論是夜晚的陽(yáng)光這種充滿矛盾修辭的抽象描述,還是左手拿著奶茶、右手手機(jī)屏幕顯示今日新聞這種涉及多物體、多空間關(guān)系的復(fù)雜指令,模型都能自動(dòng)進(jìn)行邏輯糾偏并精準(zhǔn)呈現(xiàn)。 特別是在文字生成領(lǐng)域,它徹底告別了以往AI常見(jiàn)的鬼畫(huà)符現(xiàn)象,無(wú)論是中文漢字還是英文字母,都能清晰準(zhǔn)確地融合在畫(huà)面之中。 從視覺(jué)細(xì)節(jié)來(lái)看,皮膚的毛孔紋理、玻璃材質(zhì)的復(fù)雜反射、雨霧天氣下的逆光效果以及電影級(jí)的景深處理,Z-Image均表現(xiàn)在線。憑借這些硬實(shí)力,該模型在權(quán)威的Elo人工偏好榜單上迅速攀升,被評(píng)測(cè)者抬進(jìn)了開(kāi)源世界的第一梯隊(duì)。 這一系列性能飛躍的背后,隱藏著團(tuán)隊(duì)在底層架構(gòu)上的大膽創(chuàng)新。Z-Image采用了全新的S3-DiT架構(gòu),這是一種單流擴(kuò)散Transformer設(shè)計(jì)。 它打破了傳統(tǒng)模型處理信息的壁壘,將文本語(yǔ)義、視覺(jué)語(yǔ)義與圖像Token串聯(lián)成一條單一的流進(jìn)行處理。這種設(shè)計(jì)使得模型在將參數(shù)量砍到競(jìng)爭(zhēng)對(duì)手三分之一的同時(shí),推理效率卻直接拉滿。 除了基礎(chǔ)模型,團(tuán)隊(duì)還順手發(fā)布了Z-Image-Edit工具,讓修改圖片變得像聊天一樣簡(jiǎn)單。用戶只需輸入一句自然語(yǔ)言,就能實(shí)現(xiàn)原圖的換頭改景,極大地豐富了社區(qū)玩家的可玩性。 雖然阿里方面尚未正式官宣是否會(huì)進(jìn)行完全的開(kāi)源,但目前的動(dòng)作已誠(chéng)意十足。 該模型已同步上架ModelScope與HuggingFace兩大平臺(tái),相關(guān)的PullRequest代碼也已合并進(jìn)主流庫(kù)diffusers的主分支中,開(kāi)發(fā)者只需通過(guò)pip一行命令即可加載調(diào)用。 Z-Image的出現(xiàn)就像是一聲發(fā)令槍?zhuān)瑯?biāo)志著圖像生成賽道正式邁入了輕量高質(zhì)的新時(shí)代。 當(dāng)16G顯存成為運(yùn)行門(mén)檻的上限,Midjourney和Flux等商業(yè)巨頭或許不得不開(kāi)始重新思考其定價(jià)策略,用戶會(huì)用腳投票選擇那個(gè)既快又好,還跑得動(dòng)的模型。 |