久久久九九九一级大片a|一级黄片黄片一级一级|三级无码视频免费操人视频|成人精品A片亚州一区二区|亚洲日韩欧美在线一二区|91丝袜一区二区|国摸私拍电影一区二区爱|免费久久久久久久久久久久|免费国产黄色av发布网址|国产精品人妻人伦a 6 2v久动漫

阿里HappyHorse-1.0視頻模型宣布開(kāi)源

DoNews4月9日消息,據(jù)AIPress報(bào)道,剛剛,拳打字節(jié)Seedance2.0,腳踢快手可靈的AI視頻生成模型Happy Horse 1.0開(kāi)源了。目前在官網(wǎng)可通過(guò)文本生成和圖片生成兩種方式體驗(yàn)生成視頻。不同模型對(duì)制作時(shí)長(zhǎng)的限制各不相同。

Happy Horse 1.0的核心賣點(diǎn),是把視頻和音頻的生成徹底合并進(jìn)了同一個(gè)流程。大多數(shù)開(kāi)源視頻模型的工作方式是:先生成一段沒(méi)有聲音的視頻,再找另一個(gè)模型配音,再找另一個(gè)工具做口型對(duì)齊,幾道工序下來(lái),時(shí)間和誤差都在疊加。

而Happy Horse 1.0用一個(gè)統(tǒng)一的Transformer同時(shí)處理視頻和音頻,一次前向推理直接輸出帶聲音的成片,口型、腳步聲、環(huán)境音全部在同一個(gè)過(guò)程里生成,不需要任何后期拼接。

模型參數(shù)量是150億,架構(gòu)上是純自注意力Transformer,沒(méi)有交叉注意力,沒(méi)有獨(dú)立的音頻分支,也沒(méi)有專門的條件網(wǎng)絡(luò)。整體設(shè)計(jì)刻意追求極簡(jiǎn)——把所有模態(tài)(文本、圖像、視頻、音頻)的token拼成同一個(gè)序列,讓模型在去噪過(guò)程中自己學(xué)會(huì)跨模態(tài)對(duì)齊。

在結(jié)構(gòu)上,40層Transformer采用了一種“三明治”布局:頭4層和尾4層用模態(tài)專屬的投影層處理各自的輸入輸出,中間32層則是所有模態(tài)共享參數(shù)。實(shí)際的跨模態(tài)推理就發(fā)生在這32層里,這也是整個(gè)架構(gòu)參數(shù)效率最高的地方。

此外,每個(gè)注意力頭都有一個(gè)可學(xué)習(xí)的標(biāo)量門控,用sigmoid激活,專門用來(lái)穩(wěn)定多模態(tài)聯(lián)合訓(xùn)練時(shí)的梯度——畢竟音頻損失和視頻損失同時(shí)反傳,很容易互相打架。

速度方面,模型采用了DMD-2蒸餾技術(shù)(Distribution Matching Distillation v2),把去噪步數(shù)從通常的25到50步壓縮到了8步,同時(shí)不需要無(wú)分類器引導(dǎo)(CFG),這一項(xiàng)本身就能砍掉將近一半的計(jì)算量。再配合MagiCompiler全圖編譯運(yùn)行時(shí)帶來(lái)的約1.2倍額外加速,在單張H100上,生成一段1080p視頻只需要大約38秒,256p的預(yù)覽版本則在2秒左右就能出來(lái)。

同時(shí),模型原生支持英語(yǔ)、普通話、粵語(yǔ)、日語(yǔ)、韓語(yǔ)、德語(yǔ)和法語(yǔ)七種語(yǔ)言唇形同步,這些語(yǔ)言的口型、語(yǔ)調(diào)和語(yǔ)音時(shí)序是和視頻一起聯(lián)合訓(xùn)練出來(lái)的,不是后期貼上去的。

阿里HappyHorse-1.0視頻模型宣布開(kāi)源
掃描二維碼查看原文
分享自DoNews
Copyright ? DoNews 2000-2026 All Rights Reserved
蜀ICP備2024059877號(hào)-1