日韩欧美日韩免费三级片AV,一道本在线男人免费视频,一曲二曲三曲天堂观看

DoNews > 專欄 > 那個做出可靈的人，回阿里又造了一匹黑馬

那個做出可靈的人，回阿里又造了一匹黑馬

字母榜 2026-04-13 17:03:31

519502

分享到

AI視頻這條賽道，最近有點冷，Seedance 2.0陷入版權爭議，OpenAI關停Sora ，讓這條賽道上空陰霾密布。

就在這個時候，阿里牽出來了一匹黑馬。

2026年4月，HappyHorse-1.0沖上Artificial Analysis榜首，在文生視頻和圖生視頻（無音頻）兩個賽道同時壓過字節(jié)、快手等對手。

張迪在2025年11月回歸阿里巴巴，接任淘天集團未來生活實驗室負責人一職，并直接向阿里媽媽CTO鄭波匯報工作。

也就是說，張迪從回歸到闖出名堂，中間也就隔了5個月左右。

關鍵在于，HappyHorse和阿里的千問一樣，開放了可商用的開源版本。

現(xiàn)在千問在阿里什么地位？它是阿里集團級的核心通用大模型底座、AI戰(zhàn)略的絕對核心載體。阿里現(xiàn)如今的一切，都是在圍繞千問進行布局。

所以HappyHorse對阿里的意義，可能也遠不止是一個刷榜秀技術的模型那么簡單。

不過在理解阿里的想法之前，我們應該先來聊聊，張迪是誰。

從阿里到快手再回阿里

張迪畢業(yè)于上海交通大學計算機專業(yè)，本碩連讀，2010年畢業(yè)后加入阿里巴巴，長期負責阿里媽媽的大數(shù)據(jù)和機器學習工程架構。

阿里媽媽做的是廣告、推薦、搜索和轉化，背后是大規(guī)模數(shù)據(jù)、大規(guī)模分發(fā)和復雜工程系統(tǒng)。這些東西聽起來沒有大模型那么熱鬧，但它們正是后來中國互聯(lián)網公司訓練AI人才的地方。

很多真正能把模型做成產品的人，并不是純粹從實驗室里出來的。他們更早經歷過搜索、推薦、廣告、內容分發(fā)這些系統(tǒng)的歷練。

這我隨便舉幾個例子你就懂了。谷歌CEO桑達爾·皮查伊，他就是做搜索欄和Youtube內容推薦出身的，微軟的CEO薩提亞·納德拉，他在微軟一開始開發(fā)的就是必應搜索引擎和微軟廣告體系。

因為這些系統(tǒng)每天都在處理海量用戶行為，也要求模型能在真實業(yè)務里穩(wěn)定運行。它不允許工程師只做一個好看的demo，它強迫你做出真正有用的東西出來，還必須在延遲、成本、效果、反饋之間反復取舍。

張迪在阿里的十年，大致就是在這樣的環(huán)境里度過的。那時候外界還沒有把所有事情都叫作大模型，但阿里內部早就有一套圍繞數(shù)據(jù)、算法和工程化的訓練場。

2020年，張迪離開阿里去了快手。

當時的短視頻平臺，已經從流量競爭進入技術競爭階段。張迪在快手歷任技術副總裁、大模型與多媒體技術團隊負責人，后來主導了可靈大模型的底層架構研發(fā)和應用落地。

可靈對快手的意義是非常重大的。

可靈讓快手從過去的 “內容分發(fā)平臺”，升級為 “內容生產基礎設施提供商”，構建了 “創(chuàng)意生成-視頻制作-一鍵分發(fā)-流量變現(xiàn)-數(shù)據(jù)迭代” 的完整閉環(huán)

2025年4月，快手成立可靈AI事業(yè)部，并升級為公司一級部門，直接向 CEO 程一笑匯報，與短視頻主業(yè)務平起平坐。

所以當他在2025年9月短暫加入B站，又在兩個月后回到阿里時，這個動作就很難只看成一次普通的人才流動。

B站需要視頻技術，阿里同樣需要視頻技術，只是阿里的需求更復雜。

快手做視頻生成，無非就是分發(fā)。但阿里要是做視頻生成，那背后牽連的環(huán)節(jié)就多了去了。有電商、廣告、直播、云服務和海外商家。

前文提到，張迪2025年11月回歸阿里后，出任淘天集團“未來生活實驗室”負責人，職級P11。

如此安排下來，阿里味還是很濃的。它沒有把視頻模型簡單放在一個純研究部門里，其位置反而更靠近淘天這樣一個交易現(xiàn)場。

換句話說，HappyHorse從構思開始，就是一個強調落地，和阿里現(xiàn)有生態(tài)綁定的產品。

五個月后，HappyHorse出現(xiàn)了。

這個速度確實快，阿里給了張迪一個新的業(yè)務場景和團隊，他把視頻模型這條路線再次打通。

他既不是從零開始進入AI視頻，也不是單純從外部空降到阿里。

他的職業(yè)路徑像一條繞出去又繞回來的線。先在阿里學會大規(guī)模商業(yè)系統(tǒng)怎么運轉，再去快手把視頻生成做成產品，然后又回到阿里，把這套能力放進更大的商業(yè)機器里。

很多公司都在搶大模型人才，但真正稀缺的人，往往是能同時理解模型、業(yè)務和組織的人。

單純會訓練模型的人很多，單純會講戰(zhàn)略的人也很多，難的是有人知道一個模型從技術路線開始，到架構設計，到訓練推理，到產品出口，到最后被商家和用戶用起來，中間每一步會在哪里卡住。

HappyHorse把張迪重新推到臺前，也讓阿里過去幾年相對分散的AI敘事有了一個更具體的人物入口。

開源模型如何擊敗閉源巨頭

HappyHorse真正引起關注的點，在于它贏得太突然了。

在視頻生成這條賽道上，海外有Runway、Pika、Luma、Google的Veo，國內有字節(jié)的Seedance、快手的可靈。阿里排不上號。

所以當HappyHorse剛屠榜的時候，大家甚至更愿意相信說這是某創(chuàng)業(yè)公司開發(fā)的模型，也不愿意相信這是阿里的模型。

HappyHorse在文本轉視頻和圖像轉視頻兩個賽道都處在第一梯隊，文本轉視頻Elo分數(shù)為1333，圖像轉視頻Elo分數(shù)為1392。

Artificial Analysis的榜單本身會隨用戶盲測不斷變化，后續(xù)頁面分數(shù)也有更新，但是它確實在用戶偏好測試中壓過了一批更早出名的閉源模型。

這事其實挺反常的。通常來說，視頻生成是最吃錢、吃數(shù)據(jù)、吃算力的方向之一。

閉源大廠可以把數(shù)據(jù)、模型細節(jié)、推理系統(tǒng)和產品體驗藏在自己平臺里，持續(xù)做內部迭代。

開源模型則要面對更多現(xiàn)實限制，它的參數(shù)要能公開，推理要能跑起來，社區(qū)要能復現(xiàn)，效果還要經得起橫向比較。

所以在HappyHorse出現(xiàn)之前，開源視頻模型大多數(shù)都是玩具，輸出的視頻不夠穩(wěn)定，人物還經常會出現(xiàn)漂移。

HappyHorse有150億參數(shù)、40層統(tǒng)一自注意力Transformer架構，把文本、視頻、音頻三種模態(tài)的token放進同一個序列里聯(lián)合建模。

這個路數(shù)和千問非常像，這也就解釋了為什么張迪僅用5個月就把HappyHorse弄出來了，很可能是沿用千問留下來的高質量原生多模態(tài)訓練方法。

像Sora這種非多模態(tài)原生的視頻生成模型，經常會出現(xiàn)人物嘴在動，聲音慢半拍的情況。并且有時候人物表情很豐富，但語氣不對。人物還有可能在聲音發(fā)出之前就行動了。

HappyHorse評分高的原因就在于，它通過原生多模態(tài)解決了這個問題。

HappyHorse原生支持英語、普通話、粵語、日語、韓語、德語、法語等多種語言的唇形同步，詞錯誤率也被拿來和同類開源模型比較。

張迪為什么要這樣做？我的理解是，如果阿里想讓視頻生這項技術進入廣告、電商、短劇、教育和直播，就不能只靠畫面漂亮。

它要能說話，要能配音，要讓聲音和畫面同時成立。

另一個關鍵點是成本和速度。

HappyHorse在單張H100 GPU上生成5秒1080p視頻約需38秒，并采用DMD-2蒸餾技術把去噪步驟壓到8步。

這是視頻生成商業(yè)化繞不開的一道坎。模型效果再好，如果生成一條短視頻成本太高、等待太久，就很難進入商家日常工作流。

商家不會為每個商品等半天，也不會為幾十個測試素材支付過高成本。

所以HappyHorse的意義不只是“能生成”，還在于它試圖把生成速度和推理成本壓到可用區(qū)間。

對開發(fā)者來說，開源意味著可以自托管、微調、接入自己的產品。對平臺來說，開源也會帶來更多社區(qū)反饋

一個閉源模型的進步主要依靠公司內部團隊，一個開源模型會被開發(fā)者拿去做各種奇怪測試，問題暴露得快，改進方向也會變多。

Artificial Analysis的視頻競技場采用用戶偏好投票，很多時候不只看某一個技術指標，更看用戶在兩段視頻之間更喜歡哪一個。

當然，張迪還不能太驕傲，一次榜單登頂不等于永遠領先。

競爭對手不會停在原地。HappyHorse現(xiàn)在贏下的只是一場公開測試，還不是整個戰(zhàn)爭。

HappyHorse如果只是一個能刷榜的模型，它的意義有限?？扇绻艹蔀榘⒗镌?、淘天業(yè)務共同使用的視頻生成底座，它就會變成一個入口。

所以說HappyHorse擊敗閉源巨頭，最有意思的地方并不只是分數(shù)領先。真正值得關注的是，它讓阿里找到了一種重新進入視頻生成牌桌的方式。

它沒有先做一個面向C端用戶的APP，也沒有只在內部做演示，而是直接拿開源模型接受全行業(yè)檢驗。

這場勝利未必會持續(xù)很久，但張迪讓外界改變了對阿里在視頻生成模型上的判斷。

新的問題變成了，阿里準備把這項能力用到哪里？

HappyHorse對阿里的意義

HappyHorse最直接的落點，是電商。

過去大家談AI視頻，最容易想到影視、短劇、廣告大片、創(chuàng)作者工具。誠然，這些都是實打實的大市場，不過它們離阿里的主業(yè)務還有一段距離。

阿里的優(yōu)勢不在于自己做一個視頻社區(qū)，也不在于讓普通用戶每天打開一個AI視頻APP消磨時間。阿里真正有優(yōu)勢的地方，是它手里有中國最密集的商品、商家、交易和廣告系統(tǒng)。

這也是為什么很多人都在意說HappyHorse誕生于淘天集團的“未來生活實驗室”。

淘天每天面對的是商家怎么賣貨，商品怎么被看見，用戶為什么點進來，又為什么下單。HappyHorse放在這里，大家自然就會想到它能不能提高商品內容生產效率，能不能提高轉化，能不能幫平臺多做生意？

對一個普通商家來說，視頻內容一直是個麻煩事。

拍一條30秒的商品視頻，你要找場景、找模特、打光、剪輯、配音。大品牌可以請團隊，中小商家更多時候只能自己湊。

很多商品賣點并不復雜，問題在于沒人把賣點拍出來。它們放在白底圖里都很普通，一旦進入具體場景，用戶才會意識到它能用來做什么。

前一陣在海外，太陽能噴泉泵這個產品賣爆了，它原本只是庭院小件，效果也就那么回事。但是被AI視頻包裝成鳥浴盆、魚池和兒童浴缸里，酷炫的噴水玩具后，所有人都在瘋搶。

AI沒有改變商品本身，卻改變了用戶理解商品的方式。它把“功能說明”變成了“使用場景”。

這正好擊中電商內容的痛點。

商品頁里寫滿參數(shù)，用戶未必有耐心看；主播講半天，用戶也未必相信。但一條十幾秒的視頻，如果能把場景講清楚，轉化效率可能會高很多。

更重要的是，AI視頻可以批量生成。商家可以為同一個商品生成兒童版、家庭版、節(jié)日版、戶外版，也可以為不同國家生成不同語言、不同人物、不同場景。

這對阿里的意義，比單純做一個視頻生成工具要大。無論是淘寶，還是天貓，上面都有大量商家，也都有大量商品數(shù)據(jù)和交易反饋。

一個AI視頻工具如果只知道生成漂亮畫面，它很快會變成素材軟件；如果它能知道這個商品在什么場景下更容易被點擊，什么文案更容易帶來加購，什么視頻前幾秒更容易留住用戶，它就會接近電商操作系統(tǒng)的一部分。

阿里比其他視頻生成模型公司多出來的，正是這個反饋閉環(huán)。

商品圖、詳情頁、評價、問答、搜索詞、點擊率、加購率、退款原因、直播間停留時間，這些東西看起來零碎，卻都是訓練電商內容能力的燃料。

HappyHorse如果接入這些反饋，就可以從“幫商家生成一條視頻”，進化到“幫商家生成更可能賣貨的視頻”。

面向淘天，它可以做主圖視頻、商品場景短片、直播切片、虛擬主播和營銷素材。

過去一個商家上新，可能只上傳幾張圖，最多再拍一條粗糙短視頻。以后它可以把商品圖、賣點、評價和人群標簽交給系統(tǒng)，讓系統(tǒng)生成多條不同版本的視頻，再用真實投放和成交數(shù)據(jù)篩選出更有效的那一條。

這個過程如果跑順了，平臺內容供給會明顯增加，中小商家的內容門檻也會下降。

不過，AI視頻帶貨也有風險。它可以放大賣點，也可能放大幻覺。一個噴泉泵在AI視頻里噴得很高，現(xiàn)實里達不到那樣的效果。

阿里的機會不該是縱容商家用AI造夢，重點應該放在商品參數(shù)、實拍素材、買家評價和平臺審核上，讓生成內容有邊界。

3月下旬，OpenAI宣布關停Sora獨立應用和相關API。原因很現(xiàn)實，視頻生成太燒錢，用戶留存撐不起成本，OpenAI要把算力放回編碼、企業(yè)服務和機器人方向。

Sora倒在了商業(yè)賬上。

字節(jié)也在另一頭遇到麻煩。Seedance 2.0雖然效果也很猛，但是因為版權問題，字節(jié)暫停了Seedance 2.0的全球發(fā)布。

模型訓練得越強，就越容易踩進版權、肖像權和訓練數(shù)據(jù)的泥潭。

這時再看張迪帶隊做出的HappyHorse，它有清晰的商業(yè)場景。而且阿里手里的商品圖、商家素材、實拍視頻和交易反饋，天然比影視IP更適合可控生成。

所以HappyHorse的價值，不只在榜單。它給AI視頻找了一個更穩(wěn)的落點。

特別聲明：本文為合作媒體授權DoNews專欄轉載，文章版權歸原作者及原出處所有。文章系作者個人觀點，不代表DoNews專欄的立場，轉載請聯(lián)系原作者及原出處獲取授權。(有任何疑問都請聯(lián)系idonews@donews.com)

標簽: 阿里巴巴可靈字節(jié)跳動 HappyHorse AI

關于我們| 電子協(xié)議| 合作聯(lián)系| 蜀ICP備2024059877號-1

網站信息

京公網安備11010802023059號