5分鐘AI長視頻不翻車!國產(chǎn)開源框架殺到全球第一梯隊(duì)
夢瑤 聞樂 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
AIGC發(fā)展到今天,分鐘翻車生成幾秒鐘的長視AI視頻真的已經(jīng)不算新鮮事兒了。
但!國產(chǎn)微信拉票難的開源框架地方在于,讓同一個(gè)角色在幾分鐘里始終保持一致(扎心.jpg)——
多鏡頭切換,全球臉可能變了,第梯隊(duì)換場景,分鐘翻車衣服發(fā)型開始漂;人物開口,長視音色前后接不上!國產(chǎn)!開源框架
問題不在模型「不會(huì)造夢」,全球而在于它很難「記住」這個(gè)夢……
![]()
△AI生成
也正因如此,長視頻生成遲遲未能進(jìn)入全行業(yè)的分鐘翻車生產(chǎn)流程,更別說大規(guī)模商業(yè)化。長視
在長視頻生成集體卡殼的國產(chǎn)當(dāng)下,剛剛,有團(tuán)隊(duì)給出了一套新解法——
開源長音視頻生成框架JoyAI-Echo,并殺入全球長視頻生成領(lǐng)域全球「第一梯隊(duì)」。
把長視頻創(chuàng)作里角色一致性、音色穩(wěn)定性、生成速度和畫面質(zhì)量等生成痛點(diǎn),一把梭哈~
哪怕是幾分鐘的視頻,多鏡頭、多場景、多段語音連續(xù)切換,人物形象和聲音也能狠狠穩(wěn)住。
![]()
不僅如此,支持對話式編輯的Agent能力也一起安排上了,以后我們做視頻就像和導(dǎo)演聊天一樣了!
然后嘛,我再仔細(xì)一看,這套高性能開源框架,竟然來自——
京東?微信拉票!屬實(shí)藏得太深……(震驚.jpg)
評測顯示,JoyAI-Echo在跨鏡頭一致性、語音準(zhǔn)確率(0.8646)等指標(biāo)上全面領(lǐng)先行業(yè),甚至用戶偏好達(dá)59.4%~81.7%。
這下好了,AI視頻也能所見即所得了。
一個(gè)可交互、高一致性、可持續(xù)迭代的長視頻時(shí)代來了!
長視頻不再“跑偏”:高一致性、低延遲、實(shí)時(shí)超分
過去一年,AI視頻模型的競爭重點(diǎn)多集中在幾秒到幾十秒片段:畫質(zhì)、運(yùn)鏡、風(fēng)格、物理合理性。
各家模型卷得飛起,效果確實(shí)肉眼可見地next level,各類Benchmark評測表現(xiàn)也都非常漂亮。
然鵝吧,在AI視頻生成似乎已經(jīng)進(jìn)入成熟期的今天,一個(gè)問題依然沒有被真正解決——長視頻生成。
原因很簡單:長視頻,對整個(gè)行業(yè)來說都《太難了》…….(扎心jpg)
![]()
相比短視頻生成,長視頻不僅是在時(shí)間維度上的簡單拉長,更意味著跨鏡頭、跨場景、跨動(dòng)作的連續(xù)敘事。
但目前行業(yè)里的長視頻生成,仍然普遍存在幾個(gè)長期困境:
說話人的音色忽高忽低;生成速度也慢得離譜,往往要等上好幾分鐘才能看到結(jié)果。
這些問題背后,暴露的則是當(dāng)前模型在長時(shí)序生成上的天然挑戰(zhàn):
模型錯(cuò)誤累積、長程時(shí)序一致性弱、推理延遲高。
最終帶來的結(jié)果就是,視頻里的人物會(huì)變臉,聲音會(huì)飄,生成還得等很久。
這些問題也直接限制了AI視頻在虛擬敘事、數(shù)字人助手、實(shí)時(shí)內(nèi)容創(chuàng)作等場景中的進(jìn)一步落地和「規(guī)模化應(yīng)用」。
![]()
△AI生成
而JoyAI-Echo給出的解法是,通過跨模態(tài)音視頻記憶庫、記憶驅(qū)動(dòng)后訓(xùn)練、輕量化實(shí)時(shí)超分讓長視頻生成更穩(wěn)。
哪怕是幾分鐘的視頻,我們也能絲滑拿下!!拒絕反復(fù)抽卡!!
跨模態(tài)音視頻記憶庫:角色再也不“變臉”
長視頻生成最讓人頭疼、行業(yè)最難啃的一塊骨頭,就是角色和聲音的「前后不一致」。
在JoyAI-Echo團(tuán)隊(duì)看來,問題的根源在于現(xiàn)有模型缺乏真正意義上的長期記憶能力。
行業(yè)里傳統(tǒng)方案、通常依賴上下文窗口保存歷史信息,但隨著視頻長度增加,早期內(nèi)容會(huì)逐漸被后續(xù)信息稀釋。
模型雖然能夠記住最近幾個(gè)鏡頭,卻很難穩(wěn)定保存數(shù)分鐘之前的人物特征!!
而JoyAI-Echo的做法是——
直接在框架里塞進(jìn)了一套「跨模態(tài)音視頻記憶庫」。
與其讓模型記住所有歷史內(nèi)容,不如把最關(guān)鍵的身份信息保存下來,并在后續(xù)生成過程中持續(xù)調(diào)用。
這樣一來,即便視頻長度來到5分鐘,角色的身份、外觀和聲音依然能夠保持高度一致!!!
這套記憶庫最大的特點(diǎn)在于,它記錄的不只是人物長相,還會(huì)同步記錄說話人的音色,并將兩者綁定在一起。
當(dāng)角色首次登場時(shí),系統(tǒng)會(huì)提取其視覺特征和聲音特征寫入記憶庫;后續(xù)每生成一個(gè)鏡頭,都會(huì)從記憶庫中調(diào)取這些信息作為參考。
為了兼顧效果和效率,系統(tǒng)也不會(huì)無限擴(kuò)展記憶,而是保留故事開頭的關(guān)鍵鏡頭,以及最近生成的鏡頭。
這樣既不會(huì)忘記主角最初長什么樣,也始終知道劇情剛剛推進(jìn)到了哪里:
![]()
所以說JoyAI-Echo并不是讓模型擁有更大的記憶力,而是讓模型學(xué)會(huì)像人一樣記憶——
只保留最重要的信息,并在需要的時(shí)候準(zhǔn)確調(diào)用。
而這套跨模態(tài)音視頻記憶機(jī)制,也成為JoyAI-Echo實(shí)現(xiàn)5分鐘長視頻高一致性生成的核心基礎(chǔ)~
記憶驅(qū)動(dòng)后訓(xùn)練:速度提升7.5倍
對于長視頻生成來說,一致性只是第一步,生成速度同樣決定了產(chǎn)品能不能真正落地。
為此JoyAI-Echo團(tuán)隊(duì)在模型訓(xùn)練之外,又專門設(shè)計(jì)了一套記憶驅(qū)動(dòng)的后訓(xùn)練流程,在不犧牲生成質(zhì)量的前提下,把推理效率再往前推一步~
整個(gè)流程主要分為三步,首先通過SFT監(jiān)督微調(diào),讓模型學(xué)習(xí)高質(zhì)量音視頻生成能力。
隨后利用人類反饋強(qiáng)化學(xué)習(xí)進(jìn)一步優(yōu)化人物一致性、畫面質(zhì)量以及音畫同步效果。
最后再通過DMD(Distribution Matching Distillation)技術(shù),將復(fù)雜的大模型能力壓縮到更高效的推理模型中。
![]()
△AI生成
在整個(gè)后訓(xùn)練體系中,DMD是最關(guān)鍵的一環(huán)。
而且最最最最需要夸的一點(diǎn)是,僅DMD相關(guān)優(yōu)化就帶來了約7.5倍的推理速度提升!!
我們可以把DMD理解成一次「能力濃縮」——
先讓一個(gè)能力更強(qiáng)、但推理速度較慢的教師模型完成完整生成流程,再讓一個(gè)更加輕量的學(xué)生模型去學(xué)習(xí)和復(fù)現(xiàn)教師模型的生成結(jié)果。
![]()
這樣一來,原本需要大量擴(kuò)散步驟才能完成的生成任務(wù),被壓縮成更少的推理步驟,模型卻依然能夠保持接近的生成效果。
如果說跨模態(tài)音視頻記憶庫解決的是「不要忘」,那么這套后訓(xùn)練體系解決的就是「別太慢」。
一個(gè)負(fù)責(zé)守住長視頻的一致性,一個(gè)負(fù)責(zé)提升長視頻的生成效率。
兩者結(jié)合,才讓JoyAI-Echo真正具備了邁向長視頻生產(chǎn)工具的基礎(chǔ)能力~
輕量化實(shí)時(shí)超分:高清輸出不卡頓
一致性有了,速度也上來了,但長視頻生成還有最后一道坎兒——清晰度。
畢竟真到了數(shù)字人、品牌營銷、短劇創(chuàng)作這些場景里,誰也不希望最后拿到的是一個(gè)糊糊的視頻……
但問題是,當(dāng)前業(yè)內(nèi)通常采用「視頻生成+離線超分」的兩階段架構(gòu)。
視頻先生成,再交給獨(dú)立超分模型處理。
這種方案雖然也能提高分辨率,但額外引入了一輪推理流程,不僅增加等待時(shí)間,還容易造成生成結(jié)果和超分結(jié)果的偏差。
意思就是,高清是高清了,可等待時(shí)間也跟著上去了。
![]()
△AI生成
而JoyAI-Echo給出的解決方法是,創(chuàng)新性地把超分能力直接塞進(jìn)生成鏈路里。
具體來說,系統(tǒng)會(huì)先生成720P視頻和對應(yīng)音頻,再通過輕量化實(shí)時(shí)超分模塊一步完成高清視頻和音頻細(xì)節(jié)增強(qiáng)。
整個(gè)超分過程只需要一次向前推理,就能直接輸出1K甚至2K分辨率結(jié)果~
這樣不僅畫面細(xì)節(jié)更豐富,音頻質(zhì)量也會(huì)同步優(yōu)化。
整個(gè)過程還不會(huì)明顯增加生成延遲,用戶也終于可以不用在「速度」和「清晰度」之間做選擇了。
對于數(shù)字人直播、實(shí)時(shí)創(chuàng)作、內(nèi)容互動(dòng)這些對延遲極其敏感的場景來說,高清輸出不卡頓,真的太香了……
Director Agent,專屬于你的AI視頻導(dǎo)演搭子!
大家都懂,現(xiàn)實(shí)中的影視制作,從來不是一次完成的。
過去的AI視頻生成,大多停留在一次性出片的階段。
從劇本、分鏡到拍攝、審片,再到返工和重拍,每一個(gè)環(huán)節(jié)都需要反復(fù)打磨。
如果其中某個(gè)鏡頭出現(xiàn)問題,創(chuàng)作者往往只能重新生成整條視頻,不僅耗時(shí),也很難保證前后內(nèi)容的一致性。
這也是AI長視頻長期難以真正進(jìn)入生產(chǎn)環(huán)節(jié)的原因之一!!!
所以,創(chuàng)作者需要的并不只是一次性結(jié)果,還需要像真實(shí)拍攝一樣,擁有能夠規(guī)劃、生成、返工,甚至局部重拍的工具。
這個(gè)問題,JoyAI-Echo技術(shù)團(tuán)隊(duì)也想到了,于是給視頻模型配了一位「AI導(dǎo)演」——Director Agent。
我們只需要用自然語言說需求,它會(huì)自動(dòng)幫忙拆分成劇本、角色、場景和鏡頭~
![]()
具體來說,Director Agent整個(gè)技術(shù)鏈路被拆成:策劃、生成、點(diǎn)評修改三個(gè)階段。
在策劃階段,Agent更像一位「編劇兼導(dǎo)演」。
它會(huì)先理解用戶意圖,將一句自然語言需求擴(kuò)展成完整的故事框架,補(bǔ)充角色設(shè)定、場景信息和敘事邏輯,再進(jìn)一步拆解為鏡頭級規(guī)劃,最終生成符合模型訓(xùn)練格式的結(jié)構(gòu)化條件。
進(jìn)入生成階段后,Agent又變成了一位「現(xiàn)場導(dǎo)演」。
它會(huì)根據(jù)當(dāng)前鏡頭內(nèi)容,從已經(jīng)生成的歷史鏡頭中檢索最相關(guān)的信息,并將這些參考內(nèi)容與當(dāng)前劇本狀態(tài)一起整理成模型需要的輸入條件,讓生成模型能夠準(zhǔn)確調(diào)用角色、場景和劇情上下文。
![]()
△AI生成
最后來到「點(diǎn)評修改」階段,這里反倒更像影視制作里的審片環(huán)節(jié)~
無論是用戶反饋,還是自動(dòng)評價(jià)模型發(fā)現(xiàn)問題,只要角色形象、動(dòng)作表現(xiàn)、對白內(nèi)容或音畫同步出現(xiàn)偏差,Agent都能快速定位到具體鏡頭,重新調(diào)整對應(yīng)條件和記憶信息!!!
而且最重要的是,Agent只對受影響的部分進(jìn)行重生成,而不需要推倒重來,修改后的結(jié)果還會(huì)同步更新到后續(xù)劇情中,確保整個(gè)故事始終保持連貫一致~
也正因?yàn)槿绱耍琂oyAI-Echo不再只是一個(gè)負(fù)責(zé)生成視頻的模型,而更像是一套完整的長視頻創(chuàng)作系統(tǒng)。
殺入全球第一梯隊(duì),長視頻生成開始靠近真實(shí)生產(chǎn)
光說不練假把式,從官方評測數(shù)據(jù)來看,JoyAI-Echo在長視頻生成的多個(gè)關(guān)鍵指標(biāo)上,都展現(xiàn)出了領(lǐng)先表現(xiàn)。
在用戶盲測環(huán)節(jié),研究團(tuán)隊(duì)將JoyAI-Echo與目前代表性的長視頻模型進(jìn)行了對比,結(jié)果顯示——
在長視頻任務(wù)中,用戶有63.6%的情況下更喜歡JoyAI-Echo生成的視頻畫面。
在音頻質(zhì)量維度這一優(yōu)勢甚至達(dá)到81.7%,提示詞遵循偏好為80.6%,IP一致性偏好為59.4%。
即使放在人像短視頻這一競爭最激烈的賽道中,與主流視頻模型相比,JoyAI-Echo依然獲得了更高的視覺美學(xué)用戶偏好(58.8%vs26.5%)。
而JoyAI-Echo的發(fā)布,也同樣標(biāo)志著京東在長視頻生成領(lǐng)域進(jìn)入「全球第一梯隊(duì)」:
![]()
過去幾年,AI視頻生成雖然發(fā)展迅速,但長視頻始終停留在一個(gè)略顯尷尬的位置:
演示效果驚艷,真正投入生產(chǎn)卻困難重重。
角色容易變臉、聲音容易漂移、生成速度過慢、修改成本極高……這些問題決定了大多數(shù)長視頻作品更像是技術(shù)Demo,而非真正意義上的生產(chǎn)工具。
而JoyAI-Echo試圖解決的,恰恰是這些長期困擾行業(yè)的核心瓶頸。
更重要的是,與許多閉源模型不同,JoyAI-Echo選擇了「開源」。
這意味著長視頻生成不再只是少數(shù)頭部公司的專屬能力,而開始成為一個(gè)能夠被開發(fā)者、創(chuàng)作者和研究者共同驗(yàn)證、調(diào)用和迭代的開放工具。
![]()
△AI生成
技術(shù)框架提供了起點(diǎn),開放則讓更多可能性慢慢長出來。
當(dāng)一致性、高分辨率、Agent等能力被開源持續(xù)驗(yàn)證和優(yōu)化后,行業(yè)內(nèi)長視頻生成的技術(shù)迭代速度可能進(jìn)一步加快。
無論是虛擬IP故事、數(shù)字人內(nèi)容、品牌營銷視頻,還是教育課件、知識講解、游戲動(dòng)畫和互動(dòng)劇情,高一致性、可控、可迭代的長視頻生產(chǎn)都能夠成為可能。
如果說過去的大模型解決的是「能不能生成視頻」的問題,那么JoyAI-Echo正在嘗試回答另一個(gè)更重要的問題:
AI能不能真正參與長視頻的內(nèi)容生產(chǎn)創(chuàng)作?
從目前的結(jié)果來看,答案已經(jīng)越來越接近肯定。
JoyAI-Echo帶來的,不僅是一款新的長視頻模型,更是一次AI視頻生產(chǎn)范式的推進(jìn)。
當(dāng)穩(wěn)定記憶、實(shí)時(shí)交互、可控修改和高效生成開始同時(shí)出現(xiàn)時(shí),AI長視頻正在從技術(shù)展示走向生產(chǎn)工具。
一個(gè)更穩(wěn)定、更可控的AI長視頻時(shí)代,正在被推到臺前。
GitHub地址:
https://github.com/jd-opensource/JoyAI-Echo
項(xiàng)目主頁:
https://echo-team-joy-future-academy-jd.github.io/Echo-LongVideo-Page/