首頁探索正文

5分鐘AI長視頻不翻車！國產(chǎn)開源框架殺到全球第一梯隊(duì)

新聞資訊網(wǎng) 探索 2026-06-10 20:43:28

夢瑤聞樂發(fā)自凹非寺
量子位 | 公眾號 QbitAI

AIGC發(fā)展到今天，分鐘翻車生成幾秒鐘的長視AI視頻真的已經(jīng)不算新鮮事兒了。

但！國產(chǎn)微信拉票難的開源框架地方在于，讓同一個(gè)角色在幾分鐘里始終保持一致（扎心.jpg）——

多鏡頭切換，全球臉可能變了，第梯隊(duì)換場景，分鐘翻車衣服發(fā)型開始漂；人物開口，長視音色前后接不上！國產(chǎn)！開源框架

問題不在模型「不會(huì)造夢」，全球而在于它很難「記住」這個(gè)夢……

△AI生成

也正因如此，長視頻生成遲遲未能進(jìn)入全行業(yè)的分鐘翻車生產(chǎn)流程，更別說大規(guī)模商業(yè)化。長視

在長視頻生成集體卡殼的國產(chǎn)當(dāng)下，剛剛，有團(tuán)隊(duì)給出了一套新解法——

開源長音視頻生成框架JoyAI-Echo，并殺入全球長視頻生成領(lǐng)域全球「第一梯隊(duì)」。

把長視頻創(chuàng)作里角色一致性、音色穩(wěn)定性、生成速度和畫面質(zhì)量等生成痛點(diǎn)，一把梭哈～

哪怕是幾分鐘的視頻，多鏡頭、多場景、多段語音連續(xù)切換，人物形象和聲音也能狠狠穩(wěn)住。

不僅如此，支持對話式編輯的Agent能力也一起安排上了，以后我們做視頻就像和導(dǎo)演聊天一樣了！

然后嘛，我再仔細(xì)一看，這套高性能開源框架，竟然來自——

京東？微信拉票！屬實(shí)藏得太深……（震驚.jpg)

評測顯示，JoyAI-Echo在跨鏡頭一致性、語音準(zhǔn)確率（0.8646）等指標(biāo)上全面領(lǐng)先行業(yè)，甚至用戶偏好達(dá)59.4%~81.7%。

這下好了，AI視頻也能所見即所得了。

一個(gè)可交互、高一致性、可持續(xù)迭代的長視頻時(shí)代來了！

長視頻不再“跑偏”：高一致性、低延遲、實(shí)時(shí)超分

過去一年，AI視頻模型的競爭重點(diǎn)多集中在幾秒到幾十秒片段：畫質(zhì)、運(yùn)鏡、風(fēng)格、物理合理性。

各家模型卷得飛起，效果確實(shí)肉眼可見地next level，各類Benchmark評測表現(xiàn)也都非常漂亮。

然鵝吧，在AI視頻生成似乎已經(jīng)進(jìn)入成熟期的今天，一個(gè)問題依然沒有被真正解決——長視頻生成。

原因很簡單：長視頻，對整個(gè)行業(yè)來說都《太難了》…….（扎心jpg)

相比短視頻生成，長視頻不僅是在時(shí)間維度上的簡單拉長，更意味著跨鏡頭、跨場景、跨動(dòng)作的連續(xù)敘事。

但目前行業(yè)里的長視頻生成，仍然普遍存在幾個(gè)長期困境：

說話人的音色忽高忽低；生成速度也慢得離譜，往往要等上好幾分鐘才能看到結(jié)果。

這些問題背后，暴露的則是當(dāng)前模型在長時(shí)序生成上的天然挑戰(zhàn)：

模型錯(cuò)誤累積、長程時(shí)序一致性弱、推理延遲高。

最終帶來的結(jié)果就是，視頻里的人物會(huì)變臉，聲音會(huì)飄，生成還得等很久。

這些問題也直接限制了AI視頻在虛擬敘事、數(shù)字人助手、實(shí)時(shí)內(nèi)容創(chuàng)作等場景中的進(jìn)一步落地和「規(guī)模化應(yīng)用」。

△AI生成

而JoyAI-Echo給出的解法是，通過跨模態(tài)音視頻記憶庫、記憶驅(qū)動(dòng)后訓(xùn)練、輕量化實(shí)時(shí)超分讓長視頻生成更穩(wěn)。

哪怕是幾分鐘的視頻，我們也能絲滑拿下！！拒絕反復(fù)抽卡！！

跨模態(tài)音視頻記憶庫：角色再也不“變臉”

長視頻生成最讓人頭疼、行業(yè)最難啃的一塊骨頭，就是角色和聲音的「前后不一致」。

在JoyAI-Echo團(tuán)隊(duì)看來，問題的根源在于現(xiàn)有模型缺乏真正意義上的長期記憶能力。

行業(yè)里傳統(tǒng)方案、通常依賴上下文窗口保存歷史信息，但隨著視頻長度增加，早期內(nèi)容會(huì)逐漸被后續(xù)信息稀釋。

模型雖然能夠記住最近幾個(gè)鏡頭，卻很難穩(wěn)定保存數(shù)分鐘之前的人物特征！！

而JoyAI-Echo的做法是——

直接在框架里塞進(jìn)了一套「跨模態(tài)音視頻記憶庫」。

與其讓模型記住所有歷史內(nèi)容，不如把最關(guān)鍵的身份信息保存下來，并在后續(xù)生成過程中持續(xù)調(diào)用。

這樣一來，即便視頻長度來到5分鐘，角色的身份、外觀和聲音依然能夠保持高度一致！！！

這套記憶庫最大的特點(diǎn)在于，它記錄的不只是人物長相，還會(huì)同步記錄說話人的音色，并將兩者綁定在一起。

當(dāng)角色首次登場時(shí)，系統(tǒng)會(huì)提取其視覺特征和聲音特征寫入記憶庫；后續(xù)每生成一個(gè)鏡頭，都會(huì)從記憶庫中調(diào)取這些信息作為參考。

為了兼顧效果和效率，系統(tǒng)也不會(huì)無限擴(kuò)展記憶，而是保留故事開頭的關(guān)鍵鏡頭，以及最近生成的鏡頭。

這樣既不會(huì)忘記主角最初長什么樣，也始終知道劇情剛剛推進(jìn)到了哪里：

所以說JoyAI-Echo并不是讓模型擁有更大的記憶力，而是讓模型學(xué)會(huì)像人一樣記憶——

只保留最重要的信息，并在需要的時(shí)候準(zhǔn)確調(diào)用。

而這套跨模態(tài)音視頻記憶機(jī)制，也成為JoyAI-Echo實(shí)現(xiàn)5分鐘長視頻高一致性生成的核心基礎(chǔ)～

記憶驅(qū)動(dòng)后訓(xùn)練：速度提升7.5倍

對于長視頻生成來說，一致性只是第一步，生成速度同樣決定了產(chǎn)品能不能真正落地。

為此JoyAI-Echo團(tuán)隊(duì)在模型訓(xùn)練之外，又專門設(shè)計(jì)了一套記憶驅(qū)動(dòng)的后訓(xùn)練流程，在不犧牲生成質(zhì)量的前提下，把推理效率再往前推一步～

整個(gè)流程主要分為三步，首先通過SFT監(jiān)督微調(diào)，讓模型學(xué)習(xí)高質(zhì)量音視頻生成能力。

隨后利用人類反饋強(qiáng)化學(xué)習(xí)進(jìn)一步優(yōu)化人物一致性、畫面質(zhì)量以及音畫同步效果。

最后再通過DMD（Distribution Matching Distillation）技術(shù)，將復(fù)雜的大模型能力壓縮到更高效的推理模型中。

△AI生成

在整個(gè)后訓(xùn)練體系中，DMD是最關(guān)鍵的一環(huán)。

而且最最最最需要夸的一點(diǎn)是，僅DMD相關(guān)優(yōu)化就帶來了約7.5倍的推理速度提升！！

我們可以把DMD理解成一次「能力濃縮」——

先讓一個(gè)能力更強(qiáng)、但推理速度較慢的教師模型完成完整生成流程，再讓一個(gè)更加輕量的學(xué)生模型去學(xué)習(xí)和復(fù)現(xiàn)教師模型的生成結(jié)果。

這樣一來，原本需要大量擴(kuò)散步驟才能完成的生成任務(wù)，被壓縮成更少的推理步驟，模型卻依然能夠保持接近的生成效果。

如果說跨模態(tài)音視頻記憶庫解決的是「不要忘」，那么這套后訓(xùn)練體系解決的就是「別太慢」。

一個(gè)負(fù)責(zé)守住長視頻的一致性，一個(gè)負(fù)責(zé)提升長視頻的生成效率。

兩者結(jié)合，才讓JoyAI-Echo真正具備了邁向長視頻生產(chǎn)工具的基礎(chǔ)能力～

輕量化實(shí)時(shí)超分：高清輸出不卡頓

一致性有了，速度也上來了，但長視頻生成還有最后一道坎兒——清晰度。

畢竟真到了數(shù)字人、品牌營銷、短劇創(chuàng)作這些場景里，誰也不希望最后拿到的是一個(gè)糊糊的視頻……

但問題是，當(dāng)前業(yè)內(nèi)通常采用「視頻生成+離線超分」的兩階段架構(gòu)。

視頻先生成，再交給獨(dú)立超分模型處理。

這種方案雖然也能提高分辨率，但額外引入了一輪推理流程，不僅增加等待時(shí)間，還容易造成生成結(jié)果和超分結(jié)果的偏差。

意思就是，高清是高清了，可等待時(shí)間也跟著上去了。

△AI生成

而JoyAI-Echo給出的解決方法是，創(chuàng)新性地把超分能力直接塞進(jìn)生成鏈路里。

具體來說，系統(tǒng)會(huì)先生成720P視頻和對應(yīng)音頻，再通過輕量化實(shí)時(shí)超分模塊一步完成高清視頻和音頻細(xì)節(jié)增強(qiáng)。

整個(gè)超分過程只需要一次向前推理，就能直接輸出1K甚至2K分辨率結(jié)果～

這樣不僅畫面細(xì)節(jié)更豐富，音頻質(zhì)量也會(huì)同步優(yōu)化。

整個(gè)過程還不會(huì)明顯增加生成延遲，用戶也終于可以不用在「速度」和「清晰度」之間做選擇了。

對于數(shù)字人直播、實(shí)時(shí)創(chuàng)作、內(nèi)容互動(dòng)這些對延遲極其敏感的場景來說，高清輸出不卡頓，真的太香了……

Director Agent，專屬于你的AI視頻導(dǎo)演搭子！

大家都懂，現(xiàn)實(shí)中的影視制作，從來不是一次完成的。

過去的AI視頻生成，大多停留在一次性出片的階段。

從劇本、分鏡到拍攝、審片，再到返工和重拍，每一個(gè)環(huán)節(jié)都需要反復(fù)打磨。

如果其中某個(gè)鏡頭出現(xiàn)問題，創(chuàng)作者往往只能重新生成整條視頻，不僅耗時(shí)，也很難保證前后內(nèi)容的一致性。

這也是AI長視頻長期難以真正進(jìn)入生產(chǎn)環(huán)節(jié)的原因之一！！！

所以，創(chuàng)作者需要的并不只是一次性結(jié)果，還需要像真實(shí)拍攝一樣，擁有能夠規(guī)劃、生成、返工，甚至局部重拍的工具。

這個(gè)問題，JoyAI-Echo技術(shù)團(tuán)隊(duì)也想到了，于是給視頻模型配了一位「AI導(dǎo)演」——Director Agent。

我們只需要用自然語言說需求，它會(huì)自動(dòng)幫忙拆分成劇本、角色、場景和鏡頭～

具體來說，Director Agent整個(gè)技術(shù)鏈路被拆成：策劃、生成、點(diǎn)評修改三個(gè)階段。

在策劃階段，Agent更像一位「編劇兼導(dǎo)演」。

它會(huì)先理解用戶意圖，將一句自然語言需求擴(kuò)展成完整的故事框架，補(bǔ)充角色設(shè)定、場景信息和敘事邏輯，再進(jìn)一步拆解為鏡頭級規(guī)劃，最終生成符合模型訓(xùn)練格式的結(jié)構(gòu)化條件。

進(jìn)入生成階段后，Agent又變成了一位「現(xiàn)場導(dǎo)演」。

它會(huì)根據(jù)當(dāng)前鏡頭內(nèi)容，從已經(jīng)生成的歷史鏡頭中檢索最相關(guān)的信息，并將這些參考內(nèi)容與當(dāng)前劇本狀態(tài)一起整理成模型需要的輸入條件，讓生成模型能夠準(zhǔn)確調(diào)用角色、場景和劇情上下文。

△AI生成

最后來到「點(diǎn)評修改」階段，這里反倒更像影視制作里的審片環(huán)節(jié)～

無論是用戶反饋，還是自動(dòng)評價(jià)模型發(fā)現(xiàn)問題，只要角色形象、動(dòng)作表現(xiàn)、對白內(nèi)容或音畫同步出現(xiàn)偏差，Agent都能快速定位到具體鏡頭，重新調(diào)整對應(yīng)條件和記憶信息！！！

而且最重要的是，Agent只對受影響的部分進(jìn)行重生成，而不需要推倒重來，修改后的結(jié)果還會(huì)同步更新到后續(xù)劇情中，確保整個(gè)故事始終保持連貫一致～

也正因?yàn)槿绱耍琂oyAI-Echo不再只是一個(gè)負(fù)責(zé)生成視頻的模型，而更像是一套完整的長視頻創(chuàng)作系統(tǒng)。

殺入全球第一梯隊(duì)，長視頻生成開始靠近真實(shí)生產(chǎn)

光說不練假把式，從官方評測數(shù)據(jù)來看，JoyAI-Echo在長視頻生成的多個(gè)關(guān)鍵指標(biāo)上，都展現(xiàn)出了領(lǐng)先表現(xiàn)。

在用戶盲測環(huán)節(jié)，研究團(tuán)隊(duì)將JoyAI-Echo與目前代表性的長視頻模型進(jìn)行了對比，結(jié)果顯示——

在長視頻任務(wù)中，用戶有63.6%的情況下更喜歡JoyAI-Echo生成的視頻畫面。

在音頻質(zhì)量維度這一優(yōu)勢甚至達(dá)到81.7%，提示詞遵循偏好為80.6%，IP一致性偏好為59.4%。

即使放在人像短視頻這一競爭最激烈的賽道中，與主流視頻模型相比，JoyAI-Echo依然獲得了更高的視覺美學(xué)用戶偏好（58.8%vs26.5%）。

而JoyAI-Echo的發(fā)布，也同樣標(biāo)志著京東在長視頻生成領(lǐng)域進(jìn)入「全球第一梯隊(duì)」：

過去幾年，AI視頻生成雖然發(fā)展迅速，但長視頻始終停留在一個(gè)略顯尷尬的位置：

演示效果驚艷，真正投入生產(chǎn)卻困難重重。

角色容易變臉、聲音容易漂移、生成速度過慢、修改成本極高……這些問題決定了大多數(shù)長視頻作品更像是技術(shù)Demo，而非真正意義上的生產(chǎn)工具。

而JoyAI-Echo試圖解決的，恰恰是這些長期困擾行業(yè)的核心瓶頸。

更重要的是，與許多閉源模型不同，JoyAI-Echo選擇了「開源」。

這意味著長視頻生成不再只是少數(shù)頭部公司的專屬能力，而開始成為一個(gè)能夠被開發(fā)者、創(chuàng)作者和研究者共同驗(yàn)證、調(diào)用和迭代的開放工具。

△AI生成

技術(shù)框架提供了起點(diǎn)，開放則讓更多可能性慢慢長出來。

當(dāng)一致性、高分辨率、Agent等能力被開源持續(xù)驗(yàn)證和優(yōu)化后，行業(yè)內(nèi)長視頻生成的技術(shù)迭代速度可能進(jìn)一步加快。

無論是虛擬IP故事、數(shù)字人內(nèi)容、品牌營銷視頻，還是教育課件、知識講解、游戲動(dòng)畫和互動(dòng)劇情，高一致性、可控、可迭代的長視頻生產(chǎn)都能夠成為可能。

如果說過去的大模型解決的是「能不能生成視頻」的問題，那么JoyAI-Echo正在嘗試回答另一個(gè)更重要的問題：

AI能不能真正參與長視頻的內(nèi)容生產(chǎn)創(chuàng)作？

從目前的結(jié)果來看，答案已經(jīng)越來越接近肯定。

JoyAI-Echo帶來的，不僅是一款新的長視頻模型，更是一次AI視頻生產(chǎn)范式的推進(jìn)。

當(dāng)穩(wěn)定記憶、實(shí)時(shí)交互、可控修改和高效生成開始同時(shí)出現(xiàn)時(shí)，AI長視頻正在從技術(shù)展示走向生產(chǎn)工具。

一個(gè)更穩(wěn)定、更可控的AI長視頻時(shí)代，正在被推到臺前。

GitHub地址：
https://github.com/jd-opensource/JoyAI-Echo

項(xiàng)目主頁：
https://echo-team-joy-future-academy-jd.github.io/Echo-LongVideo-Page/

国产在线拍揄自揄视精品一区|求快播网站你们懂得|好老师的小兔子好软水好多|夫妻性全过程实拍|s8视频网站|精品一区二区传媒公司|男女生的节日对比

新聞資訊網(wǎng)

5分鐘AI長視頻不翻車！國產(chǎn)開源框架殺到全球第一梯隊(duì)

華爾街拋棄避險(xiǎn)對沖，最遭做空股票兩個(gè)月暴漲30%

人類藥丸？Anthropic為什么要搞AI不擴(kuò)散條約？

華爾街拋棄避險(xiǎn)對沖，最遭做空股票兩個(gè)月暴漲30%

人類藥丸？Anthropic為什么要搞AI不擴(kuò)散條約？

友情鏈接