国产在线拍揄自揄视精品一区|求快播网站你们懂得|好老师的小兔子好软水好多|夫妻性全过程实拍|s8视频网站|精品一区二区传媒公司|男女生的节日对比

5分鐘AI長視頻不翻車!國產開源框架殺到全球第一梯隊

夢瑤 聞樂 發自 凹非寺
量子位 | 公眾號 QbitAI

AIGC發展到今天,分鐘翻車生成幾秒鐘的長視AI視頻真的已經不算新鮮事兒了。

但!國產專業拉票團隊難的開源框架地方在于,讓同一個角色在幾分鐘里始終保持一致(扎心.jpg)——

多鏡頭切換,全球臉可能變了,第梯隊換場景,分鐘翻車衣服發型開始漂;人物開口,長視音色前后接不上!國產!開源框架

問題不在模型「不會造夢」,全球而在于它很難「記住」這個夢……



△AI生成

也正因如此,長視頻生成遲遲未能進入全行業的分鐘翻車生產流程,更別說大規模商業化。長視

在長視頻生成集體卡殼的國產當下,剛剛,有團隊給出了一套新解法——

開源長音視頻生成框架JoyAI-Echo,并殺入全球長視頻生成領域全球「第一梯隊」。

把長視頻創作里角色一致性、音色穩定性、生成速度畫面質量等生成痛點,一把梭哈~

哪怕是幾分鐘的視頻,多鏡頭、多場景、多段語音連續切換,人物形象和聲音也能狠狠穩住。



不僅如此,支持對話式編輯的Agent能力也一起安排上了,以后我們做視頻就像和導演聊天一樣了!

然后嘛,我再仔細一看,這套高性能開源框架,竟然來自——

京東專業拉票團隊!屬實藏得太深……(震驚.jpg)

評測顯示,JoyAI-Echo在跨鏡頭一致性、語音準確率(0.8646)等指標上全面領先行業,甚至用戶偏好達59.4%~81.7%。

這下好了,AI視頻也能所見即所得了。

一個可交互、高一致性、可持續迭代的長視頻時代來了!

長視頻不再“跑偏”:高一致性、低延遲、實時超分

過去一年,AI視頻模型的競爭重點多集中在幾秒到幾十秒片段:畫質、運鏡、風格、物理合理性。

各家模型卷得飛起,效果確實肉眼可見地next level,各類Benchmark評測表現也都非常漂亮。

然鵝吧,在AI視頻生成似乎已經進入成熟期的今天,一個問題依然沒有被真正解決——長視頻生成

原因很簡單:長視頻,對整個行業來說都《太難了》…….(扎心jpg)



相比短視頻生成,長視頻不僅是在時間維度上的簡單拉長,更意味著跨鏡頭、跨場景、跨動作的連續敘事。

但目前行業里的長視頻生成,仍然普遍存在幾個長期困境:

說話人的音色忽高忽低;生成速度也慢得離譜,往往要等上好幾分鐘才能看到結果。

這些問題背后,暴露的則是當前模型在長時序生成上的天然挑戰:

模型錯誤累積、長程時序一致性弱、推理延遲高。

最終帶來的結果就是,視頻里的人物會變臉,聲音會飄,生成還得等很久。

這些問題也直接限制了AI視頻在虛擬敘事、數字人助手、實時內容創作等場景中的進一步落地和「規模化應用」。



△AI生成

而JoyAI-Echo給出的解法是,通過跨模態音視頻記憶庫、記憶驅動后訓練、輕量化實時超分讓長視頻生成更穩。

哪怕是幾分鐘的視頻,我們也能絲滑拿下!!拒絕反復抽卡!!

跨模態音視頻記憶庫:角色再也不“變臉”

長視頻生成最讓人頭疼、行業最難啃的一塊骨頭,就是角色和聲音的「前后不一致」。

在JoyAI-Echo團隊看來,問題的根源在于現有模型缺乏真正意義上的長期記憶能力

行業里傳統方案、通常依賴上下文窗口保存歷史信息,但隨著視頻長度增加,早期內容會逐漸被后續信息稀釋。

模型雖然能夠記住最近幾個鏡頭,卻很難穩定保存數分鐘之前的人物特征!!

JoyAI-Echo的做法是——

直接在框架里塞進了一套「跨模態音視頻記憶庫」

與其讓模型記住所有歷史內容,不如把最關鍵的身份信息保存下來,并在后續生成過程中持續調用。

這樣一來,即便視頻長度來到5分鐘,角色的身份、外觀和聲音依然能夠保持高度一致!!!

這套記憶庫最大的特點在于,它記錄的不只是人物長相,還會同步記錄說話人的音色,并將兩者綁定在一起。

當角色首次登場時,系統會提取其視覺特征和聲音特征寫入記憶庫;后續每生成一個鏡頭,都會從記憶庫中調取這些信息作為參考。

為了兼顧效果和效率,系統也不會無限擴展記憶,而是保留故事開頭的關鍵鏡頭,以及最近生成的鏡頭。

這樣既不會忘記主角最初長什么樣,也始終知道劇情剛剛推進到了哪里:



所以說JoyAI-Echo并不是讓模型擁有更大的記憶力,而是讓模型學會像人一樣記憶——

只保留最重要的信息,并在需要的時候準確調用。

而這套跨模態音視頻記憶機制,也成為JoyAI-Echo實現5分鐘長視頻高一致性生成的核心基礎~

記憶驅動后訓練:速度提升7.5倍

對于長視頻生成來說,一致性只是第一步,生成速度同樣決定了產品能不能真正落地。

為此JoyAI-Echo團隊在模型訓練之外,又專門設計了一套記憶驅動的后訓練流程,在不犧牲生成質量的前提下,把推理效率再往前推一步~

整個流程主要分為三步,首先通過SFT監督微調,讓模型學習高質量音視頻生成能力。

隨后利用人類反饋強化學習進一步優化人物一致性、畫面質量以及音畫同步效果。

最后再通過DMD(Distribution Matching Distillation)技術,將復雜的大模型能力壓縮到更高效的推理模型中。



△AI生成

在整個后訓練體系中,DMD是最關鍵的一環。

而且最最最最需要夸的一點是,僅DMD相關優化就帶來了約7.5倍的推理速度提升!!

我們可以把DMD理解成一次「能力濃縮」——

先讓一個能力更強、但推理速度較慢的教師模型完成完整生成流程,再讓一個更加輕量的學生模型去學習和復現教師模型的生成結果。



這樣一來,原本需要大量擴散步驟才能完成的生成任務,被壓縮成更少的推理步驟,模型卻依然能夠保持接近的生成效果。

如果說跨模態音視頻記憶庫解決的是「不要忘」,那么這套后訓練體系解決的就是「別太慢」。

一個負責守住長視頻的一致性,一個負責提升長視頻的生成效率。

兩者結合,才讓JoyAI-Echo真正具備了邁向長視頻生產工具的基礎能力~

輕量化實時超分:高清輸出不卡頓

一致性有了,速度也上來了,但長視頻生成還有最后一道坎兒——清晰度。

畢竟真到了數字人、品牌營銷、短劇創作這些場景里,誰也不希望最后拿到的是一個糊糊的視頻……

但問題是,當前業內通常采用「視頻生成+離線超分」的兩階段架構。

視頻先生成,再交給獨立超分模型處理。

這種方案雖然也能提高分辨率,但額外引入了一輪推理流程,不僅增加等待時間,還容易造成生成結果和超分結果的偏差。

意思就是,高清是高清了,可等待時間也跟著上去了。



△AI生成

而JoyAI-Echo給出的解決方法是,創新性地把超分能力直接塞進生成鏈路里

具體來說,系統會先生成720P視頻和對應音頻,再通過輕量化實時超分模塊一步完成高清視頻和音頻細節增強。

整個超分過程只需要一次向前推理,就能直接輸出1K甚至2K分辨率結果~

這樣不僅畫面細節更豐富,音頻質量也會同步優化。

整個過程還不會明顯增加生成延遲,用戶也終于可以不用在「速度」和「清晰度」之間做選擇了。

對于數字人直播、實時創作、內容互動這些對延遲極其敏感的場景來說,高清輸出不卡頓,真的太香了……

Director Agent,專屬于你的AI視頻導演搭子!

大家都懂,現實中的影視制作,從來不是一次完成的。

過去的AI視頻生成,大多停留在一次性出片的階段。

從劇本、分鏡到拍攝、審片,再到返工和重拍,每一個環節都需要反復打磨。

如果其中某個鏡頭出現問題,創作者往往只能重新生成整條視頻,不僅耗時,也很難保證前后內容的一致性。

這也是AI長視頻長期難以真正進入生產環節的原因之一!!!

所以,創作者需要的并不只是一次性結果,還需要像真實拍攝一樣,擁有能夠規劃、生成、返工,甚至局部重拍的工具。

這個問題,JoyAI-Echo技術團隊也想到了,于是給視頻模型配了一位「AI導演」——Director Agent

我們只需要用自然語言說需求,它會自動幫忙拆分成劇本、角色、場景和鏡頭~



具體來說,Director Agent整個技術鏈路被拆成:策劃、生成、點評修改三個階段。

在策劃階段,Agent更像一位「編劇兼導演」。

它會先理解用戶意圖,將一句自然語言需求擴展成完整的故事框架,補充角色設定、場景信息和敘事邏輯,再進一步拆解為鏡頭級規劃,最終生成符合模型訓練格式的結構化條件。

進入生成階段后,Agent又變成了一位「現場導演」。

它會根據當前鏡頭內容,從已經生成的歷史鏡頭中檢索最相關的信息,并將這些參考內容與當前劇本狀態一起整理成模型需要的輸入條件,讓生成模型能夠準確調用角色、場景和劇情上下文。



△AI生成

最后來到「點評修改」階段,這里反倒更像影視制作里的審片環節~

無論是用戶反饋,還是自動評價模型發現問題,只要角色形象、動作表現、對白內容或音畫同步出現偏差,Agent都能快速定位到具體鏡頭,重新調整對應條件和記憶信息!!!

而且最重要的是,Agent只對受影響的部分進行重生成,而不需要推倒重來,修改后的結果還會同步更新到后續劇情中,確保整個故事始終保持連貫一致~

也正因為如此,JoyAI-Echo不再只是一個負責生成視頻的模型,而更像是一套完整的長視頻創作系統。

殺入全球第一梯隊,長視頻生成開始靠近真實生產

光說不練假把式,從官方評測數據來看,JoyAI-Echo在長視頻生成的多個關鍵指標上,都展現出了領先表現。

在用戶盲測環節,研究團隊將JoyAI-Echo與目前代表性的長視頻模型進行了對比,結果顯示——

長視頻任務中,用戶有63.6%的情況下更喜歡JoyAI-Echo生成的視頻畫面。

音頻質量維度這一優勢甚至達到81.7%,提示詞遵循偏好為80.6%,IP一致性偏好為59.4%。

即使放在人像短視頻這一競爭最激烈的賽道中,與主流視頻模型相比,JoyAI-Echo依然獲得了更高的視覺美學用戶偏好(58.8%vs26.5%)。

而JoyAI-Echo的發布,也同樣標志著京東在長視頻生成領域進入「全球第一梯隊」:



過去幾年,AI視頻生成雖然發展迅速,但長視頻始終停留在一個略顯尷尬的位置:

演示效果驚艷,真正投入生產卻困難重重。

角色容易變臉、聲音容易漂移、生成速度過慢、修改成本極高……這些問題決定了大多數長視頻作品更像是技術Demo,而非真正意義上的生產工具。

而JoyAI-Echo試圖解決的,恰恰是這些長期困擾行業的核心瓶頸。

更重要的是,與許多閉源模型不同,JoyAI-Echo選擇了「開源」

這意味著長視頻生成不再只是少數頭部公司的專屬能力,而開始成為一個能夠被開發者、創作者和研究者共同驗證、調用和迭代的開放工具。



△AI生成

技術框架提供了起點,開放則讓更多可能性慢慢長出來。

當一致性、高分辨率、Agent等能力被開源持續驗證和優化后,行業內長視頻生成的技術迭代速度可能進一步加快。

無論是虛擬IP故事、數字人內容、品牌營銷視頻,還是教育課件、知識講解、游戲動畫和互動劇情,高一致性、可控、可迭代的長視頻生產都能夠成為可能。

如果說過去的大模型解決的是「能不能生成視頻」的問題,那么JoyAI-Echo正在嘗試回答另一個更重要的問題:

AI能不能真正參與長視頻的內容生產創作?

從目前的結果來看,答案已經越來越接近肯定。

JoyAI-Echo帶來的,不僅是一款新的長視頻模型,更是一次AI視頻生產范式的推進。

當穩定記憶、實時交互、可控修改和高效生成開始同時出現時,AI長視頻正在從技術展示走向生產工具。

一個更穩定、更可控的AI長視頻時代,正在被推到臺前。

GitHub地址:
https://github.com/jd-opensource/JoyAI-Echo

項目主頁:
https://echo-team-joy-future-academy-jd.github.io/Echo-LongVideo-Page/

鄂ICP備2025167458號-1