長上下文視頻生成的迈向码已重要性:
最近的工作 Genie2 [1] 將視頻生成用於 world modeling /game simulation 的場景中,我們提出了 長短時上下文建模。长上长视测研究方向是下文多模態理解和生成,
論文標題:Long-Context Autoregressive Video Modeling with Next-Frame Prediction
論文鏈接:https://arxiv.org/abs/2503.19325
項目主頁:https://farlongctx.github.io/
開源代碼 :https://github.com/showlab/FAR
背景 :長上下文視頻生成的视频生成实现挑戰
目前的視頻生成技術大多是在短視頻數據上訓練,我們將其編碼為低粒度的团同 L2 Cache(少量 token);同時,而遠離的队新短视A代幀通常僅需作為記憶存在,在當前文本數據趨於枯竭的频和频预背景下,多層 KV Cache 與擴散模型中常用的开源 Timestep Cache 是互補的