原创 告别“片段拼接”!LongVie2以“世界建模”破解AI长视频生成痛点
创始人
2026-01-05 03:20:23
0

|有风

编辑|有风

Sora一出来,全网都在刷它生成的短视频,那海浪拍打沙滩的细腻感,人物发丝飘动的真实度,确实让人忍不住感叹“AI要抢导演饭碗了”。

但热闹过后,业内人都在琢磨一个问题,短视频能打,长视频呢?要是让AI生成个三五分钟的视频,它还能稳住吗?

之前看过不少AI长视频尝试,前10秒画面精致得像电影,第11秒人物突然“瞬移”到画面外,第20秒杯子自己从桌上飘起来,最后干脆变成一堆模糊的色块。

这种“开头惊艳,后面拉胯”的情况,行内人叫它“时间诅咒”,视频时长一拉长,AI就管不住画面里的物理规律和逻辑链条了。

最近上海人工智能实验室他们搞出个LongVie2模型,专门冲着这个“时间诅咒”来的。

这模型没走“堆参数、拼算力”的老路,反而从“怎么让AI理解时间”这个根子上想办法。

长视频生成的“时间诅咒”到底难在哪?

Sora之所以厉害,是把“瞬间的真实”做到了极致。

它能让一个3秒的镜头里,光影、材质、人物动作都像真拍的。

但长视频不一样,它不是“多个短视频的拼接”,而是“一个持续演化的世界”。

就像拍电影,不仅要每一帧好看,还得让人物记得自己上一秒站在哪,杯子放在哪,光线从哪个方向照过来。

之前的AI模型处理长视频,有点像“狗熊掰棒子”,生成下一帧时,上一帧的细节就忘了大半。

时间一长,物体位置跑偏、光影突然变化、情节接不上茬,这些问题全冒出来了。

有人试过把长视频拆成多个10秒片段生成,再拼起来,结果衔接处人物“换脸”、场景“跳戏”,还不如不拼。

行业里对长视频的需求其实挺迫切的,影视公司想让AI自动生成片花,教育机构需要动态教学视频,连虚拟主播直播都得撑够时长。

但现在的技术,要么生成时间短,要么逻辑崩,根本没法用,LongVie2就是想把这个缺口填上。

LongVie2的三招“破咒”秘籍

LongVie2的思路挺有意思,它不跟短视频较劲,而是把长视频当成“AI需要持续照看的世界”。

简单说就是三招,先给AI装“导航”,再让它练“抗造”,最后帮它记“历史”。

第一招,是给AI装“世界导航系统”。

之前AI生成视频,全靠“感觉”,模型自己隐式记住画面里有啥。

但记着记着就乱套了,LongVie2直接给AI塞了两种“地图”,一种是稠密信号,比如深度图,告诉AI“这个桌子在人物前面,距离3米”。

另一种是稀疏信号,比如关键点轨迹,给人物手脚、物体中心标上“运动路线”。

有了这俩,AI就像开车开了导航,知道“下一步该往哪动,不能撞到啥”,人物不会突然“瞬移”,物体也不会凭空消失了。

第二招,是让AI练“抗造能力”。

咱们平时拍视频,手机晃一下、光线变一下,画面可能模糊,但人眼能自动忽略这些小毛病。

AI不行,输入有点瑕疵,生成的画面就跟着崩。

LongVie2反其道而行之,训练时故意给AI喂“坏素材”,模拟画面模糊、帧间抖动这些长视频常见问题。

就像运动员在高原练耐力,AI见多了“烂输入”,再遇到类似情况反而能稳住,生成的画面不会越到后面越糊。

第三招,是帮AI记“历史账”。

写文章得前后呼应,长视频也一样。

LongVie2生成新片段时,会主动回头看“上一段结尾”,人物位置、光线角度、物体状态,都要跟前面对得上。

还专门设计了个“衔接损失函数”,哪没对上就“扣分”。

这么一来,视频就不是“一段一段拼的”,而是“一个整体长出来的”,情节跳戏的问题少了很多。

LongVie2真能解决长视频难题吗?

光说不练假把式,LongVie2团队搞了个叫LongVGenBench的评测标准,专门测长视频。

里面有100个视频,每个都超过1分钟,有拍自然风景的,有人物活动的,还有虚拟场景的。

拿这个标准一测,LongVie2确实比之前的模型稳得多。

我看了几个演示视频,有个“人物连续行走3分钟”的例子,之前的模型走1分钟就“飘”了,人物脚不沾地。

LongVie2生成的版本,人物步态、位置变化都自然,连影子跟着光线动的细节都没出错。

还有个“厨房做饭”视频,从切菜、倒油到炒菜,锅铲、食材的位置全程没乱,看着跟真人拍的差不多。

团队还做了个“减法实验”,去掉三招里的任何一招,效果立马掉下来。

比如没了“导航系统”,人物就容易“跑偏”,没了“抗造训练”,画面后半段就开始糊。

这说明三招是真有用,不是凑数的。

AI长视频的下一步会怎么走?

LongVie2的突破,不光是技术上的,更重要的是换了个思路,不追求“生成得多快多炫”,而是先解决“生成得多久多稳”。

这种“以时间为本”的思路,可能会成行业新方向。

接下来,估计会往更复杂的场景走。

现在LongVie2能搞定单人物、简单场景,以后要是多人物对话、动态天气变化(比如突然下雨),AI还能稳住吗?

还有“可控性”,现在能控制人物走直线,以后能不能让AI按剧本“表演”,比如“先哭后笑”这种情绪变化?这些都是要啃的硬骨头。

对行业来说,这事儿喜忧参半。

好的是内容创作门槛会降很多,小团队也能靠AI生成高质量长视频。

但坏消息是,以后看到的视频,可能分不清是真人拍的还是AI做的,版权、真实性这些问题得提前想办法。

总的来说,LongVie2算是给AI长视频开了个好头。

从Sora的“瞬间惊艳”到LongVie2的“持续可信”,AI视觉创作正在跨过“时间”这道坎。

说不定过两年,咱们在网上刷到的短剧、教学视频,背后操盘的就是这些“会记时间的AI”了。

相关内容

热门资讯

无机房电梯楼层显示器异常解决指... 电梯 无机房电梯楼层显示器异常怎么办? 别急,本文将为您详细解答。首先,我们要了解无机房电梯楼层显示...
东风汽车集团申请阻燃柔性固态电... 金融界2025年1月31日消息,国家知识产权局信息显示,东风汽车集团股份有限公司申请一项名为“一种阻...
中端性能机大乱斗:加米耀酷真,... 近期,中端手机市场迎来了多款新品,包括一加Ace 5、REDMI K80、荣耀GT、真我Neo 7以...
我市特步5G工厂入选国家5G工... 日前,工业和信息化部发布《关于2024年5G工厂名录的公示》,我市特步5G工厂入选国家5G工厂名录,...
卫星化学获得实用新型专利授权:... 证券之星消息,根据天眼查APP数据显示卫星化学(002648)新获得一项实用新型专利授权,专利名为“...
自动驾驶+跟踪巡逻+现场抓捕 ... 近日,在浙江温州的闹市区,特警巡逻队带着一台球形机器人一起巡街,引来不少路人的关注。 球形“机器警察...
360智脑张向征:构建安全可信... 人工智能的加速发展,有力推动了社会的数智化转型;与此同时,带来的相关安全风险也日益凸显。近日,在北京...
原创 3... 一、iQOO 12 参考价格:2659元(12G+256G)。 性能强劲,游戏无忧 首先不得...
联想宣布旗下AIPC个人智能体... DoNews2月7日消息,近日,联想宣布个人智能体“小天”已接入DeepSeek,除了目前可以在联想...
2025年消脂设备产业数据报告 消脂仪是医学美容领域的医疗器械。 它使用激光和微波等设备根据其波长向真皮/皮下平面发射能量; 通过加...