2026美加墨世界杯中国认证平台字节开源长入框架Bernini: AI视频剪辑先贯串再脱手

梦瑶发自凹非寺

全球齐懂，视频生成这件事，最让创作家头疼的，不一定是画面不够清澈。

而是模子常常听不懂东说念主话！！！（扎心.jpg)

想把好天改成雪天，它可能只会往画面上撒雪花；想把一段动画植入市集LED大屏，它可能规模乱飘、透视不稳。

于是乎，问题来了：AI视频生成，能不成先贯串创作家到底想改什么，再脱手生成？

就在刚刚，字节买卖化手艺团队反手给出一个行业新解法——

开源面向视频生成与视频剪辑的长入框架：Bernini。

主打一个先贯串再生成～

Bernini的想路很奏凯，让多模态大模子先正经语义贯串与绸缪，再交给diffusion模子完成高质地视觉渲染。

在才能上，Bernini遮掩了参考生成、视频剪辑等多种任务，重点体现的即是两个字：「可控」。

比如更正举座视觉格调时，不仅仅把单帧画得排场，还能稳住前后帧的一致性，主打一个效用超等稳：

这下好了，AI视频生成也能从听prompt干活，往先贯串、再脱手再进一步了～

对了，当今，Bernini的推理代码和权重还是通达！！（喜跃.jpg)

一条指示改视频，Bernini放肆拿抓「可控剪辑」！

淌若说夙昔好多视频生成模子更像按教唆词出片，那Bernini想惩办的，是另一个更骨子的问题——

生成之后，怎样继续改？

咱们平淡碰到的大大宗治疗需求听起来齐很easy，但对视频模子来说并不通俗！！！

因为视频剪辑不是改一张图，而是在一段一语气画面里，既要听懂指示，又要保住主体、结构、镜头和通顺酌量。

略微处理不好，就会出现主体变形、配景漂移、动作断裂、帧间精明等问题。

而Bernini的中枢想路，恰是把这个过程拆得更清澈。

△AI生成

咱们不错把Bernini贯串成一个AI视频片场里的「导演+后期团队」。

前边正经导演的，是一个叫MLLM-based planner的多模态大模子绸缪器。

它会先看懂你的文本指示，也会沿途贯串源视频、参考图片、参考视频这些素材，判断办法画面应该形成什么样。

等这一步想清澈后，再交给diffusion模子DiT-based renderer来完成视觉渲染，把前边绸缪好的语义办法，着实形成一语气、贯通、高质地的视频画面。

是以Bernini框架的妙处，就在于单干弥散清澈：

多模态大模子正经想显明，Diffusion Transformer正经生成出来。

从文本到视频生成，到视频剪辑，再到基于图像和视频参考的复杂限度生成完好部梭哈！

△Bernini在长入框架内缓助多种视频生成任务

这套好意思妙单干，也让Bernini在视频可控剪辑上，展现出了一批独特直不雅的视频剪辑才能。

最基础的，是一条指示更正天气、季节、材质和格调的才能。

比如合并段城市航拍视频，输入指示后，不错从好天切到雾天、雨天、雪天。

最重要是，它处理的并不仅仅天上多几片雪、画面加一层滤镜，而是会连带治疗天外、光照、路面、成扬名义和举座环境氛围，让这场天气变化看起来像确凿发生在原场景里：

更进一步，Bernini的语义剪辑还是初始参加「镜头说话」。

当先即是能限度画面关爱区域的视角、焦点和动作。

在视角剪辑上，Bernini能进一步贯串场景里的三维酌量，让部分视角治疗落幕更适宜透视、结构和空间逻辑：

在焦点剪辑才能上，Bernini还粗略把柄指示治疗画面的关爱区域，让视频叙事要点随之更正。

比如一个画面里有多个物体，咱们不错让镜头更关爱桌上的收音机，也不错让焦点从远景转到配景，so easy～

诚然，视频创作里最容易卡bug的，还有动作。（doge）

毕竟好多AI视频静止看还行，一动起来就显露：主体变形、动作断裂、配景漂移，镜头也随着不稳！！

值得一提的是，Bernini在保留主体身份和场景结构的前提下，不错高精确度地更正主体动作步履。

咱们来看底下这段棕熊视频，哪怕从庸碌景况改成起身舞蹈、吼怒，188金宝博官网app下载环境、光照和镜头酌量依然能保持贯通～

这就意味着，Bernini改视频不仅仅让主体「动起来」，还要让动作变化「当然嵌进」原来的画面里。

从反复抽卡到那里不合改那里，AI视频终于初始有点后期软件的味儿了？？？

参考素材上场，视频创作更可控、更一致

友友们平淡作念AIGC内容创作时，还会遭遇一个问题，那即是——

咱们确凿很难用一句prompt，精确时势想要的视觉效用……

尤其是碰到具体材质、某个商品、某种电影色彩，或者一段需要植入到屏幕里的视频素材，就更容易翻车…..

好巧不巧， Bernini除了剪辑的要道很强外，还有一个贼实用的才能：缓助图片和视频行为剪辑参考。

不仅如斯，它还能基于参考输入奏凯生成新视频，把物体、变装和场景的一致性问题狠狠拿抓！！

不单靠prompt：用图片和视频行为剪辑参考

当先来看Bernini参考生成的第一个要道——剪辑参考。

具体来说，Bernini不错让创作家奏凯用视觉样例限度落幕，告白创意、电商展示、影视预演、二次创作友友狂喜！！

比如底下这个加多指定主体的案例，只需要放入一张狗狗参考图，视频里就能当然出现同款狗狗。

再输入一张雪东说念主图片，雪东说念主也能顺滑融进当前视频里，光照、透视、旯旮酌量齐处理得相等当然：

除了参考主体，Bernini还能参考材质。

比如给它布料、朱砂壶、大理石、金属等不同材质参考，原视频里的盘子就不错被改成对应纹理视觉质感～

况兼最重要的是，这种材质变化会随着办法物体贯通存在，而不是播放几帧就漂移、错位或失真：

格调参考也不在话下！

哪怕参考图横跨卡通、写实、水墨、赛博一又克等完全不同的视觉格调，Bernini也能索求格调特征并转移到视频里。

值得一提的是，原视频里的主体和通顺酌量也会高度保留，格调变化也会随着时刻轴贯通延续：

此外皮剪辑参登第，Bernini还有一类很实用的才能，那即是：图像与视频植入。

全球齐知说念，街头灯箱、市集LED大屏、地铁电视，致使镜头里任何一块屏幕，2026美加墨世界杯中国认证平台齐不错形成展示位。

而Bernini能作念的，即是把一张海报、一段视频精确填进办法区域里，还能随着原片镜头沿途转移，作念到规模不破、透视不乱、时序不抖。

举例给一段街头实拍再提供一张油绘画片，Bernini就能把油画当然贴进牌号里，画面交融度也相等强：

告白预览、影视预演、造谣拍摄里，好多蓝本要反复抠帧、追踪、校透视的责任，这下也能被收进了一次推理里了～

顺带提一嘴，除了剪辑已有视频，Bernini还缓助基于参考图奏凯生成「新视频」。

咱们先来看全球平淡需求比拟多的单图参考生成。

比如只给一张香水居品图，再输入「生成一段居品展示视频」的教唆词，模子就能生成真东说念主手持香水动弹的画面。

瓶身概括、金色液体、玄色标贴这些重要细节，齐能和原图保持很高的一致性。

更挑升义的是，换成一条通顺头带，再让模子摆脱施展，它还能生成一只羊驼戴着头带站在沙漠的画面：

合并个才能，既能作念正经居品片，也能搞脑洞创意短片，属实有点666了啊？？

再进一步，Bernini还能已毕多元素组合参考生成。

在此我需要要大大点赞的少许是，咱们喂进去的参考图不一定需要来自合并个物体！！！

比如一座大理石半身像、一副粉色猫耳耳机、一件的玄色T恤、一条热带印花短裤，再加一张落日海滩长椅。

2026FIFA世界杯中国比分网

几张图蓝本八竿子打不着，但Bernini却不错把它们组合成合并个视频变装：

（谁成想呢，NanoBanana那时大热的ootd玩法还是进阶到「视频」版块了！）

这类才能放到IP联名、造谣东说念主塑造、告白见识片里就很灵验，素材库里蓝本散布的元素，不错被从头组合成一个全新的变装和场景～

此外，Bernini还有一个更重要的才能，那即是合并物体的多角度参考。

全球齐知说念，商品和变装很少惟有一面，包有背带，车有尾灯，雕琢有侧脸和后头，模子淌若只看过正面，镜头一排，很容易初始摆脱施展。

而Bernini特殊就特殊在，它不错吃进合并物体的多张角度参考图——

比如喂给它大理石雕琢的五张多角度参考，再让它生成一段一语气镜头，雕琢从不同角度出刻下，五官、肌肉走向、衣袍褶皱齐能保持高度一致：

终末想说的才能，是场景重要帧到一语气镜头。

给到合并办公区休息廊的几张重要帧，比如沙发、绿植、走廊畸形的玻璃门，Bernini不错生成一段一语气平移镜头：

说真话，这一步还是初始接近更长线的寰宇模子才能了。

因为它老成的还是不仅仅这一帧好不排场，还包括模子能不成贯承接一个场景在一语气镜头里的空间酌量。

造谣漫游、游戏关卡生成、影视预演，致使具身智能模拟，往后齐绕不开这种一语气性。

从语义绸缪到视觉渲染，Bernini的重要是「先贯串，再生成」

是以问题来了，Bernini为什么能同期吃文本、视频、参考图，还能把落幕作念得更稳？

就像前边提到的，其中枢原因在于它莫得让一个模子包办扫数事情，而是把任务拆成了两步。

第一步是「语义绸缪」，让模子先贯串办法。

具体来说，Bernini当先使用MLLM-based planner来贯串文本、视频和参考视觉输入，并奏凯在ViT embedding space中预测办法语义示意。

这个办法语义示意，不错贯串成生成前的一张「语义草图」。

它不奏凯轨则每个像素长什么样，而是先时势清澈：办法视频应该包含什么内容、结构怎样变、哪些元素要保留、哪些场所要被剪辑。

第二步是「视觉渲染」，把语义鼎新成高质地视频。

拿到语义绸缪后，DiT-based renderer会正经生成最终画面，关于视频剪辑任务，它还会纠合源视频的VAE features，尽量保留原视频里的细节和非剪辑区域，幸免一改就把整段画面带跑。

还有一个重要点，是「多参考输入」怎样处理。

当多个参考图、源视频、办法视频被串进合并个序列里时，不同素材可能会出现疏通的时刻和空间坐标，模子容易认混。

是以Bernini引入了Segment-Aware 3D Rotary Positional Embedding，也即是SA-3D RoPE。

它会给不同视觉片断加上各自的segment记号，让模子分清：哪个是参考图，哪个是源视频，哪个是办法输出；同期还能保留时刻和空间位置酌量。

值得一提的是，在字节买卖化手艺团队自建的Arena落幕里，Bernini的位置也很有看头——

面临几款国表里主流闭源模子，这个开源框架莫得被拉开差距，反辛劳经站进了第一梯队：

说到底，Bernini最让创作家有实感的场所，不仅仅画面更排场，而是它让AIGC创作少了少许「玄学」。

以前咱们写了一大段prompt，AI有时懂；想改一个小场所，它可能整条视频齐重来；给了参考图，它也可能只学到少许外相，终末主体、材质、格调系数跑偏。

而Bernini惩办的，即是这种创作里的失控感。

它先贯串用户想要什么，贯串原视频里哪些内容要保留，也贯串参考图片、参考视频到底提供了什么视觉信息。

然后，再把这种贯串转成不错生成、不错剪辑、不错贯通落地的视频落幕。

少少许反复碰运说念，多少许着实可控的创作空间，这亦然Bernini最有价值的场所——

让全球用我方的素材、我方的想法，去探索AI视频创作还能怎样变得更好用、更听话、更接近着实创作历程。

对了，需要一提的是，当今率先开源的Bernini-R，对应Bernini三阶段检察历程中的第二阶段模子。

而包含MLLM Planner的完整版块也在代码整理中，预测近期将进一步通达，全球不错小小期待一下子！

（无论咋说，Bernini-R不错先狠狠安排上了～）

Bernini一箩筐参考链接：

[1]GitHub：https://github.com/bytedance/Bernini

[2]Hugging Face：https://huggingface.co/ByteDance/Bernini

[3]Project Page：https://bernini-ai.github.io2026美加墨世界杯中国认证平台

世界杯最新消息

2026美加墨世界杯中国认证平台字节开源长入框架Bernini: AI视频剪辑先贯串再脱手

扫码关注

世界杯最新消息

2026美加墨世界杯中国认证平台 字节开源长入框架Bernini: AI视频剪辑先贯串再脱手

2026美加墨世界杯中国认证平台字节开源长入框架Bernini: AI视频剪辑先贯串再脱手