【小米开源可控视频音效生成模型】小米大模型应用团队今日发布 ControlFoley 开源模型,面向视频同步音效生成中的“可控性”难题,统一支持文本引导视频配音、文本控制视频配音和参考音频控制视频配音三类任务。
ControlFoley 在多个视频音效生成任务上达到开源 SOTA 表现,在语义对齐、时间同步、声音质量以及多模态控制能力上取得全面提升。代码、模型权重、技术报告、在线 Demo 和开箱即用 Skill 均已开放。
给一段无声视频自动配上音效,已经不再是新鲜事。视频音效生成模型可以根据画面内容生成匹配的声音,让无声视频变得更完整、更有沉浸感。
然而,如果模型只会根据画面自动猜声音,创作者就很难真正控制配音结果。视频音效生成的下一步,需要从“看画面配声音”走向“按意图配声音”。为此,小米大模型应用团队提出并开源了 ControlFoley,一个统一且可控的视频音效生成框架。它不只让视频“有声音”,更希望让声音真正“按你想要的来”。(IT之家)
