【小米开源可控视频音效生成模型】小米大模型应用团队今日发布ControlFol

宇说科技 2026-05-29 17:21:44

【小米开源可控视频音效生成模型】小米大模型应用团队今日发布 ControlFoley 开源模型，面向视频同步音效生成中的“可控性”难题，统一支持文本引导视频配音、文本控制视频配音和参考音频控制视频配音三类任务。

ControlFoley 在多个视频音效生成任务上达到开源 SOTA 表现，在语义对齐、时间同步、声音质量以及多模态控制能力上取得全面提升。代码、模型权重、技术报告、在线 Demo 和开箱即用 Skill 均已开放。

给一段无声视频自动配上音效，已经不再是新鲜事。视频音效生成模型可以根据画面内容生成匹配的声音，让无声视频变得更完整、更有沉浸感。

然而，如果模型只会根据画面自动猜声音，创作者就很难真正控制配音结果。视频音效生成的下一步，需要从“看画面配声音”走向“按意图配声音”。为此，小米大模型应用团队提出并开源了 ControlFoley，一个统一且可控的视频音效生成框架。它不只让视频“有声音”，更希望让声音真正“按你想要的来”。（IT之家）

0 阅读：0

感谢大家的关注

作者最新文章

1

【小米开源可控视频音效生成模型】小米大模型应用团队今日发布 ControlFol

2

【上证50指数更换5只样本】上证50指数样本调入特变电工、生益科技、中国铝业、华

3

【多家券商研判：A股结构性行情愈发鲜明】近期多家券商召开中期策略会，研判全年经

4

【安卓首款阔折叠来了】三星将在今年7月份发布全新的Galaxy Z Fold8系

5

【欣旺达已量产10000mAh手机电池】欣旺达今日通过深交所互动易平台披露，公司

6

禁止幼儿园从园外采购散装糕点等【幼儿园食品安全新规6月1日起施行】国家市场监督管

7

【多股集合竞价大幅异动】今天市场尾盘多只个股出现了异动情况。生益电子、佰维存储、

8

【调查显示日本6月逾1000种食品涨价】日本调查机构帝国数据库公司29日公布以1

9

【刘强东提出京东3个12管理原则京东要求员工每日工作不超12小时】据报道，京东集

10

【60000亿，全球最牛兄妹诞生】全球最大AI独角兽来了 Anthropic刚刚

财经TOP

1

5月14日游资龙虎榜

2

目测损失500W有没有

3

一个人顶一个上海的GDP

4

高股息加业绩高增长股票一览！

5

你个st啥时候才能放我出来

6

美不胜收2109

7

8

王鹤润王鹤润王鹤润

9

我感觉中国75%的厨余，都能出口到小日子了

10

炸锅！长鑫科技IPO恢复审核，净利330亿！概念股全名单曝光长鑫科技IPO恢

财经最新文章

1

没想过亿资产，都不敢有娶她的想法啊

2

我的老天爷啊！金价真的跌疯了！这波势头猛到吓人！照这个速度走下去，不出一个月，

3

深夜利好!美伊达成一致,明天A股我改看涨了！万万没想到，早上美伊还

4

洋河股份、中泰证券、股价走出史上首个月线7连阴行情;恒瑞医药股价，走出史上首个月

5

翻了下A股散户持仓最多的股票榜单，越看越有意思——这哪是排行榜，分明是普通股民的

6

大利好！大利好！明天低开大胆干，中大阳线等你来！我昨天晚上讲的今天早上低开低走不

7

赚500万和中500万交税差距竟然这么大

8

恒瑞医药这个股真的是太牛了：作为创新药龙头，利好不断，几乎天天都能发一个利好。就

9

A股，今日探底回升，触及关键位置，新一波行情或正式开启！收盘了，谈一谈个人看法，

10

吃相太难看津巴布韦今天正式宣布：5月28日，津巴布韦正式宣布：把锂、镍、钴、