阿里开源全模态大模型AI音视图文打通了阿里Qwen开源全模态大模型Qwen3-O

量子位看科技 2025-09-23 11:28:41

阿里开源全模态大模型AI音视图文打通了

阿里Qwen开源全模态大模型Qwen3-Omni,图、文、音、视频,我全都要。

这个事有多恐怖呢?你可以输入音频、图像、文字、视频,甚至是它们的混合!

比如,有时你想输入一张图片和一段视频,让大模型帮你分析出图片变视频的Prompt;

再比如,你想输入一段音频和一段视频,然后找出音频中的台词在视频中的具体位置。

总之,它是目前唯一原生端到端支持多模态输入输出的大模型架构,尚未被发现的玩法有很多。

此次开放的模型包括:

- Qwen3-Omni-30B-A3B-Instruct(指令跟随)

- Qwen3-Omni-30B-A3B-Thinking(中间层输出)

- Qwen3-Omni-30B-A3B-Captioner(音视频理解)

其他亮点总结如下:

- 超低延迟:211ms响应速度,能连续理解长达30分钟的音频

- 自带工具调用功能,可按需接入外部系统能力

这不仅是一次AI多模态融合的技术突破,也是在全球开源AI竞速中,中国团队的又一次“抢发车”。

体验入口已上线:chat.qwen.ai/?models=qwen3-omni-flash

GItHub:github.com/QwenLM/Qwen3-Omni

0 阅读:0
量子位看科技

量子位看科技

感谢大家的关注