阿里刚刚发布的 Qwen3.5-Omni,不是简单的“能看图、能听音”,而是把文本+图像+音频+视频真正做成一个统一系统——而且是实时交互级别。千问全模态大模型
几个比较重要的点:1️⃣ 全模态能力直接对标顶级闭源模型在音视频理解、交互等 215项任务拿下SOTA,甚至超过Gemini 3.1 Pro,基本进入全球第一梯队
2️⃣ 不是“能看”,而是“能理解+能结构化输出”可以对视频内容生成可控的结构化描述(视频小于100M)
3️⃣ 实时语音/视频交互能力成核心突破支持10小时音频、400秒视频输入(7分钟),并能实时理解+生成,直接指向“AI实时助手”场景
4️⃣ 多语言能力极端强化语音识别覆盖113种语言/方言,语音生成36种,全球化能力明显增强
5️⃣ 架构层升级:Thinker + Talker 双系统基于Hybrid-Attention MoE,把“思考”和“表达”拆开,本质是在做更接近人类的多模态认知系统
6️⃣ 成本直接打穿商业化门槛API调用价格采取阶梯计费模式,在常用的输入≤128k场景下,其音频输入价格为4.96元/百万tokens,文本/图片/视频输入价格为0.8元/百万tokens。模型的输出价格为61.322元/百万tokens(文本+音频),仅输出文本时的价格为9.6元/百万tokens
