阿里刚刚发布的Qwen3.5-Omni,不是简单的“能看图、能听音”,而是把文

涵阳谈汽车啊 2026-03-31 14:19:45

阿里刚刚发布的 Qwen3.5-Omni,不是简单的“能看图、能听音”,而是把文本+图像+音频+视频真正做成一个统一系统——而且是实时交互级别。千问全模态大模型

几个比较重要的点:1️⃣ 全模态能力直接对标顶级闭源模型在音视频理解、交互等 215项任务拿下SOTA,甚至超过Gemini 3.1 Pro,基本进入全球第一梯队

2️⃣ 不是“能看”,而是“能理解+能结构化输出”可以对视频内容生成可控的结构化描述(视频小于100M)

3️⃣ 实时语音/视频交互能力成核心突破支持10小时音频、400秒视频输入(7分钟),并能实时理解+生成,直接指向“AI实时助手”场景

4️⃣ 多语言能力极端强化语音识别覆盖113种语言/方言,语音生成36种,全球化能力明显增强

5️⃣ 架构层升级:Thinker + Talker 双系统基于Hybrid-Attention MoE,把“思考”和“表达”拆开,本质是在做更接近人类的多模态认知系统

6️⃣ 成本直接打穿商业化门槛API调用价格采取阶梯计费模式,在常用的输入≤128k场景下,其音频输入价格为4.96元/百万tokens,文本/图片/视频输入价格为0.8元/百万tokens。模型的输出价格为61.322元/百万tokens(文本+音频),仅输出文本时的价格为9.6元/百万tokens

0 阅读:0
涵阳谈汽车啊

涵阳谈汽车啊

感谢大家的关注