这两天,看到商汤开源了SenseNovaU1系列模型。我比较感兴趣的是,它底层

西里森森 2026-04-30 21:00:46

这两天,看到商汤开源了SenseNova U1系列模型。

我比较感兴趣的是,它底层用的NEO-unify架构,和传说中Nano🍌采用的技术路径是一类的。

我花了点时间去翻了一下他们技术报告,看完NEO-unify的设计思路之后,我觉得确实是一个很好的解法。

1聊这个话题之前,我们先聊一下背景和现状。

现在大多数多模态模型,你给它一张图,它首先会用一个专门的视觉编码器去读这张图。这个编码器,最常见的是ViT这类结构,先把图片切成一块一块的小方格,然后把每块转成向量,再传给语言模型处理。

最后如果要生成图,语言模型输出的结果又要经过另一个解码器,把抽象语义还原成像素。

整个流程是:图片进来,翻译一次,语言大脑处理,再翻译回去,图片出去。

一个鲜少被人直接指出来的问题是,翻译这件事,是有损的。

你把一张图里的颜色渐变、纹理细节、空间位置关系,强行压缩成和文字一样格式的向量序列,这个过程里丢掉的东西,不会因为编码器更大就完全消失,只是损失少一点而已。

而行业过去几年的做法,基本都是把编码器做大、把语言模型做大、把解码器做大,用更大的容量去承接这个损耗,祈祷大力出奇迹。但没有人去问:这两次翻译,能不能直接省掉?

2而这,正是NEO-Unify在做的事。它把视觉编码器(VE)和生成解码器(VAE)都去掉了,图片和文字,直接进入同一套处理框架,用同一种机制来理解、来生成。

举个例子,你想象一下两种学外语的方式。第一种,先用母语翻译出意思,记住翻译,再试着用外语表达,来回转换。第二种,直接用外语思考,外语就是思维的载体,不经过翻译这个中间步骤。大多数多模态模型是第一种,但NEO-Unify在尝试做第二种。

具体怎么实现的呢?商汤引入了一种叫原生混合Transformer(MoT)的架构。在这套结构里,每一层神经网络的注意力计算,都同时处理文字token和图像patch,两者之间的关联在每一层都被实时计算。

传统模型的融合,大多发生在输入端,图和文字拼在一起丢给语言模型,语言模型自己再去理解。但在NEO-Unify里,这种融合不是发生在门口,而是渗透进了建筑的每一层结构里。

底层计算局部特征——某个词和某块像素的关系;高层形成抽象概念——这张图里的苹果和「红色」这个词深度绑定。

生成端的设计也值得单独说一下。传统生成图像,是先把语义压进一个低维的潜在空间(latent space),再从那里慢慢解码还原成图。有点像把一首音频压成MP3,再还原,但还原质量,永远有极限。

NEO-Unify的生成,是直接在像素空间上做优化,目标是像素本身,不经过潜在空间这个中转站。

这带来的直接好处,在信息图生成这个任务上体现得特别明显。复杂的信息图里有大量文字、表格、数据关系,对细节的要求极高。传统方式在潜在空间里压缩一遍再还原,文字就容易糊、排版就容易乱。但直接面向像素优化,细节的保真度就上来了。

3分享几个我觉得比较有意思的应用效果。他们出了一个功能叫做连续性图文创作,在一次调用里,模型可以输出一段包含多张图和对应文字的内容,而且这些图之间的风格、主体、细节,是非常连贯的。

比如,我们可以看下面这个案例,教做五分熟牛排,从备料到装盘,每个步骤配一张图,全程牛排的颜色、锅具的样式、配料的摆放保持高度一致。

传统模型做不好这件事的原因是,它每次生成新图,参考的是对上一张图的文字描述,而非图本身。但NEO-Unify的统一表征空间,让生成的图像以原始表征的形式留在上下文里。生成第二张图的时候,模型看到的不是「前一张图长这样」的描述,而是前一张图本身。

还有一点,商汤这次开源的U1 Lite,核心版本只有8B参数。在通用图像生成的多个基准上,它的质量对标的是Qwen-Image 2.0 Pro、Seedream 4.5这类大型商业闭源模型,而且推理延迟更低。

在信息图生成这个子任务上,U1 Lite得分39.8,排在多个对比模型前面。

4这次发布,在海外开发者圈也引起了很大反响。

因为去掉VAE这件事,不是小改动。从SD到Flux,几乎所有主流扩散管线都靠VAE压缩潜在空间,开发者这些年围绕VAE的各种限制调参、换checkpoint,耗了大量精力。直接在像素上做,是大家隐约觉得「应该往这走」,但没人真的做出来的方向。

甚至有人说:「SenseTime is back to open source」。潜台词是,商汤之前在海外开源社区存在感不强,这次选了Apache 2.0,可以商用、可以自托管、权重随意拉取,没有额外限制,让人重新记起了这家公司。

从DeepSeek、Qwen、InternVL,现在再加上SenseNova,中国开源多模态模型的密集发布,正在快速收窄与西方头部实验室的差距。快速架构实验加开放权重,是闭源商业模型没法轻易复制的打法。

商汤现在已经把U1 Lite全面开源了,也配了调用工具,感兴趣的可以直接去跑一跑。

0 阅读:0
西里森森

西里森森

感谢大家的关注