这两天，看到商汤开源了SenseNovaU1系列模型。我比较感兴趣的是，它底层

这两天，看到商汤开源了SenseNova U1系列模型。

我比较感兴趣的是，它底层用的NEO-unify架构，和传说中Nano🍌采用的技术路径是一类的。

我花了点时间去翻了一下他们技术报告，看完NEO-unify的设计思路之后，我觉得确实是一个很好的解法。

1聊这个话题之前，我们先聊一下背景和现状。

现在大多数多模态模型，你给它一张图，它首先会用一个专门的视觉编码器去读这张图。这个编码器，最常见的是ViT这类结构，先把图片切成一块一块的小方格，然后把每块转成向量，再传给语言模型处理。

最后如果要生成图，语言模型输出的结果又要经过另一个解码器，把抽象语义还原成像素。

整个流程是：图片进来，翻译一次，语言大脑处理，再翻译回去，图片出去。

一个鲜少被人直接指出来的问题是，翻译这件事，是有损的。

你把一张图里的颜色渐变、纹理细节、空间位置关系，强行压缩成和文字一样格式的向量序列，这个过程里丢掉的东西，不会因为编码器更大就完全消失，只是损失少一点而已。

而行业过去几年的做法，基本都是把编码器做大、把语言模型做大、把解码器做大，用更大的容量去承接这个损耗，祈祷大力出奇迹。但没有人去问：这两次翻译，能不能直接省掉？

2而这，正是NEO-Unify在做的事。它把视觉编码器（VE）和生成解码器（VAE）都去掉了，图片和文字，直接进入同一套处理框架，用同一种机制来理解、来生成。

举个例子，你想象一下两种学外语的方式。第一种，先用母语翻译出意思，记住翻译，再试着用外语表达，来回转换。第二种，直接用外语思考，外语就是思维的载体，不经过翻译这个中间步骤。大多数多模态模型是第一种，但NEO-Unify在尝试做第二种。

具体怎么实现的呢？商汤引入了一种叫原生混合Transformer（MoT）的架构。在这套结构里，每一层神经网络的注意力计算，都同时处理文字token和图像patch，两者之间的关联在每一层都被实时计算。

传统模型的融合，大多发生在输入端，图和文字拼在一起丢给语言模型，语言模型自己再去理解。但在NEO-Unify里，这种融合不是发生在门口，而是渗透进了建筑的每一层结构里。

底层计算局部特征——某个词和某块像素的关系；高层形成抽象概念——这张图里的苹果和「红色」这个词深度绑定。

生成端的设计也值得单独说一下。传统生成图像，是先把语义压进一个低维的潜在空间（latent space），再从那里慢慢解码还原成图。有点像把一首音频压成MP3，再还原，但还原质量，永远有极限。

NEO-Unify的生成，是直接在像素空间上做优化，目标是像素本身，不经过潜在空间这个中转站。

这带来的直接好处，在信息图生成这个任务上体现得特别明显。复杂的信息图里有大量文字、表格、数据关系，对细节的要求极高。传统方式在潜在空间里压缩一遍再还原，文字就容易糊、排版就容易乱。但直接面向像素优化，细节的保真度就上来了。

3分享几个我觉得比较有意思的应用效果。他们出了一个功能叫做连续性图文创作，在一次调用里，模型可以输出一段包含多张图和对应文字的内容，而且这些图之间的风格、主体、细节，是非常连贯的。

比如，我们可以看下面这个案例，教做五分熟牛排，从备料到装盘，每个步骤配一张图，全程牛排的颜色、锅具的样式、配料的摆放保持高度一致。

传统模型做不好这件事的原因是，它每次生成新图，参考的是对上一张图的文字描述，而非图本身。但NEO-Unify的统一表征空间，让生成的图像以原始表征的形式留在上下文里。生成第二张图的时候，模型看到的不是「前一张图长这样」的描述，而是前一张图本身。

还有一点，商汤这次开源的U1 Lite，核心版本只有8B参数。在通用图像生成的多个基准上，它的质量对标的是Qwen-Image 2.0 Pro、Seedream 4.5这类大型商业闭源模型，而且推理延迟更低。

在信息图生成这个子任务上，U1 Lite得分39.8，排在多个对比模型前面。

4这次发布，在海外开发者圈也引起了很大反响。

因为去掉VAE这件事，不是小改动。从SD到Flux，几乎所有主流扩散管线都靠VAE压缩潜在空间，开发者这些年围绕VAE的各种限制调参、换checkpoint，耗了大量精力。直接在像素上做，是大家隐约觉得「应该往这走」，但没人真的做出来的方向。

甚至有人说：「SenseTime is back to open source」。潜台词是，商汤之前在海外开源社区存在感不强，这次选了Apache 2.0，可以商用、可以自托管、权重随意拉取，没有额外限制，让人重新记起了这家公司。

从DeepSeek、Qwen、InternVL，现在再加上SenseNova，中国开源多模态模型的密集发布，正在快速收窄与西方头部实验室的差距。快速架构实验加开放权重，是闭源商业模型没法轻易复制的打法。

商汤现在已经把U1 Lite全面开源了，也配了调用工具，感兴趣的可以直接去跑一跑。

谷歌Gemini对4月中国国产开源模型的评价！4月国产开源模型谁最能打2026年