[CV]《Pixal3D: Pixel-Aligned 3D Generation from Images》D Li, W Zhao, Y Chen, W Hu… [Tsinghua University & Tencent ARC Lab] (2026)
在图像到3D生成中,模型常能补全形状,却难以忠实贴合输入图像。过去方法在规范空间生成,再用注意力注入图像,本质是像素与3D位置的对应关系含混。
本文的核心洞见是:把3D生成重新看作相机视角下的像素对齐重建。由此,将图像特征沿射线反投影进3D体素,使每个体素直接携带对应像素线索。
这项工作真正留下的遗产是:3D生成可同时保留补全能力与重建级贴合度。它打开的新门是单图、多视图到场景的统一生成,但尚未跨过的门槛是噪声边界、相机位姿和遮挡补全误差。
arxiv.org/abs/2605.10922 机器学习 人工智能 论文 AI创造营






