FineVision发布:开源视觉-语言模型训练数据集
• 覆盖17.3M张图片,24.3M样本,88.9M对话轮次,9.5B回答tokens,规模远超主流开源数据集
• 训练模型表现显著优于Cauldron、Cambrian、LLaVa等竞品,数据多样性与质量兼备
• 数据集污染率仅1%,相比其他数据集2-3%污染更低,保证了更真实的benchmark评测效果
• 每轮对话均由Qwen3-32B模型打分,评估格式、相关性、视觉依赖性与图像对应性,剔除高质量样本反而影响性能,显示稀疏样本的潜在价值
• 传统两阶段训练策略在FineVision上几乎无优势,一阶段训练即可达到同等甚至更优效果,简化流程提升效率
• 社区协作推动,期待FineVision激发更多创新应用,助力视觉-语言模型向更高水平发展
详细实验与数据集下载👉 huggingface.co/spaces/HuggingFaceM4/FineVision
官方博客解读🔗 huggingface.co/blog/finevision
视觉语言模型 开源数据集 人工智能 多模态学习 机器学习