FineVision发布:开源视觉-语言模型训练数据集•覆盖17.3M张图片,

爱生活爱珂珂 2025-09-05 08:42:07

FineVision发布:开源视觉-语言模型训练数据集

• 覆盖17.3M张图片,24.3M样本,88.9M对话轮次,9.5B回答tokens,规模远超主流开源数据集

• 训练模型表现显著优于Cauldron、Cambrian、LLaVa等竞品,数据多样性与质量兼备

• 数据集污染率仅1%,相比其他数据集2-3%污染更低,保证了更真实的benchmark评测效果

• 每轮对话均由Qwen3-32B模型打分,评估格式、相关性、视觉依赖性与图像对应性,剔除高质量样本反而影响性能,显示稀疏样本的潜在价值

• 传统两阶段训练策略在FineVision上几乎无优势,一阶段训练即可达到同等甚至更优效果,简化流程提升效率

• 社区协作推动,期待FineVision激发更多创新应用,助力视觉-语言模型向更高水平发展

详细实验与数据集下载👉 huggingface.co/spaces/HuggingFaceM4/FineVision

官方博客解读🔗 huggingface.co/blog/finevision

视觉语言模型 开源数据集 人工智能 多模态学习 机器学习

0 阅读:0
爱生活爱珂珂

爱生活爱珂珂

感谢大家的关注