【OpenAI 推出 ChatGPT Images 2.0,具备思考能力和更佳的文本渲染效果】
图像是一种语言,而非装饰。好的图像如同好的句子一样,能够进行选择、安排和揭示。它可以解释某种机制,营造某种氛围,验证某种观点,或者提出论点。
OpenAI 本周发布了 ChatGPT Images 2.0,开启了图像生成的新时代。Images 2.0 是一个升级版模型,能够更好地处理复杂的视觉任务。
这款模型能够遵循详细的指令执行,准确地放置和关联物体,保留精细的细节,并渲染复杂的布局。它拥有更出色的构图和视觉美感,使最终效果看起来不那么像 AI 生成,而更像是精心设计的作品。它支持多种语言,并利用其丰富的视觉和世界知识来自动填补空白,从而让你无需过多提示即可获得更智能的图像。
为了扩展模型处理复杂任务的能力,Images 2.0 是 OpenAI 首个具备思考能力的图像模型。在 ChatGPT 中选择思考型或专业型模型后,Images 2.0 能够搜索网络获取实时信息,根据单个提示最多生成八张图像,并可对输出结果进行双重检查。图形可以以多种宽高比创建,最高支持 2K 分辨率。新模型还提升了多语言理解能力,能够更好地渲染日语、韩语、中文、印地语和孟加拉语等非拉丁文本。它不仅能正确渲染带有非英语文本的图像,还能使语言流畅连贯。
这不仅包括翻译一两个标签,还包括生成视觉上连贯一致的输出内容,并将语言本身融入设计之中,例如海报、说明文字、图表和漫画。这使得该模型更具全球适用性,并帮助人们创建能够用他们实际使用的语言呈现的视觉内容。
Images 2.0 现已面向所有 ChatGPT、Codex 和 API 用户开放。
