🆕 新工具

OpenAI发布ChatGPT Images 2.0:一周一亿张图,"图片是语言,不是装饰"

OpenAI图像模型升级,gpt-image-2正式上线。指令遵循、细节还原、复杂文本渲染全面提升,还推出付费"深度思考"机制,瞄准专业用户市场。

来源: 证券时报/OpenAI API文档 →

平台导读
OpenAI发布图像模型gpt-image-2,一句话总结这次升级的核心:它不只是画图更强了,而是开始像”思考”之后再画图。付费的深度思考机制,让复杂图表和科学示意图第一次有了靠谱的生成方案。


OpenAI发布ChatGPT Images 2.0:一周一亿张图,图片是语言不是装饰

4月21日,OpenAI正式发布ChatGPT Images 2.0,同步登陆ChatGPT、Codex和API。

新模型gpt-image-2是OpenAI首个具备”思考”能力的图像模型,在大模型竞技场(Chatbot Arena)图像榜单上已登顶第一,文本到图像任务中断层领先第二名 Nano Banana 2 达240分。


这次升级了什么

1. 指令遵循大幅提升

上一代模型在复杂指令下容易”走偏”,新版对细节指令的理解更精准——你能要求”把左边第三个物体放在右边两个物体中间、底部对齐、保留倒影”,它能照着做。

2. 复杂文本渲染

之前AI生成图片里,文字基本是乱码重灾区。这次在渲染密集文字、标签、图表场景下改进明显,终于能做出一张文字正确的海报或信息图。

3. 付费”深度思考”机制

这是本次最值得关注的差异化功能。

gpt-image-2内置了类似GPT-4o的”Thinking”能力——模型在生成图像前,会先进行内部推理,规划画面布局、光影关系、元素位置,然后再生成。

这个机制目前只对 Plus、Pro、Business 和 Enterprise 用户开放。普通用户可以用基础模式,深度思考需要付费订阅。

官方目标场景:复杂图表、科学示意图、精确产品设计图——这些之前AI生成质量都不达标的专业场景。

4. 一次生成多张连贯图

用户可以在一句prompt里请求最多8张连贯输出,适合海报系列、多页文档插图、同一IP的不同场景图。

5. 更灵活的尺寸比例

支持 3:1 到 1:3 的宽高比范围,涵盖横版横幅、竖版海报、幻灯片、社交信息流各种格式。


规模数据

  • ChatGPT目前每周图像产出超10亿张
  • API支持最高 2K分辨率输出
  • 已向所有ChatGPT和Codex用户推送,API同步开放

”图片是语言,不是装饰”

OpenAI在发布说明里写了一句核心定位:

“Images are a language, not decoration.”

这句话的含义是:图片不是配图或美化素材,而是一种信息表达媒介——和文字、代码同等地位的表达工具。

这意味着OpenAI在做一件比”让AI画画”更大的事:让图像成为AI理解和生成的内容主流格式之一,嵌入到营销、出版、设计、产品的日常工作流里。


竞争格局

图像生成领域目前竞争激烈:

厂商模型特点
OpenAIgpt-image-2思考能力,登顶榜单
GoogleImagen 3文字渲染强
MidjourneyV7艺术风格主导
国产多个开源模型成本优势

Anthropic于4月16日发布的 Claude Opus 4.7 也强化了多模态图像理解能力,支持2576像素高分辨率图像。AI图像赛道正在从”能画”向”画得准”快速跃迁。


对职场人意味着什么

图像生成能力大幅提升后,以下岗位将直接受影响:

  • 营销/运营:海报、配图、社交媒体素材——以前需要设计师,现在一句话生成
  • 内容创作者:博客配图、视频封面——AI生成+人工微调成为新工作流
  • 产品经理:原型图、流程图——PRD里需要的插图不再依赖设计资源
  • 分析师/研究员:复杂图表、科学示意图——gpt-image-2的深度思考模式专门解决这类需求

AI图像能力已经越过了”玩具”阶段,开始进入Professional Workflow