OpenAI发布ChatGPT Images 2.0:一周一亿张图,"图片是语言,不是装饰"
OpenAI图像模型升级,gpt-image-2正式上线。指令遵循、细节还原、复杂文本渲染全面提升,还推出付费"深度思考"机制,瞄准专业用户市场。
来源: 证券时报/OpenAI API文档 →平台导读
OpenAI发布图像模型gpt-image-2,一句话总结这次升级的核心:它不只是画图更强了,而是开始像”思考”之后再画图。付费的深度思考机制,让复杂图表和科学示意图第一次有了靠谱的生成方案。
OpenAI发布ChatGPT Images 2.0:一周一亿张图,图片是语言不是装饰
4月21日,OpenAI正式发布ChatGPT Images 2.0,同步登陆ChatGPT、Codex和API。
新模型gpt-image-2是OpenAI首个具备”思考”能力的图像模型,在大模型竞技场(Chatbot Arena)图像榜单上已登顶第一,文本到图像任务中断层领先第二名 Nano Banana 2 达240分。
这次升级了什么
1. 指令遵循大幅提升
上一代模型在复杂指令下容易”走偏”,新版对细节指令的理解更精准——你能要求”把左边第三个物体放在右边两个物体中间、底部对齐、保留倒影”,它能照着做。
2. 复杂文本渲染
之前AI生成图片里,文字基本是乱码重灾区。这次在渲染密集文字、标签、图表场景下改进明显,终于能做出一张文字正确的海报或信息图。
3. 付费”深度思考”机制
这是本次最值得关注的差异化功能。
gpt-image-2内置了类似GPT-4o的”Thinking”能力——模型在生成图像前,会先进行内部推理,规划画面布局、光影关系、元素位置,然后再生成。
这个机制目前只对 Plus、Pro、Business 和 Enterprise 用户开放。普通用户可以用基础模式,深度思考需要付费订阅。
官方目标场景:复杂图表、科学示意图、精确产品设计图——这些之前AI生成质量都不达标的专业场景。
4. 一次生成多张连贯图
用户可以在一句prompt里请求最多8张连贯输出,适合海报系列、多页文档插图、同一IP的不同场景图。
5. 更灵活的尺寸比例
支持 3:1 到 1:3 的宽高比范围,涵盖横版横幅、竖版海报、幻灯片、社交信息流各种格式。
规模数据
- ChatGPT目前每周图像产出超10亿张
- API支持最高 2K分辨率输出
- 已向所有ChatGPT和Codex用户推送,API同步开放
”图片是语言,不是装饰”
OpenAI在发布说明里写了一句核心定位:
“Images are a language, not decoration.”
这句话的含义是:图片不是配图或美化素材,而是一种信息表达媒介——和文字、代码同等地位的表达工具。
这意味着OpenAI在做一件比”让AI画画”更大的事:让图像成为AI理解和生成的内容主流格式之一,嵌入到营销、出版、设计、产品的日常工作流里。
竞争格局
图像生成领域目前竞争激烈:
| 厂商 | 模型 | 特点 |
|---|---|---|
| OpenAI | gpt-image-2 | 思考能力,登顶榜单 |
| Imagen 3 | 文字渲染强 | |
| Midjourney | V7 | 艺术风格主导 |
| 国产 | 多个开源模型 | 成本优势 |
Anthropic于4月16日发布的 Claude Opus 4.7 也强化了多模态图像理解能力,支持2576像素高分辨率图像。AI图像赛道正在从”能画”向”画得准”快速跃迁。
对职场人意味着什么
图像生成能力大幅提升后,以下岗位将直接受影响:
- 营销/运营:海报、配图、社交媒体素材——以前需要设计师,现在一句话生成
- 内容创作者:博客配图、视频封面——AI生成+人工微调成为新工作流
- 产品经理:原型图、流程图——PRD里需要的插图不再依赖设计资源
- 分析师/研究员:复杂图表、科学示意图——gpt-image-2的深度思考模式专门解决这类需求
AI图像能力已经越过了”玩具”阶段,开始进入Professional Workflow。