在沉寂数月后，OpenAI 再次向生成式 AI 领域投下重磅炸弹——ChatGPT Images 2.0（底层模型为 gpt-image-2）正式向全量用户推送。这款此前在 LM Arena AI 测试平台上以“duct tape（胶带）”为代号秘密测试的模型，正在彻底颠覆我们对 AI 图像生成的认知。

告别“盲盒”：AI 绘图进入“推理时代”

Images 2.0 最核心的技术突破，在于深度整合了 OpenAI 的“O系列”推理能力。传统的图像生成往往是一个黑盒：输入提示词，输出结果。而现在，引入了“智能体（Agentic）”的方法。当用户在 ChatGPT 中开启“思考（Thinking）”模式时，系统不再是简单地“作画”，而是在渲染第一个像素前，先进行检索、规划和结构推理。

正如官方发布说明所言：“图像是一种语言，而非单纯的装饰。一张好图应该像一个好句子一样——它负责筛选、排列和揭示信息。”

碾压级的多模态排版与复杂 UI 生成

在此之前，谷歌在 2026 年 2 月推出的 Nano Banana 2（Gemini 3.1 Pro Image）曾以出色的文本融合能力引发关注。然而，Images 2.0 在复杂任务上的表现似乎更胜一筹。

它不仅能完美生成大段的连贯多语种文本或复杂的文本面板，还能极其逼真地复刻 UI 界面和流行网站的屏幕截图。更令人惊叹的是，它能够一次性生成包含数据图表、地图、幻灯片（PPT）、漫画分镜以及多角度角色设计图（Character sheets）的复杂网格图像，甚至可以执行网络搜索，并将结果直接无缝排版到生成的图像中。