用ChatGPT新功能修了张图发朋友圈，结果私信全在问怎么做到的？

在今天凌晨 OpenAI 发布新一代文生图功能的时候，大家还不是很清楚它的实力，还以为是跟在 Gemini 后头，带来一些迟到的升级。

GPT 不语，只是一昧地让用户案例震惊全场。

在最新的迭代中，OpenAI 带来了文生图功能上，突破性的指令遵循和一致性表现。只需最简单的文字 prompt，就可以实现高精度的图片细部微调——一切修改只需要在会话当中进行，无需任何按钮、笔刷等额外操作。

魔法不用笔刷，只用咒语

和 Gemini 类似，这次 OpenAI 的更新，重点不在于能做多写实、多复杂的图片，而在于指令遵循和一致性，并且是在只使用自然语言指令的前提下。

先来看一组比较入门级的食物照片，prompt 也非常简单：generate an image of coffee and bread。

随后，在原图的基础上要求改成冰咖啡、涂果酱。

除了杯柄之外，该加的加，该留的留，指令遵循非常出色。

涉及到人像的图片，也有稳定的表现。

仔细看的话，还是有一些小地方是在变动的，但最关键的人体动作、衣服皱褶、表情，都没有瑕疵。

在这组图的时候，碰到了内容风控，报错称不符合政策要求。不过，它理解到了原指令的意图，提出了修改方案。

这最后一张，也是生成效果最好最自然的一张。

画面内容简单的任务自然是手拿把掐，那么复杂一点的呢？

之前在 Gemini 的生图测试中，我们出过一张城市街头景象，效果非常惊人，再看一遍：

同样的 prompt，给 ChatGPT 执行，在画面效果上稍微差了一点，尤其是到夜晚这张，几乎已经看不到人群细节了。

当然这个问题比较偏向于是审美不同，在对关键元素的识别上是没问题的，甚至能捕捉到「茑屋书店」这样小的细节，字体生成也挺稳的。

除了直接用文字生成，还可以上传图片进行修改——这里，最震撼的一集来了。

在上传了 png 格式的 APPSO 标志之后，第一步简单的变个 3D 立体。

效果还可以，阴影方向不一致，但符合光线本身即可。接下来再做点调整。

震撼！这两次调整的 prompt，不过是二十来个字而已。

（甚至默认数码产品都是 Apple 的，一些没有说的属性真是偷偷藏不住呀。）

随后的小角度微调也很准确。

▲ prompt：调整角度，使红色logo变成正面，其余保持不动

细节微调是这次更新非常大的亮点，能够准确将指令与相对应的细部关联起来，从而完成精确的局部修改。

▲ prompt：调整角度，镜头从右前方拍摄，整体光线变暗，一束强光从右侧打亮机器的一部分，旁边搭配咖啡豆

指令中包含了光效、镜头角度、元素增补等关键内容，模型能够准确识别，而且整体性地进行调整。指哪改哪四个字，都已经说倦了。

这次的更新中，最意外的应该是在同一个会话中，生图和生文迅速切换的能力。

比如在下面这张图中，最早的指令是生成一个礼物包装指南。

首先给出来的是一个图文版——不算是错，我没有指明是要做图文版，还是文字版，指令是很模糊的。

在生成文字版之后，ChatGPT 主动询问是不是要做图文版，在收到确认的答复之后，给出了图文并茂的版本。

这意味着模型的准确反应，不仅体现在理解单一指令上，也体现在领悟用户潜在意图上，比用户「多想一步」。

实际上，这也是此前 Deep Research 发布时就展现出来的能力。OpenAI 的深度检索，是少数会主动向用户询问、明确任务执行细节的模型。

类似的能力，这次迁移到了生图当中，从使用感受而言，比在 Deep Research 上的更直观可感。

例如可以用来制作日常的告示说明，图文一锅都「端」了。

整体来看，这次最惊人的肯定要属一致性和指令遵循的同步到位。

按照惯例，每次测评都应该有一些「使用指南」——这次真的没有发现什么注意事项，一切只要按照自己的想法，敲击键盘，输入文字，就行了。没有什么「技巧」或者「窍门」。

通过 prompt 生图及改图的一致性，是文生图非常关键的问题，它既跟模型能力相关，又和工程能力相关。在指令遵循和一致性有这么大的进步之前，主要是通过 prompting 来解决的，压力是在用户这一边。

所以会有各种各样的 prompt 模版、攻略，教大家怎么「跟模型打交道」。但那不是自然语言交互应该有的状态，模型在面对人的时候，接受的就是用户最直接的指令——让人先学一通怎么写 prompt，着实很劝退。

Gemini 和 OpenAI 近期的更新，让热度有所降低的生图赛道又重新热闹了起来。它们也展示出了同一个共同点：一些修图改图产品，通过增加按钮、入口，来增加生图的可操控性，以此来对抗模型幻觉的日子，已经远去了。

一致性的问题解决的并不仅仅只是图片生成的问题，更加是「使用图片生成功能」过程中的小麻烦。某种意义上，也是一种工程层面的优化。

修改、生成都是可以用模型对文字指令的准确理解来实现——在这个层面上，「模型即产品」仍然成立。