【电商信息网】-免费发布分类信息

扫一扫关注

当前位置: 首页 » 新闻 » 科技 » 正文

用ChatGPT新功能修了张图发朋友圈,结果私信全在问怎么做到的?

放大字体  缩小字体 发布日期:2025-03-26 18:24:51
导读

在今天凌晨 OpenAI 发布新一代文生图功能的时候,大家还不是很清楚它的实力,还以为是跟在 Gemini 后头,带来一些迟到的升级。GPT 不语,只是一昧地让用户案例震惊全场。在最新的迭代中,OpenAI 带来了文生图功能上,突破性的指令

在今天凌晨 OpenAI 发布新一代文生图功能的时候,大家还不是很清楚它的实力,还以为是跟在 Gemini 后头,带来一些迟到的升级。

GPT 不语,只是一昧地让用户案例震惊全场。

在最新的迭代中,OpenAI 带来了文生图功能上,突破性的指令遵循和一致性表现。只需最简单的文字 prompt,就可以实现高精度的图片细部微调——一切修改只需要在会话当中进行,无需任何按钮、笔刷等额外操作。

魔法不用笔刷,只用咒语

和 Gemini 类似,这次 OpenAI 的更新,重点不在于能做多写实、多复杂的图片,而在于指令遵循和一致性,并且是在只使用自然语言指令的前提下。

先来看一组比较入门级的食物照片,prompt 也非常简单:generate an image of coffee and bread。

随后,在原图的基础上要求改成冰咖啡、涂果酱。

除了杯柄之外,该加的加,该留的留,指令遵循非常出色。

涉及到人像的图片,也有稳定的表现。

仔细看的话,还是有一些小地方是在变动的,但最关键的人体动作、衣服皱褶、表情,都没有瑕疵。

在这组图的时候,碰到了内容风控,报错称不符合政策要求。不过,它理解到了原指令的意图,提出了修改方案。

这最后一张,也是生成效果最好最自然的一张。

画面内容简单的任务自然是手拿把掐,那么复杂一点的呢?

之前在 Gemini 的生图测试中,我们出过一张城市街头景象,效果非常惊人,再看一遍:

同样的 prompt,给 ChatGPT 执行,在画面效果上稍微差了一点,尤其是到夜晚这张,几乎已经看不到人群细节了。

当然这个问题比较偏向于是审美不同,在对关键元素的识别上是没问题的,甚至能捕捉到「茑屋书店」这样小的细节,字体生成也挺稳的。

除了直接用文字生成,还可以上传图片进行修改——这里,最震撼的一集来了。

在上传了 png 格式的 APPSO 标志之后,第一步简单的变个 3D 立体。

效果还可以,阴影方向不一致,但符合光线本身即可。接下来再做点调整。

震撼!这两次调整的 prompt,不过是二十来个字而已。

(甚至默认数码产品都是 Apple 的,一些没有说的属性真是偷偷藏不住呀。)

随后的小角度微调也很准确。

▲ prompt:调整角度,使红色logo变成正面,其余保持不动

细节微调是这次更新非常大的亮点,能够准确将指令与相对应的细部关联起来,从而完成精确的局部修改。

▲ prompt:调整角度,镜头从右前方拍摄,整体光线变暗,一束强光从右侧打亮机器的一部分,旁边搭配咖啡豆

指令中包含了光效、镜头角度、元素增补等关键内容,模型能够准确识别,而且整体性地进行调整。指哪改哪四个字,都已经说倦了。

这次的更新中,最意外的应该是在同一个会话中,生图和生文迅速切换的能力。

比如在下面这张图中,最早的指令是生成一个礼物包装指南。

首先给出来的是一个图文版——不算是错,我没有指明是要做图文版,还是文字版,指令是很模糊的。

在生成文字版之后,ChatGPT 主动询问是不是要做图文版,在收到确认的答复之后,给出了图文并茂的版本。

这意味着模型的准确反应,不仅体现在理解单一指令上,也体现在领悟用户潜在意图上,比用户「多想一步」。

实际上,这也是此前 Deep Research 发布时就展现出来的能力。OpenAI 的深度检索,是少数会主动向用户询问、明确任务执行细节的模型。

类似的能力,这次迁移到了生图当中,从使用感受而言,比在 Deep Research 上的更直观可感。

例如可以用来制作日常的告示说明,图文一锅都「端」了。

整体来看,这次最惊人的肯定要属一致性和指令遵循的同步到位。

按照惯例,每次测评都应该有一些「使用指南」——这次真的没有发现什么注意事项,一切只要按照自己的想法,敲击键盘,输入文字,就行了。没有什么「技巧」或者「窍门」。

通过 prompt 生图及改图的一致性,是文生图非常关键的问题,它既跟模型能力相关,又和工程能力相关。在指令遵循和一致性有这么大的进步之前,主要是通过 prompting 来解决的,压力是在用户这一边。

所以会有各种各样的 prompt 模版、攻略,教大家怎么「跟模型打交道」。但那不是自然语言交互应该有的状态,模型在面对人的时候,接受的就是用户最直接的指令——让人先学一通怎么写 prompt,着实很劝退。

Gemini 和 OpenAI 近期的更新,让热度有所降低的生图赛道又重新热闹了起来。它们也展示出了同一个共同点:一些修图改图产品,通过增加按钮、入口,来增加生图的可操控性,以此来对抗模型幻觉的日子,已经远去了。

一致性的问题解决的并不仅仅只是图片生成的问题,更加是「使用图片生成功能」过程中的小麻烦。某种意义上,也是一种工程层面的优化。

修改、生成都是可以用模型对文字指令的准确理解来实现——在这个层面上,「模型即产品」仍然成立。

 
(文/小编)
打赏
免责声明
• 
本文为小编原创作品,作者: 小编。欢迎转载,转载请注明原文出处:/news/show-7361164.html 。本文仅代表作者个人观点,本站未对其内容进行核实,请读者仅做参考,如若文中涉及有违公德、触犯法律的内容,一经发现,立即删除,作者需自行承担相应责任。涉及到版权或其他问题,请及时联系我们。
 

(c)2016-2021 SOQUANMAO.COM All Rights Reserved搜全贸版权所有 浙ICP备2021030705号-2

浙ICP备2021030705号-2