就在 DeepSeek V3「小版本更新」,阿里通义千问团队开源了新模子后,OpenAI 深夜也静静搞事件。毫无预报地,OpenAI 推出 GPT-4o 原生图像天生。后果让人赞叹不已。更妙的是,即便收费用户也可应用。

先来休会一下:

在天生成果中能够看到,GPT-4o 在履行义务时起首会对咱们的原始提醒词停止优化,编写一个愈加具体的英文版提醒词:

在 OpenAI 看来,图像天生应当是言语模子的中心才能之一。因而他们将开始进的图像天生器 4o 集成到了 GPT-4o 中。2024 年 5 月,OpenAI 宣布其首个万能多模态模子 GPT-4o,与 ChatGPT 之前采取的天生式 AI 图像模子(OpenAI 的 DALL-E 3)差别 —— 这个经典的 diffusion transformer 经由过程去除像素噪声来依据文本提醒重修图像 —— 新的图像天生器被整合到了统一个多模态模子中。OpenAI 对全部模子停止了同一练习,使其可能同时懂得文本、代码跟图像等多种情势。GPT-4o 的图像天生才能存在以下凸起上风:它能精准浮现笔墨内容,严厉遵守指令请求,并充足挪用 4o 内置常识库跟对话高低文 —— 包含对上传图像停止转化处置或将其作为视觉灵感起源。这些特征让用户能更轻松地发明出与设想完整分歧的图像,经由过程视觉表白实现更高效的相同,从而将图像天生技巧进级为兼具准确性与适用性的强盛东西。后果怎样,咱们接着往下看。有效且漂亮的图像天生OpenAI 基于在线图像跟文本对模子停止了练习,这不只让模子进修了图像与言语之间的关联,还进修了图像之间的彼此关联。联合后练习,终极的模子存在令人惊奇的视觉流利性,可能天生有效、分歧且存在高低文感知才能的图像。文本衬着一图胜千言,但偶然在适当地位天生多少个字就能升华图像意境。4o 将精准标记与视觉元素完善融会的才能,使图像天生进阶为真正的视觉转达东西。提醒:「创立一张真切的照片,内容是两名 20 多岁的女巫(一名是灰白色挑染发型,另一名是长卷的红褐色头发)正在浏览一个街标。配景:纽约威廉斯堡一条一般的都会街道,一根电线杆上完整被很多具体的街标笼罩(比方,街道打扫时光、须要泊车允许证、车辆分类、拖车规矩),包含旁边的多少个荒诞的标记:Broom Parking for Witches Not Permitted in Zone C,Magic Carpet Loading and Unloading Only (15-Minute Limit) 等等。人物:一名女巫拿着一把扫帚,另一名女巫拿着一个卷起的邪术地毯。她们在远景中,身材轻轻背向相机,头部轻轻倾斜,细心检查标记。从配景到远景的构图:街道 + 停放的汽车 + 建造物 → 街标 → 女巫。人物必需是离拍摄相机近来的。」这就是天生一张图片的局部提醒词,提醒词描写的堪称十分具体。GPT-4o 岂但严厉遵守指令,还将提醒语中的文本字符也正确的表白出来了。