近日,科技界掀起了一场视觉。谷歌于3月26日凌晨发布了首个Gemini 2.5 Pro实验版本,而仅仅一小时后,OpenAI的创始人兼CEO萨姆·阿尔特曼便在直播中发布了GPT-4o图像生成技术,这被视为ChatGPT的重大升级。
这一升级不仅使图像生成功能得到了前所未有的提升,更是ChatGPT技术领域的一次飞跃。此次更新后的GPT-4o能够更加准确地遵循指令生成图像,而且根据知识库或上下文为用户生成、编辑图像提供了可能。OpenAI为GPT-4o配备了强大的知识库,使其在图像生成方面如虎添翼。
阿尔特曼在直播中亲自体验了这一新技术,他现场自拍生成了一张AGI梗图,展示了GPT-4o的强大功能。他还发表了一篇小长文,分享了自己对这一技术的看法和感受。阿尔特曼提到,他看到由GPT-4o生成的图像时,感到难以置信,这些图像的逼真程度超乎想象。
从今天起,GPT-4o图像生成技术已经作为ChatGPT中的默认图像生成器向Plus、Pro、Team和免费用户开放。这意味着企业和教育用户将很快能够体验到这项新功能带来的便利。这项功能不仅可以在Sora中使用,还可以通过专用的DALL·E GPT访问。开发者们可以通过API使用GPT-4o生成图像,并将在未来几周内开放访问权限。
GPT-4o图像生成技术与传统扩散模型运行的DALL·E根本不同。它是一个原生嵌入在ChatGPT中的自回归模型。OpenAI通过联合分发在线图像和文本来训练模型,使得模型能够学习图像与语言的关系,从而生成有用、一致且具备上下文感知的图像。
由于GPT-4o能够创建更加详细的图片,因此图像渲染时间相对较长,通常需要一分钟左右。这并不影响用户对这一新功能的期待和喜爱。
在OpenAI的官方博客中,展示了众多GPT-4o的生图案例。这些案例表明,GPT-4o可以生成手写体文字、进行图像编辑、生成照片级质感的图像等。它还可以利用知识库制作海报、贴纸等多样化内容。这些功能为用户提供了更加丰富的创作空间和更多可能性。
尽管GPT-4o具有许多优点和强大功能,但在实际应用中仍存在一些局限性和挑战。例如,在某些情况下,GPT-4o可能对较长图片的裁剪不够理想;对于用户上传的人脸编辑可能存在编辑不一致的问题;在某些复杂的提示下,GPT-4o可能会产生幻觉等。针对这些问题,OpenAI正在积极研发并寻求解决方案。
在研究过程中,OpenAI还采取了一系列缓解策略来应对GPT-4o图像生成带来的独特安全挑战。这些措施包括聊天模型拒绝、提示阻止和输出等。OpenAI还加强了对未成年人的保护措施,禁止13岁以下的用户使用其产品或服务。
GPT-4o的图像生成技术为多模态模型企业带来了新的发展方向和机遇。尽管还存在一些局限性和挑战需要克服但其在图像生成质量上的提升以及更准确的遵循指令等特点使其具有巨大的潜力和广阔的应用前景。未来随着技术的不断进步和完善我们有理由相信GPT-4o将为我们带来更多惊喜和便利的体验。