ChatGPT的全新图像2.0模型在文生图像方面出奇的出色-堆代码网

ChatGPT的全新图像2.0模型在文生图像方面出奇的出色

发布于 1个月前
 193 热度

 0 评论

诗人诗意
0 粉丝 48 篇博客

堆代码讯两年前，想要用 AI 图像生成工具制作一份墨西哥餐厅的菜单，最终得到的只会是一堆充满拼写错误的虚构菜品 —— 模型会凭空造出 “enchuita”“churiros” 这类根本不存在的美食，让这份菜单完全无法投入使用。而如今，OpenAI 全新推出的 ChatGPT 图像 2.0，已经彻底改变了这一局面：当用户向新模型索要一份墨西哥食物菜单时，它生成的内容已经可以直接打印出来给餐厅使用，顾客甚至根本不会察觉到这是 AI 的作品，唯一可能引发怀疑的，或许只有 13.5 美元一份的酸橘汁腌鱼的定价。

这场肉眼可见的进步，背后是 AI 图像生成技术的跨越式升级，也标志着 AI 生图终于从 “能看” 迈入了 “能用” 的实用阶段。

攻克老大难：文字渲染的技术突破

AI 图像生成器的文字短板，曾是行业多年来的痛点，而这一问题的根源，在于过去主流的扩散模型的工作逻辑。扩散模型的核心原理是从随机噪声中逐步重建图像，在这个过程中，图像里的文字只占了极小一部分的像素。正如 Lesan AI 的创始人兼 CEO Asmelash Teka Hadgu 在 2024 年解释的那样：“我们可以认为图像上的文字只占非常非常小的一部分，因此图像生成器学习的是覆盖更多像素的模式。” 这就导致模型很难精准学习到文字的细节，最终生成的文字往往扭曲、错漏，甚至完全是乱码。

为了解决这一问题，研究人员开始探索全新的图像生成机制，比如自回归模型 —— 这类模型的运作方式更像大语言模型，通过逐步预测图像的内容来构建画面，能够更好地理解内容的结构与逻辑，而非单纯的像素模式。尽管在本周的发布会上，OpenAI 拒绝透露 ChatGPT 图像 2.0 具体采用了何种模型架构，但行业普遍猜测，新模型已经摒弃了前代 DALL-E 系列的扩散架构，转而采用了自回归多模态架构，这也正是它能够完美解决文字渲染问题的核心原因。根据 OpenAI 的介绍，新模型对日语、韩语、印地语、孟加拉语等非拉丁文字的渲染理解能力也有了显著提升，彻底打破了过去 AI 生图对多语言文字的支持短板。

会 “思考” 的生图模型：从画图到做设计

除了文字能力的突破，ChatGPT 图像 2.0 最引人注目的升级，是它首次拥有了 “思考能力”。OpenAI 介绍，新模型不再像过去的生图工具那样，拿到提示词就直接输出图像，而是会先进行一系列的准备工作：它可以联网搜索网页获取实时信息，能够根据用户的需求规划图像的结构，甚至在生成完成后对结果进行自我复核，修正其中的错误。

这一能力让图像 2.0 能够完成过去 AI 生图很难做到的复杂任务：它可以生成不同尺寸的营销素材，也能创作角色连贯的多格漫画，甚至能精准渲染那些过去常常难倒图像模型的精细元素 —— 小文字、图标、UI 界面、密集的构图，还有微妙的风格约束，最终输出最高 2K 分辨率的成品。为了保证内容的准确性，新模型的知识截止到 2025 年 12 月，这意味着它能够基于最新的知识生成内容，不过对于涉及超近期新闻的提示，可能会存在一定的准确性限制。当然，这种 “思考” 也带来了一定的速度变化：图像生成不再像过去向 ChatGPT 输入问题那样瞬间出结果，但哪怕是生成多格漫画这类复杂内容，整个过程也只需要几分钟，完全在可接受的范围内。

目前，ChatGPT 图像 2.0 已经正式向用户开放：从周二开始，所有 ChatGPT 和 Codex 用户都可以使用这一新功能，而付费用户还能解锁更高级的输出能力。同时，OpenAI 也推出了对应的 gpt-image-2 API，开发者可以将这一能力集成到自己的产品中，API 的定价将根据输出的质量和分辨率进行调整。对于整个行业而言，这次升级的意义远不止是让 AI 能写对字：过去的 AI 生图，更多是用于创作观赏类的艺术作品，而现在，它已经能够胜任商业场景的实用需求 —— 餐厅的菜单、企业的营销海报、产品的 UI 设计、信息图表，这些过去需要专业设计师完成的工作，如今 AI 已经可以高效完成。

从两年前连菜单都做不对，到现在能支撑全场景的商用设计，AI 图像生成的进步速度远超所有人的想象，而随着技术的不断迭代，这场生产力的变革，才刚刚开始。

 用户评论

IT那些事
 348 成员 |  4632 话题
+我要提问 +随便写写

可能感兴趣的话题

通用汽车的电动未来取决于一款新电池——以及这座工厂

里德·霍夫曼离开微软董事会，以“创始人模式”投身初创公司Manus

IPO 临门再落算力大单，谷歌敲定 SpaceX 长期算力租赁协议

AirTrunk斥资300亿美元布局印度数据中心市场