• ChatGPT的全新图像2.0模型在文生图像方面出奇的出色
  • 发布于 1小时前
  • 8 热度
    0 评论

堆代码讯 两年前,想要用 AI 图像生成工具制作一份墨西哥餐厅的菜单,最终得到的只会是一堆充满拼写错误的虚构菜品 —— 模型会凭空造出 “enchuita”“churiros” 这类根本不存在的美食,让这份菜单完全无法投入使用。而如今,OpenAI 全新推出的 ChatGPT 图像 2.0,已经彻底改变了这一局面:当用户向新模型索要一份墨西哥食物菜单时,它生成的内容已经可以直接打印出来给餐厅使用,顾客甚至根本不会察觉到这是 AI 的作品,唯一可能引发怀疑的,或许只有 13.5 美元一份的酸橘汁腌鱼的定价。

这场肉眼可见的进步,背后是 AI 图像生成技术的跨越式升级,也标志着 AI 生图终于从 “能看” 迈入了 “能用” 的实用阶段。


攻克老大难:文字渲染的技术突破

AI 图像生成器的文字短板,曾是行业多年来的痛点,而这一问题的根源,在于过去主流的扩散模型的工作逻辑。扩散模型的核心原理是从随机噪声中逐步重建图像,在这个过程中,图像里的文字只占了极小一部分的像素。正如 Lesan AI 的创始人兼 CEO Asmelash Teka Hadgu 在 2024 年解释的那样:“我们可以认为图像上的文字只占非常非常小的一部分,因此图像生成器学习的是覆盖更多像素的模式。” 这就导致模型很难精准学习到文字的细节,最终生成的文字往往扭曲、错漏,甚至完全是乱码。


为了解决这一问题,研究人员开始探索全新的图像生成机制,比如自回归模型 —— 这类模型的运作方式更像大语言模型,通过逐步预测图像的内容来构建画面,能够更好地理解内容的结构与逻辑,而非单纯的像素模式。尽管在本周的发布会上,OpenAI 拒绝透露 ChatGPT 图像 2.0 具体采用了何种模型架构,但行业普遍猜测,新模型已经摒弃了前代 DALL-E 系列的扩散架构,转而采用了自回归多模态架构,这也正是它能够完美解决文字渲染问题的核心原因。根据 OpenAI 的介绍,新模型对日语、韩语、印地语、孟加拉语等非拉丁文字的渲染理解能力也有了显著提升,彻底打破了过去 AI 生图对多语言文字的支持短板。

会 “思考” 的生图模型:从画图到做设计

除了文字能力的突破,ChatGPT 图像 2.0 最引人注目的升级,是它首次拥有了 “思考能力”。OpenAI 介绍,新模型不再像过去的生图工具那样,拿到提示词就直接输出图像,而是会先进行一系列的准备工作:它可以联网搜索网页获取实时信息,能够根据用户的需求规划图像的结构,甚至在生成完成后对结果进行自我复核,修正其中的错误。


这一能力让图像 2.0 能够完成过去 AI 生图很难做到的复杂任务:它可以生成不同尺寸的营销素材,也能创作角色连贯的多格漫画,甚至能精准渲染那些过去常常难倒图像模型的精细元素 —— 小文字、图标、UI 界面、密集的构图,还有微妙的风格约束,最终输出最高 2K 分辨率的成品。为了保证内容的准确性,新模型的知识截止到 2025 年 12 月,这意味着它能够基于最新的知识生成内容,不过对于涉及超近期新闻的提示,可能会存在一定的准确性限制。当然,这种 “思考” 也带来了一定的速度变化:图像生成不再像过去向 ChatGPT 输入问题那样瞬间出结果,但哪怕是生成多格漫画这类复杂内容,整个过程也只需要几分钟,完全在可接受的范围内。


目前,ChatGPT 图像 2.0 已经正式向用户开放:从周二开始,所有 ChatGPT 和 Codex 用户都可以使用这一新功能,而付费用户还能解锁更高级的输出能力。同时,OpenAI 也推出了对应的 gpt-image-2 API,开发者可以将这一能力集成到自己的产品中,API 的定价将根据输出的质量和分辨率进行调整。对于整个行业而言,这次升级的意义远不止是让 AI 能写对字:过去的 AI 生图,更多是用于创作观赏类的艺术作品,而现在,它已经能够胜任商业场景的实用需求 —— 餐厅的菜单、企业的营销海报、产品的 UI 设计、信息图表,这些过去需要专业设计师完成的工作,如今 AI 已经可以高效完成。


从两年前连菜单都做不对,到现在能支撑全场景的商用设计,AI 图像生成的进步速度远超所有人的想象,而随着技术的不断迭代,这场生产力的变革,才刚刚开始。
用户评论