AI 公司们计划在硬件和数据中心上投入万亿美元,但目前来看,成果还没那么明显。这就让不少人开始担心,生成式 AI 会不会就是个泡沫。我们不打算预言未来,但我觉得我们对目前的情况分析还是挺靠谱的。在这篇文章中,我们会讲解 AI 公司所犯的错误及其纠正尝试。然后,我们将讨论它们在使生成式 AI 商业化以证明投资合理性之前仍需克服的五大障碍。
一.产品市场契合度
当 ChatGPT 推出时,人们发现了成千上万种意想不到的用途。这让 AI 开发者们太过兴奋,以至于完全误解了市场,低估了从概念验证到可靠产品之间的巨大差距。这种误解让商业化的策略跑偏了,出现了两种极端但都不太对路的 LLM 商业化策略。OpenAI 和 Anthropic 专注于构建模型,而不关注产品。例如,OpenAI 花了 6 个月才推出 ChatGPT 的 iOS 应用,8 个月才发布 Android 应用!
谷歌和微软好像在搞一场紧张刺激的竞赛,他们急着把 AI 塞进所有产品里,也没好好想想哪些产品真的需要 AI,或者怎么把 AI 和产品融合得更自然。这两类公司似乎都忘了 “做用户真正需要的东西” 这条金科玉律。LLM 的广泛适用性让开发者们产生了一种错觉,以为他们可以不用太考虑产品和市场的契合度。他们错误地以为,只要给模型几个提示词,就能让模型完成各种任务,这好像就能代替那些精心设计的产品功能了。
OpenAI 和 Anthropic 的 DIY 方式,让那些愿意花时间捣鼓新技术的恶意用户成了 LLM 的早期用户。这些人更愿意去适应新技术,但普通用户呢,他们需要的是简单易用的产品。这样一来,也给公众留下了不太好的印象,觉得这项技术可能不太靠谱。
微软和谷歌的策略,就是要把 AI 塞进每个角落,结果呢,弄出了一些偶尔能派上用场,但更多时候让人头疼的功能。这种 “AI 无处不在” 的做法,还因为测试不够充分,搞出了些低级错误,比如微软之前的那个 Sydney 聊天机器人,还有谷歌的 Gemini 图像生成器。这些情况也引起了很多人的不满和反对。
所以这些公司也在调整策略。OpenAI 看起来正从那种只关注未来研究的实验室,慢慢转变成更像一家普通的产品公司。如果咱们不提 OpenAI 董事会里那些复杂的人际关系,核心问题其实是公司从创造 “神级” 技术到打造实际产品的转变。Anthropic 则是吸收了那些在 OpenAI 里觉得不太适应,更关注通用人工智能的研究人员和开发者。尽管如此,Anthropic 也意识到,要让技术落地,还是得好好构建产品。
谷歌和微软在调整策略上可能动作慢了一些,但我们觉得苹果可能会逼他们加快步伐。去年,苹果在 AI 领域看起来像是掉队了,但现在,他们在 WWDC 开发者大会上展示的那种慢条斯理、深思熟虑的方法,可能更能打动用户的心。谷歌似乎也在琢磨怎么在即将推出的 Pixel 手机和 Android 系统中更好地整合 AI,而不是只想着把 AI 塞进搜索中。不过,手机还没正式发布,具体效果还得看看再说。
Meta 的野心是用 AI 在它的广告驱动的社交媒体平台上创造内容,提高大家的参与度。从社会角度来看,AI 生成的内容满天飞,这事儿有好有坏,但站在商业的角度看,这步棋还是挺精明的。
二.消费级 AI 的五大挑战
要打造出吸引人的 AI 消费产品,开发者们得搞定 LLM 的五大难题。
成本
在很多情况下,AI 的能力不是问题,成本才是。比如说,一个简单的聊天机器人,它能记住的对话历史长度,很大程度上取决于成本。如果每次回复都要处理整个对话历史,那成本随着对话的增长就会变得非常高。
不过,在过去的 18 个月里,成本已经大幅下降了,同等能力的 AI 成本下降了 99%。所以,很多公司都说 LLM 已经或者快要变得 “便宜到不用考虑成本” 了。但除非他们真的把 API 免费开放,否则我们还是持保留态度。
严肃地说,我们认为成本问题还会是一个焦点,因为在很多应用里,成本的降低可以直接提高准确性。这是因为在 LLM 的不确定性下,通过多次尝试,可以大大增加成功的机会。模型越便宜,我们就能在同样的预算下进行更多的尝试。我们在最近一篇关于 Agent 的论文里已经量化了这一点,而且从那以后,也有其他论文提出了类似的看法。
论文链接:https://www.aisnakeoil.com/p/new-paper-ai-agents-that-matter
也就是说,可能在不久的将来,大多数应用中,成本优化就不再是一个大问题了。
可靠性
我们认为,AI 的能力跟它的可靠性是两回事。比如说,如果一个 AI 系统在 90% 的情况下能正确完成任务,那我们可以说它有能力完成任务,但要说它可靠,那就差远了。有时候,能让我们达到 90% 的技术,并不一定能帮我们达到 100%。
对于基于统计学习的系统来说,想要达到完美的准确性,那是非常困难的。你看看那些机器学习的成功案例,比如广告定位、欺诈检测,或者是天气预报,它们的目标并不是完美无缺,只要比现有的技术好,那它就有用。甚至在医疗诊断和其他健康应用中,我们也会容忍一定程度的错误。
但是,当开发者把 AI 用在消费品上,消费者希望它像其他软件一样可靠,也就是说,它得按预期那样工作。比如,如果你的 AI 旅行助手只有 90% 的准确率,那它就不太可能会成功。就像我们之前讨论过的,可靠性的限制也是最近一些 AI 小工具失败的原因之一。
AI 开发者们对这个问题的认识可能有点慢,因为我们这些专家习惯于把 AI 看作是和传统软件完全不同的东西。比如,我们两个人都是在日常工作中经常用到聊天机器人和 Agent 的人,对于这些工具的幻觉和不稳定性,我们差不多已经自动学会了怎么应对。
一年前,AI 开发者可能还希望或者假设普通用户也能学会怎么适应 AI,但现在越来越清楚的是,企业需要反过来,让 AI 去适应用户的期望,让 AI 像传统软件那样可靠地工作。
提高 AI 的可靠性,这是我们在普林斯顿团队的研究重点。现在,能不能用随机性很强的组件(比如 LLM)来构建一个确定性的系统,这还是个没解决的问题。有些公司声称他们已经解决了这个问题,比如说,一些法律科技供应商就声称他们的系统 “没有幻觉”。但这些说法可能还为时过早,需要更多的验证。
隐私
历史上,机器学习确实经常依赖于一些敏感数据,比如广告定位时用到的浏览历史,或者健康技术中用到的医疗记录。但 LLM 在这方面有点不同,它们主要是用公共来源的数据训练的,比如网页和书籍。不过,随着 AI 助手的流行,隐私问题又成了一个焦点。为了让这些助手真正有用,企业需要根据用户的实际互动来训练它们。比如,如果一个 AI 助手要在写邮件方面做得好,那它如果能用邮件数据来训练,效果肯定更好。
但问题是,很多公司的隐私政策对这种情况说得不清不楚的,我们现在也不清楚这事儿到底有没有在发生。而且,邮件、文档、截图这些数据可能比聊天互动还要敏感。
还有一个和推理有关的隐私问题,这和训练没关系。为了让助手能帮我们做事,它们得能访问我们的个人数据。比如,微软之前宣布了一个功能,说是每隔几秒钟就截一下用户电脑的屏幕,好给它的 CoPilot AI 助手提供用户活动的记忆。但这事儿引起了很多人的反对,微软后来也撤回了这个功能。
我们也得提醒大家,不要只从技术角度去解释隐私问题,比如说什么 “数据永远不会离开设备”。Meredith Whittaker 就认为,设备上的欺诈检测让始终在线的监控成了常态,而且这种监控的基础设施可能被用来做更压制性的事情。当然,技术创新确实可以在一定程度上帮助解决这些问题。
安全性
在安全领域,确实有一堆问题要解决:比如无意中的错误,像 Gemini 图像生成器里出现的偏见;AI 的不当使用,比如声音克隆或深度伪造;还有通过提示注入等黑客攻击可能泄露用户数据或伤害用户。
我们觉得,那些无意中的错误是可以通过修复来解决的。至于大多数的滥用问题,我们的看法是,不可能创造出一个完全不会被滥用的模型,所以防御措施应该更多地放在使用模型的过程中。当然,不是所有人都同意这个观点,所以公司可能还会因为这些不可避免的滥用问题而受到负面报道,看起来他们已经把这些当作做生意的一部分成本了。
再来说说黑客攻击这个问题。从我们看到的情况来说,这似乎是公司关注最少的地方。理论上,可能存在灾难性的黑客攻击,比如 AI 蠕虫,它们能从一个用户传播到另一个用户,诱使这些用户的 AI 助手做出有害的事情,比如制造更多的蠕虫副本。
虽然已经有很多概念验证演示和发现这些已经部署产品的漏洞的赏金计划,但我们还没有在实际中看到这种类型的攻击。我们不确定这是因为 AI 助手的普及率还不够高,还是因为公司临时拼凑的防御措施已经足够用了,或者有其他什么原因。时间会告诉我们答案的。
用户界面
在很多应用场景中,LLM 的不稳定性意味着我们需要一种方法,让用户能在机器人出错时介入。在聊天机器人里,这可能很简单,比如重新生成答案,或者提供几个版本让用户自己选。但在那些出错代价很高的应用,比如订机票,确保适当的监督就复杂多了,系统还得避免频繁打扰用户,免得惹恼用户。
在自然语言界面里,这个问题更棘手。用户用语音和助理交流,助理也用语音回复。这正是生成式 AI 的巨大潜力所在。想象一下,如果 AI 能嵌入到你的眼镜里,当你需要的时候,它就能直接和你说话,甚至你都不用开口 —— 比如它检测到你在看一个外语的路标 —— 那将是一种全新的体验。但受限的用户界面对不正确或意外行为的容忍度非常低。
三.结语
AI 的支持者们经常说,因为 AI 的能力在快速提升,我们很快就能看到它对社会和经济产生大规模的影响。但我们对这种趋势外推和过于乐观的预测持怀疑态度。就算 AI 的能力真的在迅速提升,开发者们还得解决前面提到的那些挑战。这些挑战更多的是社会技术性的,不仅仅是纯技术问题,所以解决起来会比较慢。
而且,即使这些问题被解决了,组织还得把 AI 整合到现有的产品和工作流程中,还得培训人们怎么在避免陷阱的同时高效使用 AI。这个过程我们预计可能需要十年甚至更长时间,而不是一两年就能完成的。