• 初创公司Gimlet Labs正在以一种出人意料的方式优雅地解决了AI推理瓶颈问题
  • 发布于 2小时前
  • 6 热度
    0 评论

堆代码讯 斯坦福客座教授、曾成功实现创业退出的连续创始人扎因・阿斯加尔,刚刚为自己的新初创公司筹得了 8000 万美元 A 轮融资,这家公司正以一套巧妙的方案解决 AI 推理瓶颈问题。这轮融资由Menlo Ventures领投。这家名为 Gimlet Labs 的公司,打造了号称全球首个、也是目前唯一一个 “多芯片推理云”:这套软件能让 AI 工作负载同时在不同类型的硬件上运行。它可以把 AI 应用的任务,拆分调度到传统 CPU、AI 优化的 GPU,以及高内存系统上共同完成。


“我们基本上就是在所有可用的异构硬件上运行任务,” 阿斯加尔告诉记者。领投方Menlo Ventures的投资人蒂姆・塔利在一篇关于这笔融资的博客中写道,单个 AI 代理往往需要串联多个步骤,而每个步骤需要的硬件都不同:推理任务是计算密集型的,解码任务是内存密集型的,工具调用则是网络密集型的。
目前还没有任何一款芯片能同时搞定所有这些需求,但随着新硬件不断落地、旧 GPU 被重新调度部署,“多芯片硬件集群其实已经准备好了,缺的只是让它协同工作的软件层”,而塔利认为,这正是 Gimlet Labs 提供的东西。


如果行业继续维持当前 “堆算力” 的趋势,麦肯锡估计到 2030 年,全球数据中心的总开支将达到近 7 万亿美元。阿斯加尔表示,目前已经部署的现有硬件,AI 应用的利用率其实只有 15% 到 30%。“换个说法:你浪费了数千亿美元,因为大量资源就这么闲置着,” 他说,“我们的目标,就是搞清楚怎么能让 AI 工作负载的效率比现在提升 10 倍,就现在,立刻。”


于是他和联合创始人米歇尔・阮、奥米德・阿齐兹、娜塔莉・塞里诺一起,打造了一套编排软件,把代理型工作负载拆分,让这些任务可以同时调度到各类硬件上并行运行。Gimlet Labs 称,这套方案能在相同的成本和功耗下,将 AI 推理的速度稳定提升 3 到 10 倍。它甚至可以把底层模型拆分,在不同的架构上运行,给模型的每个部分匹配最合适的芯片。目前该公司已经和英伟达、AMD、英特尔、ARM、Cerebras 以及 d-Matrix 等芯片厂商达成了合作。


Gimlet 的产品,既可以以软件形式交付,也可以通过 API 接入他们的 Gimlet Cloud 服务,但它并非面向普通的 AI 应用开发者,而是服务于头部 AI 模型实验室和大型数据中心。该公司去年 10 月公开发布产品,上线即实现了八位数(千万美元级)的年收入,也就是至少 1000 万美元。阿斯加尔表示,过去四个月里,公司的客户数量翻了一倍多,目前的客户包括一家头部大模型厂商,以及一家超大规模云服务商,不过他拒绝透露具体名称。


几位联合创始人此前曾在 Pixie 共事,那是一家为 Kubernetes 打造开源可观测性工具的初创公司。2020 年,就在 Pixie 推出产品仅两个月后,它就被 New Relic 收购了 —— 当时 Pixie 刚完成 Benchmark 领投的 900 万美元 A 轮融资。(Pixie 的技术如今已是 Kubernetes 旗下开源组织的一部分。)


一年前,阿斯加尔偶然碰到了塔利,之后他又拿到了斯坦福教授的天使投资,风投们就开始主动找上门了。产品发布后,投资条款书就送到了阿斯加尔桌上。他说,当风投们听说他在看各个 offer 的时候,“一大堆投资就涌了过来”,这轮融资很快就超额认购了。加上此前的种子轮,这家初创公司目前累计融资额已经达到 9200 万美元,天使投资人包括红杉的比尔・科夫兰、斯坦福教授尼克・麦基翁、VMware 前 CEO 拉古・拉古拉姆,以及英特尔 CEO 陈立武。公司目前有 30 名员工。


其他投资方还包括领投种子轮的 Factory,以及 Eclipse Ventures、Prosperity7 和 Triatomic。

用户评论