• 说一说AI训练需要使用到的向量数据库
  • 发布于 2个月前
  • 351 热度
    0 评论
大模型是越来越热闹了。因为大模型需要大量的数据,所以,做数据库的人,不甘寂寞的数据库人,就跳出来折腾了。比如说,有人觉得这利好数据库行业,比如说Snowflake,甚至夸张的有人表示利好Confluent。这个事情,以微软Build大会里面关于数据库的那一部分作为一个代表吧。明显的来说,就是很多和大模型没什么关系的数据相关的东西,都被扯了进来。

说句不客气的话,数据相关这一块,我觉得这次的Build大会,微软做了一回骗子。AI时代需要大量的数据啊,所以我们每个企业的数据都应该存起来,更有价值。这话听起来很有道理,但是说白了,给人看的数据和给机器看的数据不是一回事。在训练AI的大语言模型的时候,数据的存储并不需要按照数据库或者数据仓库那样的格式化存储,没那么高级,也没那么多的需要。

一旦大预言模型训练完了以后,那大语言模型本身就代表了它学到的所有的知识了。所以根本不需要存数据的问题。当然,大语言模型本身是要存起来的,但是存大语言模型本身,不是存对象存储,就是存成Key-value Store,用不了太高深的数据库,和关系数据库更是半毛线没关系了。

而我们经常说的,大语言模型需要in-context learning,需要给它提供额外的信息。这样它才能够回答最近的问题。这件事情呢?的确需要额外的数据库去存。但是这些数据,不是文本数据而是向量化了的数据。所以存这些数据的也是向量数据库。虽然说向量数据库顶了一个数据库的名头,但是说白了,和关系数据库,半毛钱的关系都没有。

如果一定要说的话,文档数据库MongoDB或者Key-Value Store类似BigTable的关系要大很多。所以此数据库非彼数据库,虽然大家都叫数据库,但是真的是没什么关系。倒是真的有一些人在做纯粹的向量数据库,这些数据库,平时过日子还是紧巴巴的。毕竟以前向量数据库的用处可能没那么大,最多搜索引擎需要。

但是自从有了大模型以后,向量数据库的重要性确实就出来了。以后大模型需要补充context的话,都离不开向量数据库。但是向量数据库确实是个新东西,我们大概是可以用Key-Value Store去模拟的,不代表这就是最优解。目前为止这个领域还是有非常大的空间可以发展的。所有对向量数据库有兴趣的人,真的可以杀进这片天。弄不好将来就是财富自由的象征了。

总之,我觉得大语言模型确实是需要数据,但是它需要数据的方式对数据的存储和查询的要求,和传统数据库相差非常的远。传统做数据库的,凑热闹就纯粹是欺负外行不懂了。

但是总有人打着AI大模型也需要数据的观点,开始宣传老的技术是怎么样在新时代发挥巨大影响力的。这些,就真的很扯淡了。我觉得微软Build大会今年在这方面就是挺扯淡的。
用户评论