说一说AI训练需要使用到的向量数据库-duidaima 堆代码

说一说AI训练需要使用到的向量数据库

发布于 2个月前
 566 热度

 0 评论

有种想念
0 粉丝 30 篇博客

大模型是越来越热闹了。因为大模型需要大量的数据，所以，做数据库的人，不甘寂寞的数据库人，就跳出来折腾了。比如说，有人觉得这利好数据库行业，比如说Snowflake，甚至夸张的有人表示利好Confluent。这个事情，以微软Build大会里面关于数据库的那一部分作为一个代表吧。明显的来说，就是很多和大模型没什么关系的数据相关的东西，都被扯了进来。

说句不客气的话，数据相关这一块，我觉得这次的Build大会，微软做了一回骗子。AI时代需要大量的数据啊，所以我们每个企业的数据都应该存起来，更有价值。这话听起来很有道理，但是说白了，给人看的数据和给机器看的数据不是一回事。在训练AI的大语言模型的时候，数据的存储并不需要按照数据库或者数据仓库那样的格式化存储，没那么高级，也没那么多的需要。

一旦大预言模型训练完了以后，那大语言模型本身就代表了它学到的所有的知识了。所以根本不需要存数据的问题。当然，大语言模型本身是要存起来的，但是存大语言模型本身，不是存对象存储，就是存成Key-value Store，用不了太高深的数据库，和关系数据库更是半毛线没关系了。

而我们经常说的，大语言模型需要in-context learning，需要给它提供额外的信息。这样它才能够回答最近的问题。这件事情呢？的确需要额外的数据库去存。但是这些数据，不是文本数据而是向量化了的数据。所以存这些数据的也是向量数据库。虽然说向量数据库顶了一个数据库的名头，但是说白了，和关系数据库，半毛钱的关系都没有。

如果一定要说的话，文档数据库MongoDB或者Key-Value Store类似BigTable的关系要大很多。所以此数据库非彼数据库，虽然大家都叫数据库，但是真的是没什么关系。倒是真的有一些人在做纯粹的向量数据库，这些数据库，平时过日子还是紧巴巴的。毕竟以前向量数据库的用处可能没那么大，最多搜索引擎需要。

但是自从有了大模型以后，向量数据库的重要性确实就出来了。以后大模型需要补充context的话，都离不开向量数据库。但是向量数据库确实是个新东西，我们大概是可以用Key-Value Store去模拟的，不代表这就是最优解。目前为止这个领域还是有非常大的空间可以发展的。所有对向量数据库有兴趣的人，真的可以杀进这片天。弄不好将来就是财富自由的象征了。

总之，我觉得大语言模型确实是需要数据，但是它需要数据的方式对数据的存储和查询的要求，和传统数据库相差非常的远。传统做数据库的，凑热闹就纯粹是欺负外行不懂了。

但是总有人打着AI大模型也需要数据的观点，开始宣传老的技术是怎么样在新时代发挥巨大影响力的。这些，就真的很扯淡了。我觉得微软Build大会今年在这方面就是挺扯淡的。

 用户评论

吐槽.灌水
 427 成员 |  1315 话题
+我要提问 +随便写写

可能感兴趣的话题

大龄程序员相亲记

大家觉得自己开发的项目怎么变现比较简单易实现？

飞书企业版中老板能否看到员工聊天记录？

大肚子程序员健身3个月的一些简单记录