开源项目是我们所有人的巨大灵感来源,开源项目在构建解决方案以验证和解决客户需求有很大的帮助,而无需重新发明轮子。随着大数据生态系统、分布式文件系统、map-reduce、NoSQL、机器学习、深度学习、人工智能以及最近的大语言模型的兴起,数据得到了广泛的关注。
下面我们来看一下这8个开源数据项目。
1,Fluvio
单词Fluvio来自拉丁语fluvius,意为“河流”,河流由连续的“溪流”组成。它是一个数据流平台的恰当名称。

Fluvio是一个用Rust和Web Assembly编写的轻量级高性能分布式数据流系统,在云原生架构上提供低延迟、高性能的可编程流。由WebAssembly编写的智能模块为用户提供了在不离开集群的情况下对流数据执行内联计算的能力。
github地址:
https://github.com/infinyon/fluvio
2,Arroyo
Arroyo是一个用Rust编写的分布式流处理引擎,旨在有效地对数据流执行有状态计算。与传统的批处理不同,流引擎可以在有界和无界源上操作,并在可用时立即发出结果。
简而言之:Arroyo允许您以亚秒级的结果询问大容量实时数据的复杂问题。

最重要的是,Arroyo与Fluvio集成了一个基于rust的引擎,这使它们成为一个伟大的组合。
github地址:
https://github.com/ArroyoSystems/arroyo
3,Qdrant
Qdrant是一个用rust编写的矢量数据库和相似度搜索引擎,是下一代人工智能的高性能,大规模向量数据库。它正在为Twitter、GitBook等知名产品提供更好的搜索功能。
Qdrant提供了一个方便的API来存储、搜索和管理点向量,并提供了一个额外的有效负载。Qdrant是专门为扩展过滤支持而定制的,这使得它对各种神经网络或基于语义的匹配、面搜索和其他应用程序都很有用。
github地址:
https://github.com/qdrant/qdrant
4,Lancedb
LanceDB calls是一个用于矢量搜索的数据库。看起来Lancedb是Python和Rust之间的桥梁。Lancedb core是用rust编写的,它支持原生Python和Javascript/Typescript。它是对开发人员友好,无服务器矢量数据库的人工智能应用程序,可以轻松添加长期记忆到你的LLM应用程序中!

github地址:
https://github.com/lancedb/lancedb
5,Linfa
Linfa一个Rust机器学习框架,该项目“旨在提供一个全面的工具包,用Rust构建机器学习应用程序。与Python的scikit-learn类似,它专注于常见的预处理任务和日常ML任务的经典ML算法。
Linfa目前支持以下算法:
github地址:
https://github.com/rust-ml/linfa
6,Polars
Polars是用Rust编写的,基于OLAP查询引擎的DataFrame接口,使用Apache Arrow Columnar Format作为内存模型。
特性如下:
支持惰性执行和立即执行
多线程
SIMD
查询优化
强大的表达式API
混合流(大于RAM数据集)
支持多语言:Rust | Python | NodeJS | R |…
github地址:
https://github.com/pola-rs/polars
7,Lance
Lance是一种柱状数据格式,Lance是Lancedb矢量数据库使用的格式。
Lance的主要特点包括:
高性能随机存取:比Parquet快100倍,不牺牲扫描性能。
矢量搜索:在毫秒内找到最近的邻居,并将olap查询与矢量搜索相结合。
零拷贝,自动版本控制:无需额外基础设施即可管理数据的版本。
生态系统集成:Apache Arrow, Pandas, Polars, DuckDB等。
Lance适合的场景:
建立搜索引擎和功能商店。
需要高性能IO和shuffle的大规模ML训练。
存储、查询和检查深度嵌套的数据,用于机器人或像图像、点云等大数据块。
github地址:https://github.com/lancedb/lance
8,Surrealdb
就社区参与度而言,Surreal是这个榜单上最受欢迎的项目。SurrealDB是一个端到端的云原生数据库,专为现代应用而设计,包括web、移动、无服务器、Jamstack、后端和传统应用。使用SurrealDB,你可以简化数据库和API基础设施,缩短开发时间,并快速且经济高效地构建安全,高性能的应用程序。
SurrealDB的主要特性包括:
减少开发时间:通过消除对大多数服务器端组件的需求,SurrealDB简化了数据库和API,允许你更快,更便宜地构建安全,高性能的应用程序。
实时协作API后端服务:SurrealDB同时作为数据库和API后端服务,支持实时协作。
支持多种查询语言:SurrealDB支持从客户端设备、GraphQL、ACID事务、WebSocket连接、结构化和非结构化数据、图形查询、全文索引和地理位置进行SQL查询。
github地址:
https://github.com/surrealdb/surrealdb