今天真的是很离谱。Databricks官宣,它们收购了Tabular。可能很多人不知道Tabular是什么公司。Tablular是著名的Apache Iceberg项目的创始人创立的公司。而Iceberg则是Databricks主导的项目Delta的主要竞争对手。从某种程度上来说,在Delta和Iceberg的竞争中,Iceberg已经胜利了。
因为Databricks在商业上的曾经做了一些比较傻的决定。Databricks最初开源Delta的时候,只开源了一部分功能,而把更高级的功能留给了付费的产品。这样一来,其他的公司,尤其是其他想做Datalake的公司,就不敢赌注下在Delta上了。因为一旦下注,Databricks可以很容易的说,我们这里有一个更好的产品,完全兼容开源,并且有很多高级功能。
这就给了Iceberg一两年很重要的发展时间。Iceberg成为了很多厂商的默认选择。当然Databricks最终发现了这个问题,决定开源2.0,把所有功能都开源了。但是,Iceberg显然已经赢得了这场战斗。Databricks还是不死心,Databricks又开始开源它们的统一的格式,就是一个格式里既能生产Delta的元数据,也可以同时生成Iceberg的元数据。这样一来用户就可以既要又要了,多好。
这个故事的另外一部分就是,Snowflake也要支持data lake了,snowflake也选择了Iceberg。当然,更重要的事情是,Snowflake正准备开源它们的catalog呢。Tabular推广Rest Catalog也已经很长时间了,所以,snowflake开源显然是个好事情啊。但是,最后就是Databricks买了Tabular。这一买,很多事情,就很有意思了。
目前听到的说法是买的价格是between 1 Billion and 2 Billion。这比起上一轮融资的估值,也差不多有10倍增幅了。对于一个40多个人的创业公司来说,显然是划算的。据说大部分的人会加入Databricks。那么社群对于Iceberg到底怎么看,未来有没有希望,就不好说了。Databricks已经指明了方向,未来就是Data Lake Uniform,就是既能生成Delta的元数据又能生成Iceberg和Hudi的元数据的格式。
但是我觉得这个方向里面有一个本质的问题,目前Iceberg社区里面的很多功能是走在前面的,三个版本互相的功能也不完全匹配,到时候取最大公约数吗?还是说,通过收购的方式Databricks继续掌握话语权,然后,Databricks就可以决定到底下面怎么玩了?毕竟打不过人家,买了也是可以的。Databricks买了以后是会废掉Iceberg充实自己的Delta,还是会失去Iceberg社区的信任?还是会真的一统天下?
Snowflake上了Iceberg的贼船,接下来会不会退出,还是发力取抢Iceberg的社区控制权? 无论如何,有钱,确实可以任性。打不过,也可以买了,然后再想办法处理。不管是左右互搏,还是买了藏起来,总之,无论怎么样,都有选择的空间。