大数据服务商Databricks最近在纽约的全美零售商大展NRF 2024上联合合作伙伴大力宣传基于Data Intelligence Platform的零售行业解决方案,这两天又开始紧锣密鼓地与电信运营商联合发布基于该平台的通信行业解决方案。实际上,Databricks两个月前发布这个新架构AI数据平台时就引发了业内关注,因为这一次不是简单的产品功能更新,而是宣告了Databricks从过去多年立足的湖仓平台开始向新架构AI数据平台迈进。
Databricks诞生于伯克利的产学研合作项目
十几年前,加州大学伯克利分校的罗马尼亚裔教授Ion Stoica教授联合产学研各方,在伯克利启动了AMPLab,该实验室专攻产业界面临的大数据难题。
在当年的AMPLab启动仪式上,Stoica教授明确讲到大数据面临两类实际难题,一类是大数据管理成本高,另一类则是从大数据中提取有价值信息的效率低。
为了解决这些问题,AMPLab开展了多个大数据管理和分布式计算项目,其中包括分布式计算框架Spark项目,该项目主要人马后来出来成立了Databricks公司,并由Stoica教授出任董事会执行主席。
此外,这个实验室同期还开展了Alluxio等其它项目,它后来也成为了业界主要的分布式数据管理中间件之一。
Databricks为什么能快速转向新架构AI数据平台?
这些年来,Databricks定位于融合数据湖和数据仓库的Lakehouse,成为领先的湖仓解决方案提供商。直到2023年6月,Databricks宣布13亿美元收购了以降低大模型训练成本而知名的MLOps服务商MosaicML。
就在业界还在质疑13亿美元价格太贵、Lakehouse和MLOps能产生多少协同效应的时候,宣布收购后还不到5个月,Databricks就正式发布了融合Delta Lake、数据目录、机器学习模型托管等模块在内的统一数据智能平台Data Intelligence Platform,并表示公司将从立足多年的湖仓平台全面转向这个新架构的AI数据平台。
为什么Databricks能如此快速的开展收购和战略转型?我认为,这依然可以从我上面提过的伯克利产学研合作找到答案。
2017年,Stoica教授在AMPLab的产学研合作和项目经验的基础上,又发起成立了新的实验室RISELab,研究目标是要提升大数据系统进行实时化智能分析的能力。
在这个实验室中开展的新一批项目中,一个名为Ray的项目提出了大规模分布式机器学习和强化学习编排框架,逐步获得业界认可。Ray项目的主要人马在Stoica教授的支持下也出来成立了Anyscale公司,为OpenAI、Uber、AWS等提供MLOps服务。
至此,基于来自产学研前沿的判断,加上实际的MLOps发展态势,那么为Databricks选择融合MLOps业务,并选取该领域内的代表服务商MosaicML助力构建AI数据平台,也就成为顺理成章的战略决策。
AI数据平台将助力智能数据应用加速落地
Databricks这一次融合MLOps能力推出新架构AI数据平台Data Intelligence Platform,让企业用户具备了使用大规模自有数据高效开发定制化智能应用的可能性。加上Databricks长期以来在各行业落地数据项目的经验,可以预想到,在各个垂直领域的智能数据应用将在2024年加速落地。
从更长远的视角看,在各行业智能化转型和应用落地的过程中,如何统筹运用和综合提升基础模型能力、算力规划能力和数据调度能力,将成为各方的长期战略锚点。