Databricks成立于2013年,是一家美国企业软件公司,基于云计算的Spark大数据软件公司。Databricks由Spark的创建者Andy Konwinski和来自加利福尼亚大学伯克利AMP实验室的Spark大数据处理系统多位创始人联合创立。公司致力于提供基于Spark的云服务,用于数据集成、数据清洗、数据管理等任务,并提供自动化集群管理和IPython风格的笔记本。Databricks还开发了一个开源项目Delta Lake,旨在为机器学习等数据科学应用提供可靠的云数据湖。2023年4月18日,Databricks位列胡润研究院发布的《2023全球独角兽榜》第7名。
发展历程
Databricks,一家总部位于旧金山的大数据软件公司,自2013年成立以来,在数据处理领域取得了显著进展。2014年,公司推出了首个产品Databricks Cloud,该平台通过云端流程简化了大数据处理。同年,Databricks获得了3300万美元的投资。
2016年12月,Databricks完成了6000万美元的C轮融资,由New Enterprise Associates领投,Andreessen Horowitz跟投,这笔资金助力公司在数据组织、计算和交付方面实现了技术飞跃。
2023年6月26日,Databricks宣布将以约13亿美元收购生成式人工智能初创公司MosaicML,旨在为企业构建类似ChatGPT的工具,预计交易将在同年7月31日前完成。
2024年3月,Databricks推出了一款名为DBRX的通用大型语言模型,该模型被誉为“当前最强大的开源AI”,在多项基准测试中表现超越了所有市面上的开源模型。
公司业务
开源项目与合作
Databricks开发了Delta Lake,这是一个开源项目,旨在为机器学习和其他数据科学用例提供数据湖的可靠性。该公司还创建了Delta Lake、MLflow和Koalas等开源项目,涵盖了数据工程、数据科学和机器学习。除了构建Databricks平台外,该公司还共同组织了关于Spark的大规模在线课程和Spark社区的会议,称为Data + AI Summit,以前被称为Spark Summit。
收购与扩展
2020年6月,Databricks收购了Redash,这是一个旨在帮助数据科学家和分析师可视化并构建其数据交互式仪表板的开源工具。2021年10月,Databricks收购了德国无代码公司8080 labs的第二笔交易。8080 Labs开发了bamboolib,这是一个无需编码即可使用的数据探索工具。2023年5月,Databricks收购了数据安全初创公司Okera,以扩展其数据治理能力。次月,它以14亿美元收购了开源生成AI初创公司MosaicML。2023年10月,Databricks以1亿美元收购了数据复制初创公司Arcion。
产品服务
Databricks 公司的云解决方案由三部分组成:Databricks 平台、Spark 和 Databricks 工作区。该产品背后的理念是提供处理数据的单独空间,不受托管环境和 Hadoop 集群管理的影响,整个过程在云中完成。该产品有几个核心概念:由 Notebooks 提供一种与数据交互并构建图形的方法,当用户了解了显示数据的方式时,就可以开始构建主控面板以监视某些类型的数据。最后,用户可以通过该平台的任务启动器来规划 Apache Spark 的运行时间。Databricks开发并销售使用“湖屋”这一营销术语的云数据平台,这是基于开源Apache Spark框架的,允许对半结构化数据进行分析查询,而无需传统的数据库架构。
公司融资
2021年9月,Databricks宣布获得16亿美元H轮融资,由摩根士丹利的Counterpoint Global领投,新投资者包括Baillie Gifford、ClearBridge Investments和加利福尼亚大学的UC Investments。此外,此前的投资者BlackRock(贝莱德)、Andreessen Horowitz、Tiger Global Management、T. Rowe Price Associates 和 Fidelity Investments 也参与了本轮融资。
管理团队
国际业务与合作
2021年2月,Databricks与谷歌 Cloud合作,提供与Google Kubernetes Engine和Google的BigQuery平台的集成。Databricks总部位于旧金山。它还在加拿大、英国、荷兰、新加坡、澳大利亚、德国、法国、日本、中国、韩国、印度、巴西、瑞士、哥斯达黎加和塞尔维亚开展业务。
技术创新
Databricks的Delta Engine于2020年6月推出,作为一个新的查询引擎,叠加在Delta Lake之上,以提高查询性能。它与Databricks员工帮助创建的开源项目Apache Spark和MLflow兼容。2020年11月,Databricks推出了Databricks SQL(以前称为SQL Analytics),用于在数据湖之上运行商业智能和分析报告。分析师可以直接使用标准SQL查询数据集,或使用产品连接器直接集成业务智能工具,如Tableau、Qlik、SigmaComputing、Looker和ThoughtSpot。2022年10月,Lakehouse获得了FedRAMP授权,可在美国联邦政府和承包商中使用。
应对竞争
为了应对OpenAI的ChatGPT的流行,该公司于2023年3月推出了一个名为Dolly的开源语言模型,以便开发人员可以使用它来创建自己的聊天机器人。他们的模型使用更少的参数来产生与ChatGPT类似的结果,但Databricks尚未发布正式的基准测试,以显示其机器人是否真的与ChatGPT的性能相匹配。
客户与市场
当时,该公司表示有超过5,000家组织使用其产品。
荣誉记录
参考资料
Databricks.天眼查.2024-04-16
英伟达最新投资了一家“最有潜力IPO的AI公司”:Databricks.腾讯网.2024-04-16
这家“湖仓一体”公司H轮融16亿美元,估值380亿美元.澎湃新闻.2024-04-16
英伟达最新投资了一家“最有潜力IPO的AI公司”:Databricks.新浪财经.2024-04-16
Databricks以13亿美金收购MosiacML,AIGC领域并购升温|最前线.36氪.2024-09-10
Databricks 推出大语言模型 DBRX,号称“现阶段最强开源 AI”.IT之家.2024-09-10
《2021全球独角兽榜》出炉!中国3家企业登上前十.央广网.2024-09-10
2022胡润世界500强(搜索版).新浪财经.2024-09-10
福布斯发布AI 50榜单:最有前途的人工智能公司.福布斯.2024-09-10
2023年 · 胡润全球独角兽榜.hurun.2024-09-10
福布斯发布2023云计算100强榜单,OpenAI位列第一.福布斯.2024-09-10
《财富》全球人工智能创新者50强.财富.2024-09-10
2024年胡润全球独角兽榜.hurun.2024-09-10
2024福布斯AI 50榜单发布.福布斯.2024-09-10