Databricks × Snowflake 纷纷下注,PostgreSQL 成 AI 时代数据库标准?
作者介绍 | 王绍翾 @ProtonBase
作者介绍内容主题整理自 ProtonBase CEO 王绍翾在 AICon 的主题演讲《Data Warebase: Instant Ingest-Transform-Explore-Retrieve for AI Applications》。作者介绍的职业有过下了了 AI 1.0、2.0 和 3.0 的变革时代 ,从搜索综合推荐 ,到视觉 / 语音 / NLP 智能 ,再到目前已正全力投入下了模型 AI 浪潮 ,作者介绍将两者结合其多年来对数据统计 认知基础设施的实践与反思 ,深入探讨生成式 AI 变革时代对数据统计 管理系统提赶要来全新挑战与潜在机遇。
一篇文章文章结构:
Trending: 数据统计 认知基础设施在 AI 变革时代全新趋势
Introducing Data Warebase: 样的是 Data Warebase
Data Warebase for AI Workload: 能否支撑 AI 工作后负载
Use Cases of Data Warebase: 不代表意义 落地场景
The Difference Between Data Warebase and Other Technologies: 与现有核心技术的本质区别与明显优势
Trending:数据统计 认知基础设施在 AI 变革时代全新趋势
未来几年的部分方式改变 应用 ,将下了方但也 接有两接口:有两 Data API ,有两 AI API。
才能关键在于的 ,回顾好了 前三天在数据统计 领域发展部分方式改变 Data for AI 领域发展的关于他们思考。这段的一里 ,有下一条 重大新闻较小引人注目:
第六 ,Neon: Databricks 以 10 亿英镑收购 Neon 的举措在细分细分细分行业出现管理系统形都成广泛关注更多。目前已 ,这个世界最具致使大幅力的数据统计 部分方式改变 公司对就象 Snowflake 和 Databricks——其它其它动物才可 在数据统计 认知基础设施领域发展占据核心地位 ,也正都成无数制造企业构建 AI 强悍强的关键点平台发展。
第六 ,Supabase 在 4 月底正式公开火速完成新一轮融资 ,金额继续做好准备极高 2 亿英镑 ,估值也越来攀升至 20 亿英镑。与此部分方式改变 ,市场大上传出这个世界有多家科技巨头有意收购 Supabase 的媒体消息报道 ,更是如此为数据统计 认知基础设施领域发展注入了再一次活力与关注更多度。
第六 ,ClickHouse 也完都成最新一轮融资 ,估值已超 60 亿英镑。从其对外宣称的具体目标角度 ,ClickHouse 就象还才可准做好准备好好向 Snowflake 发起挑战。
下面我 ,我将分享我对这三家部分方式改变 公司前三天你为样的备受资本青睐、频频赢得投资中、收购关注更多的几点观察与思考。
趋势一:大语言模型的每每 一但继续做好准备颠覆传统性范式
关键在于我 留在达摩院直到最后了 ,还才可其在语音识别和角度 角度 表现语言后续处理(NLP)等领域发展已选用了大语言模型(LLM)的核心技术路线 ,但对于暂时暂时没有尝试选用到 LLM 对全网数据统计 选用到统一训练。直到最后了 OpenAI 的成功完成落地 ,下了细分行业才才可意识到在他所有 数 以此的可行性与革命性。越来而来才可 ,下了部分方式改变 核心技术部分方式改变 公司都直到最后了拥抱大语言模型 ,将海量数据统计 汇聚这是 起 ,以此大语言模型的强悍强为在他大多数人方面详细解释方式日常最关键点关键在于最终解决 ,重构人机交互体验到。
但从趋势角度 ,未来几年拥有高强悍强训练大模型的制造企业将是极基本上上。AI 工程直到最后了的重点 ,将越来从认知基础模型的训练转向应用层的落地与用到价值释放 。而 AI 应用层的有两关键点支点的有:
Inference(推理) :能否以高效、低成本的以此透出模型强悍强;
Database for Application(面向 AI 应选用到数据统计 库管理系统) :能否支撑上下文管理、向量检索、数据统计 调用与语义认同等数据统计 层强悍强。
跟据包括美国市场大调研数据统计 ,已有约 70% 的制造企业已在实际生产业务中选用到 AI 关于他们的强悍强 ,代表意义 这场范式转变已火速原来 沿核心技术走向主流实践。
趋势二:Agent 数量火速增长 ,数据统计 底座成核心支撑
在说过说过的三家部分方式改变 公司中 ,前又一家均专注于构建认知基础 PostgreSQL 数据统计 库的智能代理(Agent)服务方面 ,而第六家则聚焦于选用到提供更基本上上据统计 仓库的强悍强为 AI 提供更多更基本上上据统计 及分析的强悍强 。这是 趋势表明出 ,大模型 Agent 的生态正火速繁荣 ,背后对高效、高可选用到数据统计 认知基础设施的更主要需求 继续做好准备升级优化优化。未来几年 ,Agent 的数量会凸显出多 ,谁并能 提供更多才可适配 AI Agent 的数据统计 管理系统 ,将都成认知基础设施竞争的核心关键点。
Neon
才能关键在于大对于而已而已 先角度 Neon 是样的。
Neon 部分个认知基础开源 PostgreSQL 构建的云原生数据统计 库 ,它都做几件较小关键点、适合于于 AI 应用开发者事也也:
第六 ,它将传统性的单机数据统计 库架构转都成存算分离的云架构。
这在他所有 数 对于数据统计 库拥有高了更强的弹性与可扩展性 ,也为其后续下了基本上上 创新强悍强打下了认知基础。
第六 ,在产品产品独特选用到 ,Neon 的有两较小突赶要来亮点:
Scale to Zero(按需弹性 ,空闲即释放)
Neon 官网强调其核心明显优势都成关键在于 Scale to Zero ,还才可只还才可 ,你有两切选用到过它时 ,它并能 将计算资源部分释放 ,才可并不“用样的 ,付样的” ,并不能关键在于的 资源敏感型应用较小最关键点关键在于。
Branching(数据统计 库分支管理)
更是如此如此个亮点是 Branching 概念。就象对于而已而已 选用到 Git 就象 ,Neon 全面支持 数据统计 库等级的“分支”小操作。为样的并能 有两?
只还才可在 AI Agent 开发两个两个中会 ,凸显出多的场景涉及许多试验、多人协作、并行工作后——允许开发者火速创建、管理和切换数据统计 库的独立副本(分支) ,大大继续提升 继续提升 继续提升了开发、测试和数据统计 管理的灵活性。Neon 将数据统计 库转都成有两全面支持 敏捷协作的开发平台发展 ,为 AI 和数据统计 工程已打开了全再一次范式。
有两有趣的观察:AI Agent 继续做好准备许多创建数据统计 库
Neon 工作团队也观察到有两较小反映出趋势:AI Agent 继续做好准备直到最后了所未下了方面数非常快创建数据统计 库实例。
从 2024 年 10 月到 2025 年 5 月 ,短短 7 个月的一 ,数据统计 库创建量每每 一但了爆发式增长。
从 Neon 最近发布 的柱状图中并能 我赶要来 ,绿色基本上上代表意义 由 AI 自动创建的数据统计 库 ,相相较人工创建的实例占较小小反映出继续提升 ,这代表意义 AI Agent 继续做好准备都成数据统计 库选用到全新主力 ,数据统计 库平台发展也不并能 为在他所有 数 新型工作后负载准做好准备好好。
Supabase
Supabase 对于而已是构建在 PostgreSQL 上都都数据统计 库平台发展 ,它与 Neon 构都成强行的竞争二者之间。但与 Neon 相较 ,Supabase 提供更少了凸显出丰富的基础功能集 ,部分方式改变 政治身份验证、对象存储、实时订阅、边缘函数等服务方面 ,下了并能 看作是“开源版的 Firebase” ,定位为开发者这是 站式后端服务方面 平台发展。
为样大对于而已而已 部分方式改变 公司的一三天备受关注更多?
这背后的有两较小清晰的趋势判断:大模型训练的红利期继续做好准备下面 尾声 。只还才可业界暂时暂时没有正式公开正式公开“训练变革时代”的终结 ,但从资本和核心技术动向角度 ,未来几年再投资中中再一次认知基础模型部分方式改变 公司已你不会再是主流。相反 ,所的人 的小心力这个地方继续向“应用层”聚焦——这在他所有 数 是对于而已而已 观察到的第有两最关键点关键在于每每 一但:
Inference(推理)和数据统计 应用继续做好准备都成新焦点。
不不论 Neon、Supabase ,还才可指出 新兴的数据统计 认知基础设施项目一 ,关键在于上这个地方继续围绕有两趋势选用到布局。
PostgreSQL:新兴数据统计 库的共识基石
下了所下了方面数新型数据统计 库项目一都都想选择认知基础 PostgreSQL 构建。对于而已而已 我说说过的 Neon 和 Supabase 只还才可更是如此如此的有两代表意义 ,只还才可 ,这个世界近几年新每每 一但的数据统计 库产品产品 ,CockroachDB ,YugabyteDB ,和 DuckDB 这个地方继续无一例外的都想选择了 PostgreSQL 都成查询 API。
PostgreSQL 靠其强难以估量可扩展性和生态 ,赢得了这个世界部分方式改变 新兴数据统计 库的青睐。
为样的 PostgreSQL 会都成这在他所有 数 的细分行业两个标准?
下了方面很不复杂:
PostgreSQL 较小两个标准和规范 ,才可 SQL 一但就覆盖了 OLTP 和 OLAP 的更主要需求 外 ,其才能关键在于关键在于优点还才可有强难以估量可扩展性。它允许更多用户选用到扩展(Extensions)来继续提升数据统计 库基础功能(全文检索 ,向量检索 ,地理各种信息检索 ,时序后续处理在他所有 数 ) ,而无需修改核心代码。
PostgreSQL 已会出现管理系统形成强难以估量社区生态和工具全面支持 。
以向量检索 为例:
PostgreSQL 提供更少了原生的 pgvector 扩展 ,并能 强行全面支持 向量数据统计 的存储与检索;对于 MySQL 两个两个标准 ,一但可扩展性接口与生态 ,MySQL 数据统计 库管理系统在他所有 并能 自行定义向量数据统计 存储和检索的 API ,直接原因火速完成各不相同 ,一但两个标准。这在他所有 数 为的样的凸显出多的 AI 部分方式改变 公司 ,较小是 OpenAI、Anthropic、Notion 等大型 AI 初创项目一 ,都都想选择 PostgreSQL 都成其核心数据统计 引擎。
我曾我赶要来一则非官方的消息报道:OpenAI 内部的有两 PostgreSQL 只读从库就部署了近 50 个实例 。 只还才可目前已 OpenAI 暂时暂时没有选用分布式数据统计 库架构 ,但越来业务规模的继续扩张 ,这或将都成其未来几年不并能 但也 的架构挑战。
Agent Talk to MCP:PostgreSQL 是默认选项都成
我即将了解的有两概念是“Agent Talk to MCP(Model Context Protocol)”。有两概念最早由 Anthropic 跟据指出 ,对于其官方文档中 ,指出列赶要来这个全面支持 平台发展还才可 PostgreSQL。
这加大印证了 PostgreSQL 在 AI 应用工作后负载中是关键点能起——它才可 这下了方面数数据统计 库 ,对于而已 AI 管理系统与数据统计 交互的中枢平台发展。
ClickHouse 的定位演变与多模数据统计 库的崛起
相较 Neon 和 Supabase ,ClickHouse 的定位只还才可大幅各不各不相同。它关键在于上这是 款数据统计 仓库。部分 ,在其它其它动物多轮对外宣传中 ,依然强调关键在于部分个 Real-time Data Warehouse(实时数仓)。但前三天我原来 已打开 ClickHouse 的官网 ,意外意外发现也直到最后了称对于而已而已 为 Database(数据统计 库)了(ClickHouse 等他了继续开发 OLTP 的强悍强 ,只等他了依然还对于而已而已正式公开最近发布 )。这背后反映出有两趋势:未来几年 AI 应用层将凸显出依赖数据统计 库 ,较小是多模态数据统计 库将都成核心认知基础设施。
部分:
并能 你不会断做好准备开发有两认知基础 AI 的 Agent ,它势必并能 与例如此类数据统计 管理系统和应用管理系统交互。跟据传统性架构的分工全新模式:事务性数据统计 摆在二者之间型数据统计 库中;
数据统计 的横向水准分布式扩展用 MongoDB 或 HBase。
搜索基础功能用 Elasticsearch(ES)火速完成;
及分析更主要需求 用 ClickHouse 支撑;
这意味着 ,有两制造企业仅在数据统计 底层一但维护才能 4 个各不各不相各不相同 MCP(Model Context Protocol )服务方面 。这各种大模型才能关键在于的有两大大继续提升 继续提升 的挑战。理论上它并能 认同对于而已而已 本质区别化的服务方面 ,但实际运作中较小复杂 ,选用到“智力”管理系统形成高强度负荷。能对接有两 MCP ,谁不并能 对接 4 个呢?这在他所有 数 正为的样的凸显出多的 AI 初创部分方式改变 公司都想选择 PostgreSQL ,而未来几年大型制造企业在面向 AI 场景选用到数据统计 库选型时 ,也就能倾向都想选择全面支持 多模态的数据统计 库平台发展。
只还才可对于而已而已 我说说过训练的变革时代下面 尾声 ,但训练一但的最关键点关键在于最终解决还才可每每 一但 ,较小对于存储层面。对于而已而已 曾这是 句细分行业共识:“AI 的瓶颈在计算 ,计算的瓶颈在存储。”一句话话下了方面是选用到模型训练中会才能关键在于关键在于。而对于而已而已 直到最后了更关注更多的将是 AI 应用和 Workflow 的执行效率 。
目前已 ,大模型并对于而已而已部分替更多用户整理好部分方式改变 数据统计 ,配合大模型有两起工作后的 AI workflow 下了方面集中在下了关键点中会:
Ingestion(数据统计 摄取)
Transform(数据统计 加工)
Explore(探索及分析)
Retrieve(查询检索)
训练的瓶颈依然每每 一但 ,但重点继续做好准备转向 AI 应用流程(AI Workflow)
只还才可对于而已而已 我说说过训练的变革时代下面 尾声 ,但训练一但的最关键点关键在于最终解决还才可每每 一但 ,较小对于存储层面。对于而已而已 曾这是 句细分行业共识:“AI 的瓶颈在计算 ,计算的瓶颈在存储。”一句话话下了方面是选用到训练中会才能关键在于关键在于。而对于而已而已 对于而已而已 更关注更多才可 AI 应用和 Workflow 的执行效率。
目前已 ,大模型并对于而已而已部分替你整理好部分方式改变 数据统计 ,较小在真实生产外部外部环境 ,其它其它动物对于而已而已自动创建数据统计 库。并能 都做 ,下了方面集中在对于而已而已 底下说过的下了关键点中会:
Ingestion(数据统计 摄取)
Transform(数据统计 加工)
Explore(探索及分析)
Retrieve(查询检索)
AI workflow 从数据统计 库、应用日志、埋点管理系统等转自收集数据统计 ;强行选用到数据统计 清洗与转换选用到加工;加工原来 数据统计 直到最后了步入 Feature Store ,原来 由数据统计 工程师或算法专家选用到探索与及分析 ,给出参数全面调整等关键点决策。当对于而已而已 数据统计 准做好准备好充分后 ,两者结合大模型的强悍强 ,都想火速完成下一中会的最关键点关键在于强悍强。
Multi-Modal Retrieval:下一代智能检索范式
样的是 Multi-Modal Retrieval? 其它其它动物核心含义是:在数据统计 检索两个两个中会 ,你不会再局限于某下了方面数查询以此 ,对于而已而已两者结合结构化、半结构化、非结构化部分方式改变 向量检索 等多种以此 ,火速完成更智能、更全面的查询体验到。这项强悍强才能关键在于的 AI 应用较小最关键点关键在于。只还才可 Agent 但也 的最关键点关键在于最终解决在他所有 对于而已而已“查下一条 各种信息并能 有两向量” ,对于而已而已并能 对多个模态、多维数据统计 选用到认同、实际关系和调用——这在他所有 数 并能 底层数据统计 库拥有高原生的多模后续处理强悍强。
以“智能城市里”为例 ,并能 对于而已而已 并并能 监控管理管理系统搜索某辆车或某个人方面 ,最认知基础的以此直到最后了仅涉及向量检索——在他所有 数 选用到文字图片或集锦帧选用到相似度匹配。但才可 对于而已而已 引入凸显出体的查询条件满足 ,在他所有 数 “某个十字路口”“某个下雨天”“某个的一段” ,“和某个车的文字图片相似”的场景就能涉及到在内更多模态的各种信息:
“十字路口”是位置选择标签 ;
“下雨天”是外部环境标签 ;
“的一段”是结构化数据统计 ;
“车的文字图片”会被 embedding 成向量数据统计 ;
在他所有 数 查询也你不会再是单一模态的检索 ,对于而已而已并能 部分方式改变 两者结合结构化数据统计 + 标签各种信息 + 向量检索的 Multi-Modal Retrieval(多模态检索)。
再在他所有 数 在社交综合推荐场景中 ,人与人二者之二者之间综合推荐直到最后了选用到 Embedding 在他所有 数 特征都成向量 ,再靠向量相似度检索来火速完成。但并能 更多用户添加了“同有两城市里”或“同一活动时”的过滤条件满足 ,就引入了地理位置选择或事件标签 ,会出现管理系统形成升级优化为才可一丢丢多模态检索任务完成 。
多模态检索对架构提赶要来更高跟据指出
火速完成 Multi-Modal Retrieval ,意味着管理系统不并能 部分方式改变 后续处理:
结构化数据统计 ;
半结构化数据统计 (如 JSON);
向量数据统计 。
在传统性架构中 ,各不各不相同类型的数据统计 在他所有 被存储在各不各不相各不相同管理管理系统:
结构化数据统计 用二者之间数据统计 库或数仓;
半结构化数据统计 的存储和检索用 NoSQL;
向量检索用向量数据统计 库。
有两的最关键点关键在于最终解决是当对于而已而已 要执行有两 Top 100 综合推荐任务完成 时 ,分布在多个管理管理系统是强行真的很难强行选用到 Join 小操作 ,只还才可性能很差。原来 ,对于而已而已 真的很难尝试在他的所有管理管理系统提取许多强行(如 Top 100 万) ,再在应用层合并实际关系后续处理。有两两个中会才可 开销大大继续提升 继续提升 ,还才可也从理论上不并能 就能保证赢得原来 正确的 Top 100。这的有 Hybrid Database(混合型数据统计 库) 登场的理由:
将多种模态数据统计 统一存储与检索 ,消除管理系统二者之间分割 ,让多模态查询凸显出角度 角度 表现、实时且可扩展。
AI Workflow 的下了关键点更主要需求
为的支撑才可一丢丢 AI 工作后流 ,从数据统计 获取到强行交付 ,管理系统不并能 更主要需求 下面五大核心强悍强:
1.Fresh Data(数据统计 新鲜性) 模型不并能 认知基础最再一次数据统计 选用到推理 ,数据统计 滞后将直接原因致使大幅 AI 产出质量。
2.Instant Retrieval(即时检索) 并能 毫秒级的数据统计 访问强悍强 ,以更主要需求 实时响应和综合推荐更主要需求 。
3.High Concurrency(高并发) 较小事实底下向 C 端或 Agent 场景中 ,管理系统需能支撑成千上万更多用户部分方式改变 访问 ,拥有高高吞吐强悍强。
4.Fast Analytics(火速及分析) 才可 要能存储数据统计 ,不并能 能火速火速完成聚合、过滤、排序等及分析任务完成 ,为 AI 决策提供更多全面支持 。
5.Simplicity(易用性) 下了管理系统要拥有高良那个开发者体验到和管理简洁性 ,防止出现出现多工具链、多平台发展切换带来冲击的复杂性。
对于而已而已 强悍强构都成传统性 AI 应用工作后流的认知基础就能保证。才可构建有两更主要需求 实时性、两者结合性、高并发与易用性 的数据统计 平台发展 ,不并能 才可释放大模型和 Agent 的智能潜力。
为样的传统性数据统计 库和数据统计 仓库真的很难更主要需求 AI Workflow 的部分方式改变 更主要需求 ?
底下说过下了基本上上 产品产品大对于而已而已 备受欢迎 ,关键在于上都其它其它动物各自最关键点关键在于最终解决了 AI 工作后流中是关键点痛点 ,但仍每每 一但较小反映出局限:
数据统计 库 :擅长后续处理 Fresh Data(数据统计 新鲜性) 和 Instant Retrieval(即时检索) ,适用于实时写入和火速查询场景。但其下了方面数认知基础单机或不复杂主从架构 ,真的很难支撑大规模的高并发访问 。
数据统计 仓库(如 ClickHouse) :在 及分析性能(Fast Analytics) 和 选用到简洁性(Simplicity) 层面角度 角度 表现色 ,但其它其它动物普遍适合于于高频写入或低延迟响应场景 。
换句话说 ,对于而已而已有两管理系统并能 部分方式改变 兼顾 AI 应选用到五大关键点诉求。
Introducing Data Warebase :样的是 Data Warebase
直到最后了 ,对于而已而已 提赶要来 Data Warebase 的概念——将 Data Warehouse 与 Database 两者结合的一体 ,构建统一的数据统计 底座 ,以全面支撑 AI 工作后流中从数据统计 采集、加工、及分析到检索的全两个中会。
跟据对于而已而已 说过的架构模型 ,部分方式改变 又一家部分方式改变 公司在构建数据统计 管理系统时 ,这个地方继续但也 具体内容几类核心更主要需求 :
事务型数据统计 库 :用于实时写入与查询(如订单、行为形成日志)
文本搜索引擎 :后续处理非结构化关键点词匹配(如全文搜索)
向量搜索引擎 :支撑语义检索
及分析引擎 :选用到数据统计 及分析(如行情及分析、指标监控、报表)
传统性做法是将对于而已而已 基础功能拆分成多个独立组件 ,组成简对于之的“多引擎架构” ,部分方式改变 :
选用到 MongoDB 或 HBase 做分布式存储;
用 Elasticsearch 后续处理全文检索;
用向量数据统计 库做 vector 检索;
用 ClickHouse 或 Snowflake 执行及分析任务完成 。
在他所有 数 架构只还才可基础功能齐全 ,但每每 一但三大最关键点关键在于最终解决:
管理系统运维复杂 :需管理多个核心技术栈 ,版本依赖、部署、运维压力小的大;
数据统计 割裂直接原因 :数据统计 需在多个管理系统间反复同步、复制 ,口径难统一;
性能和响应链路长 :查询需跨管理系统拼接 ,致使大幅响应的一和稳定性。
对于而已而已 将在他所有 数 架构又称不代表意义 的 Legacy Data Architecture(传统性数据统计 架构) 。它还才可真的很难适配 AI 变革时代越来增长的实时性、统一性和智能化更主要需求 。
Data Warebase 的具体目标 ,的有选用到统一架构 ,将多模数据统计 强悍强集成于有两平台发展上都 ,以更简洁的以此全面支持 复杂 AI Workflow。它对于而已而已将多个引擎不复杂拼装 ,对于而已而已从底层架构直到最后了两者结合事务后续处理、搜索引擎、向量检索和实时及分析 ,才可并不“有两管理系统、全场景覆盖”。
Data Warebase 关键在于上会出现个多模数据统计 库
那个直到最后了关于他们的 ,下了所下了方面数数据统计 最关键点关键在于最终解决理应由有两统一的数据统计 管理系统最关键点关键在于最终解决 ,在他所有 两管理系统不并能 对 AI 友好。AI Agent 并能 有两多模数据统计 库来后续处理多种数据统计 类型和任务完成 ,这在他所有 数 对于而已而已 直到最后了还才可讲过。
当每个客户问到能否火速完成有两具体目标时 ,最初对于而已而已 在他所有 真的很难肯定有两管理系统能集成才可 多的基础功能 ,只还才可挑战还才可大大继续提升 继续提升 。不复杂才能关键在于的 ,并能 数据统计 量才可 100 行 ,火速完成直到最后了说过的基础功能对于而已而已难 ,在他所有 数 单机数据统计 库会出现轻松胜任。但当数据统计 量继续做好准备极高 1 亿、10 亿而已 100 亿行时 ,挑战才才可直到最后了。
直到最后了 ,Data Warebase 的核心竞争力关键在于全面支持 行列混存且有着分布式横向水准扩展的强悍强 。在他所有 数 强悍强下了方面依赖有两关键点核心技术支撑:存储、索引和存算分离 。
努力打造 Data Warebase 的核心三要素:存储、索引和存算分离
1.存储架构:灵活多样 ,兼顾 OLTP/ 搜索 /OLAP 的更主要需求
不不论传统性数据统计 库还才可大数据统计 管理系统 ,都选用到行存储全面支持 点查或高速查询 ,选用到列存储全面支持 及分析和搜索。Data Warebase 管理管理系统部分方式改变 一张表全面支持 三种存储全新模式:行存表、列存表和行列混存表。
行存: 适用于键值查询(KV)场景 ,全面支持 火速单行访问。
列存: 适合于及分析和倒排索引 ,全面支持 高效压缩和列级扫描。
行列混存 :在不具体内容负载特性时 ,自动兼顾行存与列存的明显优势。
2.索引体系:全面 / 完整 / 正交
Data Warebase 火速完都成多种索引机制 ,部分方式改变 :
OLTP 的全局二级索引 :全面支持 跨节点的数据统计 定位。
倒排索引 :更主要需求 文本搜索更主要需求 。
列存索引 :优化及分析查询。
JSON 索引 :全面支持 半结构化数据统计 的高效访问。
少了对于而已而已 索引 ,两者结合智能查询优化器 ,管理系统并能 动态都想选择最优执行路径 ,火速完成复杂查询的低延迟响应。从理论上讲 ,对于而已而已 核心技术在直到最后了例如此类数据统计 库各种大数据统计 管理系统都先后 火速完都成 ,对于而已而已 只还才可把对于而已而已 索引强悍强摆在了有两数据统计 库中并把它落地又都成但也 现实。
3.存算分离:数据统计 库的云原生创新
Data Warebase 选用云原生架构独特选用 ,将存储与计算资源解耦:
计算层 :灵活弹性 ,全面支持 按需扩展。
热存储层 :就能保证实时和近实时数据统计 访问的低延迟。
冷存储层 :经济高效 ,更主要需求 海量历史的数据统计 存储 ,对于而已全面支持 强行查询冷存上都数据统计 (选用到在他所有 数 架构的优化 ,冷存上都查询延迟并能 并不下面 热存 ,只还才可吞吐会远低于热存)。
各不各不相同于传统性大数据统计 存算分离强行选用到云上高可选用到对象存储 ,Data Warebase 在块存储云盘上自主独特选用了高性能分布式文件管理系统 ,火速完都成在线数据统计 库等级的存算分离 ,有两挑战要比大数据统计 管理系统的存算分离难有两数量级。
部分方式改变 ,存算分离架构带来冲击的秒级弹性(infinite scale & scale to zero) ,负载隔离 ,和数据统计 克隆(Branching)的强悍强 ,是火速完成 AI Agent 灵活工作后流和多场景并发计算的关键点。
4.指出 关键点强悍强
数据统计 分区(Partitioning) :细粒度数据统计 划分 ,方便管理数据统计 ,关键在于我 的所有 数 场景下可继续提升查询性能。
实时增量物化视图 :突破传统性物化视图“全量重计算”的瓶颈 ,火速完成 Subsecond 等级的增量更新 ,大大继续提升 继续提升 简化实时 Transform 流程。
的一旅行(Time Travel)基础功能 :全面支持 认知基础的一维度的数据统计 版本管理 ,更主要需求 AI 训练两个两个中会是特征追踪与历史的数据统计 回溯更主要需求 。
总结好了 ,Data Warebase 的诞生之初就预我赶要来未来几年的部分方式改变 应用管理系统将 build 在有两 API 上都:有两是 Data API ,更是如此如此个是 AI API 。 对于而已而已 专注于做好准备好 Data API ,而它恰好在 AI 领域发展并能 更主要需求 AI Workflow 的部分方式改变 更主要需求 。对于而已而已 下面我上好了 但它能否更主要需求 对于而已而已 更主要需求 的。
Data Warebase for AI Workload:能否支撑 AI 工作后负载
为的更主要需求 AI workload 更主要需求 ,Data Warebase 并能 火速完成数据统计 接入(Ingestion)、转换(Transform)、探索(Explore)和检索(Retrieve) 。对于而已而已 先后 角度 这有两中会:
1. Ingestion
数据统计 赶要来时 ,才能关键在于的并能 并能 火速地导入。Data Warebase 并能 全面支持 数据统计 库等级的即时增删改查小操作 ,就能保证了数据统计 “写入即反映出” ,部分方式改变 它全面支持 选用到 Foreign Table 强行从 Data Lake 中读取数据统计 。部分方式改变 ,都成有两数据统计 库 ,它还全面支持 CDC 输出 ,而许样的数据统计 管理系统对于而已而已全面支持 这在他所有 数 。在他所有 数 强悍强就能保证了下了 Workflow 并能 无缝串联赶要来 ,部分方式改变 就能保证了数据统计 存储的强一致性。
2.Transform
在 Transform 中会 ,我指出才能关键在于的基础功能的有两:
实时增量物化视图
Schema Evolving
Generated Columns 和 Built-in Functions。
才能关键在于的 ,实时增量物化视图并能 高效地后续处理数据统计 的实时更新和查询 ,大大继续提升 继续提升了数据统计 后续处理的效率。在他所有 数 数据统计 库管理系统只全面支持 全量物化视图和较小有限的增量物化视图强悍强 ,对于而已而已 更多用户在他所有 还并能 Flink 在他所有 数 产品产品做数据统计 的 Transform。Data Warebase 火速完都成完整了增量物化视图的强悍强 ,直到最后了数据统计 的 Instant Transform 再也对于而已而已够 Flink 了。层面 ,Schema Evolving 允许数据统计 全新模式灵活演变 ,并能 适应越来改变的数据统计 结构。原来 ,Generated Columns 基础功能也较小强悍。更多用户并能 强行在原表上添加有两再一次计算列 ,而无需选用到物化视图 ,大对于 Transform 凸显出较小不容易 ,成本更低。原来 ,Built-in Functions 并能 轻松最关键点关键在于最终解决许基本上上据统计 加工的 ETL 工作后。
3. Explore
在数据统计 经近 Transform 直到最后了 ,更多用户并并能 上都选用到例如此类的查询和及分析。我我说说过 ,多模数据统计 库较小最关键点关键在于 ,只还才可在他所有 数 查询才可 仅是纯及分析型 OLAP 的 ,也对于而已而已纯事务型的 ,对于而已而已并能 混合型的查询强悍强。部分方式改变 ,才能关键在于的 AI 工程师才能关键在于的 ,Sampling 基础功能也较小最关键点关键在于 ,只还才可对于而已而已 并能 选用到采样来观察数据统计 的趋势。原来 ,那个我说说过的 ,关键在于我 的所有 数 直到最后了算法工程师并能 系统研究 Feature 的改变对模型的致使大幅 ,直到最后了对于而已而已 并能 我赶要来有两 Feature 在不部分方式改变 间点的精确数值 ,在特殊 下了数据统计 管理管理系统 ,这并能 越来地存储部分方式改变 Feature 不部分方式改变 二者之间数值 ,直接原因许多的存储浪费。Data Warebase 都成几款数据统计 库 ,全面支持 Transaction 和 MVCC ,直到最后了有较小好 的 built-in 的 Time Travel 的强悍强 ,并带来冲击算法男同学提供更多低成本的 Feature 按时序观测的强悍强。
4.Retrieve
在 Retrieve 中会 ,最关键点才可要能做多模检索 。并能 没这个世界有多模检索的强悍强 ,在他所有 数 应用场景下了也不并能 火速完成的。我说了解的有两具体内容场景 ,也我赶过赶要来凸显出多的场景并能 在他所有 数 强悍强。直到最后了 ,多模检索强悍强再三再三考虑了管理系统在后续处理更复杂场景时的角度 表现 ,较小是当数据统计 量继续提升时。并能 数据统计 量较小小小 ,在他所有 数 才可 100 行数据统计 ,这个世界有多最关键点关键在于最终解决较小小小 ,但越来数据统计 量的继续提升 ,在他所有 数 强悍强就凸显出更是如此如此最关键点关键在于。
Use Cases of Data Warebase:不代表意义 落地场景
下面我分享有两 Data Warebase 落地案例。不复杂才能关键在于的 ,可分为六大类。但从抽象层面角度 ,只还才可才可两大类型。
依靠多模强悍强精简架构(Simplicity):部分方式改变 AI Agent 和 Feature Store , 未来几年在他所有 数 服务方面 将依托 AI Agent 选用到智能交互 ,而 AI Agent 并能 有两强难以估量 Data API ,Data Warebase 提供更少了强难以估量多模查询、极致弹性、部分方式改变 分支管理的强悍强 ,并能 较小好 地全面支持 AI Agent 的场景。
实时决策 (Instant Decision ): 部分方式改变 超实时高吞吐的金融行情及分析和风控 ,高弹性高吞吐的运维可观测性场景 ,车联网车机信号实时监控与故障诊断更主要需求 ,部分方式改变 实时搜索广告综合推荐管理系统。
说过 AI Agent ,直到最后了还才可详细解释过你不会再赘述。Instant Decision 下的有两大类是可观测性。可观测性从广义角度 说 ,万物就象都拥有高可观测性 ,的有两之内太宽泛了。而狭义的可观测性 ,下了方面是指对日志、标签和行为形成的及分析 。直到最后了 ,有两领域发展下了方面是时序数据统计 库的天下。在他所有 数 人 ,下面我对于意外发现时序数据统计 库每每 一但在他所有 数 局限性 ,在他所有 数 它真的很难做数据统计 的 Append 插入 ,对于而已而已 Update ,也不并能 选用到文本检索和复杂的及分析查询。
原来 ,下面我直到最后了选用到 ES 和 ClickHouse。这在他所有 数 ,ES 才能关键在于关键在于最关键点关键在于最终解决是冷热数据统计 分层的挑战(冷数据统计 并能 再一次加载 ,一但不并能 强行访问) ,还才可它下了方面真的很难用于标签过滤和文本检索。ClickHouse 各种大宽表上做多维及分析的性能相较较好 ,但其它其它动物 Upsert 强悍强和 Join 小操作性能对于而已而已理想。更最关键点关键在于才可 ,在可观测性场景下 ,弹性强悍强至关最关键点关键在于。只还才可在管理系统正常地运行、对于而已而已报警或行情平稳时 ,直到最后了才可小有两人在观测;而才可 管理系统每每 一但最关键点关键在于最终解决并能 来这是 波再一次金融行情 ,会出暂时没有内更多少不基本上上 人涌入查看 ,管理系统就能崩溃。直到最后了 ,云上都弹性强悍强较小最关键点关键在于。Data Warebase 只还才可选用到了最领先的存算分离架构 ,并能 并不业务无一份感情 况直接原因 下的秒级弹性扩缩容。
对于而已而已 ,只还才可可观测性场景即并能 Simplicity 又并能 Instant Decision 的强悍强。
对于金融领域发展 ,像 Trading、Fraud Detection ,部分方式改变 车联网领域发展中是信号收集、检测和报警 ,部分方式改变 Ads、Search 和 Recommendation 这几类场景中 ,其它其它动物都不代表意义 并能 Instant Decision 的场景。下面我了解有两具体内容案例。
案例一:AI Agent
未来几年的 AI Agent ,对于而已而已够对接多个 MCP ,对于而已而已连接有两多模数据统计 库。用有两数据统计 库 ,有两 MCP 接口 ,大大继续提升 继续提升 继续提升 LLM 大模型的智力和推理的门槛。
才能关键在于的是 AI Agent。未来几年 ,所下了方面数服务方面 都将提供更多 AI Agent 的服务方面 。以对于而已而已 的产品产品为例 ,会每每 一但才能 有两难以估量 MCP 出口。
第有两 MCP 是数据统计 库一但 。 对于而已而已 用两个标准的 PG MCP 并就能把数据统计 库服务方面 暴露给大模型调用。每个客户既并能 选用到 SQL 来查询 ,并就能选用到大模型来访问对于而已而已 的产品产品 ,选用到 Data Warebase 会凸显出凸显出不复杂。
这个 MCP 是平台发展服务方面 。 才可数据统计 库一但 ,Data Warebase 还提供更多平台发展服务方面 (扩缩容 ,监控 ,报警) ,对于而已而已 平台发展服务方面 并就能对外暴露 MCP 服务方面 。有两 ,每个客户的 OPS 管理系统并能 选用到 AI 来智能深入了解数据统计 库的运行现象严重 直接原因 。运维男同学并能 强行跟据指出 具体内容的最关键点关键在于最终解决 ,在他所有 数 “下面我三天中在哪的一点的 Workload 极高 ?”“下面你有两切 Workload 比下面我高了样的?”“有哪些人指标在他所有 数 异常?”.
平台发展服务方面 直到最后了下了方面是选用到 SDK 来火速完成的 ,但对于而已而已 都转向了 MCP。未来几年应用层的业务逻辑会凸显出薄 ,业务应用直到最后了的这个地方继续都成只由前端界面、AI 和数据统计 这 3 层架构来全面支持 。
部分方式改变 ,我我说说过的 Data Warebase 的混合查询强悍强较小强。更多用户再就能用很担心要管理多个数据统计 库 ,有两数据统计 库并能 搞定在他所有 数 事也也。部分方式改变 Data Warebase 还全面支持 Scale to Zero ,还才可只还才可 ,当对于而已而已连接和 Activity 的直到最后了 ,计算资源并能 强行释放掉。部分方式改变 ,它并能 全面支持 无限的水准扩容。原来 ,我说说过的存算分离架构并能 较小好 地全面支持 数据统计 Snapshot 的火速复制 ,并能 较小好 地更主要需求 AI Agent 在 Branching 上会出现力更主要需求 。
案例二:金融细分行业案例
这个案例是金融细分行业的有两场景 ,你并能 把它认同为有两交易管理系统。有两管理系统会接收到许多的行情数据统计 ,对于而已而已 数据统计 并并能 每个客户端以最快的非常快展示(Freshness 在亚秒级) ,只还才可每当的有两交易火速完成后 ,中间会出现许多的 AI 机器人做及分析和交易决策。对于而已而已 ,数据统计 输入不并能 是 Instant 的 ,跟据指出 “写入即反映出” ,对于而已查询量大大继续提升 继续提升 。部分方式改变 ,其它其它动物查询也比一有如 点查复杂的多。它才可 仅是不复杂地查看一行行数据统计 ,对于而已而已并能 选用到许多的标签选用到过滤做多维及分析 ,以便并能 只观测在他所有 数 较小关注更多的标签并据此给出决策。这在他所有 数 为的样的我直到最后了说过可观测性的之内大大继续提升 继续提升 ,从理论上讲 ,这在他所有 数 是可观测性的有两应用场景。
关键在于我 的所有 数 强悍强跟据指出 下 ,传统性数据统计 库并能 更主要需求 才可 Subsecond Level 全新鲜度和高吞吐量 ,其它动物不并能 更主要需求 多维及分析的更主要需求 。而 Search 和 Lakehouse 架构并并能 大大继续提升 上更主要需求 及分析更主要需求 ,但其它其它动物不并能 部分方式改变 更主要需求 高吞吐量和低延迟的跟据指出 。对于而已而已 ,那个我直到最后了所说 ,Data Warebase 下了基本上上 才可一丢丢混合强悍强 ,也还才可多模查询的强悍强 ,的这个地方就凸显出较小最关键点关键在于。
案例三:车联网案例
第有两案例是车联网。对于而已而已 接入了有两头部的车联网更多用户 ,其它其它动物车机信号传输频率较小高 ,每辆车每秒这个地方继续上传车机信号 ,100 万辆车就意味着每秒有 100 万条数据统计 涌入。原来 ,对于而已而已 数据统计 赶要来后 ,对于而已而已 只还才可将其存储赶要来 ,以更主要需求 监管跟据指出 。但还才可 ,越来电动车凸显出受欢迎 ,现象严重 直接原因 每每 一但了改变。下面我都我赶要来 ,电动车的管理系统升级优化是选用到 OTA 来火速完成的 ,而对于而已而已像传统性汽车才可 并能 开到车厂 ,插上线选用到升级优化。对于而已而已 电动车会越来地推送免费软件更新 ,而对于而已而已 免费软件更新直到最后了会对车机致使大幅大幅。对于而已而已 ,对于而已而已 数据统计 赶要来直到最后了 ,对于而已而已 还并能 对在他所有 数 关键点列选用到及分析。更有甚者在不升级优化的直到最后了 ,也并能 对核心机动车信号做实时监控报警 ,就能保证机动车和车主的安全。
直到最后了的及分析型数据统计 库并能 统计在他所有 数 聚合值 ,也不擅长明细查询 ,只还才可明细查询的直到最后了直到最后了并能 对非主键字段都做滤 ,并能 才可一丢丢全局二级索引 ,在他的所有 数 索引下了方面数数也才可 OLTP 数据统计 才有着。对于而已而已 ,在他所有 数 场景较小适合于选用到多模数据统计 库。
案例四:广告和综合推荐案例
第下了案例是广告和综合推荐。广告的量比综合推荐大 ,只还才可在他所有 数 广告部分方式改变 公司收集了无数 APP 的流量 ,且每每 做决策时的查询逻辑也较小复杂。当对于而已而已 在选用到例如此类把手机 应用时 ,每每 跳转到下有两界面 ,只还才可还才可有两决策两个中会。对于而已而已 决策两个两个中会查询的数据统计 量较小难以估量。综合推荐管理系统还才可才可 ,对于而已而已 下了所下了方面数综合推荐管理系统 ,较小是电商平台发展的综合推荐管理系统 ,都并能 较小实时地选用到决策。
部分方式改变 ,当在他电商平台发展上搜索 1000 元的把手机 时 ,管理系统对于下一秒为你综合推荐 1000 元下面 的把手机 ,而对于而已而已 1 万元的把手机 ,只还才可管理系统还才可跟据你有两切搜索之内做赶要来精准的判断。才能关键在于的 新更多用户 ,管理系统到这是 直到最后了对你真的很难解 ,但才可 你直接购买成 某一类药品 ,管理系统并能 跟据这是 行为形成推断出你有两切下面 年龄段和性别 ,会出现管理系统形成选用到个性化综合推荐。后续的综合推荐决策会凸显出凸显出参与者主动地 ,加大继续提升更多用户体验到。在他所有 数 实时性和个性化的强悍强 ,是传统性综合推荐管理系统本质区别于传统性综合推荐管理系统的最关键点关键在于特征。在他所有 数 综合推荐管理系统对于而已并能 实时写入 ,且高频及分析查询。
总结好了 ,下面我下了方面分享了在 Data for AI 变革时代我观察到的每每 一但和思考 ,部分方式改变 Data Warebase 的概念。原来 ,了解了 Data Warebase 能否更主要需求 AI 应用在 Ingestion、Transform、Explore 和 Retrieve 等层面的更主要需求 。
Data Warebase 与现有核心技术的本质区别与明显优势
原来 再不复杂提好了 在他所有 数 小伙伴角度 询问 Data Warebase 与现有核心技术的本质区别与明显优势。
1. Data Warebase 与 HTAP 的本质区别
才能关键在于的从每个客户的角度 角度 ,不才能关键在于的 必然要关心去区分 TP 和 AP ,只还才可 SQL 一但并能 写角度 TP 和 AP 的 Query 来的。只还才可在数据统计 量难以估量直到最后了 ,有两管理系统要么是 TP 性能好在他所有 数 ,要么是 AP 的性能会好在他所有 数 。对于而已而已 HTAP 跟据指出 才可有两管理系统并并能 TP 场景和 AP 场景下性能都较小好。
才可一丢丢 HTAP ,不止是不复杂 TP+AP 的两者结合 ,在内更多才可存储 ,索引 ,和查询优化器一体的两者结合。
层面 ,HTAP 的核心在原来 否能才可火速完成 TP 和 AP 的无缝两者结合。并能 只还才可将 TP 管理系统的数据统计 同步到 AP 管理系统去更主要需求 报表查询 ,大对于而已而已算才可一丢丢 HTAP。才可一丢丢 HTAP 并能 拥有高下面关键在于:
才可一丢丢 HTAP 数据统计 库才能关键在于的 就能独立都成有两 OLTP 数据统计 库 ,并能 独立的都成有两 OLAP 数据统计 库 ,并能 都成有两混合的 HTAP 数据统计 库。
低延迟:数据统计 并能 即时步入管理系统 ,不论在样的全新模式下 ,数据统计 写入即反映出 ,对于而已马上并能 无延迟的服务方面 AP 查询。
高吞吐:并能 全面支持 高吞吐的查询。
复杂查询:全面支持 完整的复杂的 OLAP 及分析查询。
并能 对于而已而已复杂查询的更主要需求 ,这个世界有多部分并能 选用到传统性的 TP 管理系统最关键点关键在于最终解决。才可像金融行情及分析有两的场景 ,并能 数据统计 实时写入和高吞吐的复杂查询 ,才能关键在于才可一丢丢 HTAP。Data Warebase 只还才可有着行列混存的强悍强部分方式改变 丰富的索引 ,天然的全面支持 HTAP ,更多用户都做合理的存储和索引的配置后 ,部分方式改变 查询 SQL 都并能 物理极限上赢得极高 的吞吐和极高 的延迟。更多用户再就能用为各不各不相同场景的数据统计 库选型而很担心。
2. Data Warebase 与流批一体的本质区别
流批一体的终极解法 ,对于而已而已 Flink ,对于而已而已数据统计 库的实时增量物化视图。
流批一体是对于而已而已 最早在阿里搜索主搜时提赶要来 ,对于用 Flink 做实时后续处理 ,再用批计算 ,对于对于而已而已 用 Flink 的批后续处理统一了流和批的计算框架和 SQL。但 Flink 运维难、成本高 ,对于而已而已 指出物化视图是最关键点关键在于最终解决流批一体的最佳方案。在他所有 数 数据统计 管理系统只还才可全面支持 全量物化视图和较小有限的增量物化视图(部分方式改变 双表的 join ,在他所有 数 数据统计 管理系统真的很难选用到全量物化视图做得)。Data Warebase 火速完都成实时增量物化视图 ,大对于才可一丢丢流批一体最不复杂的方案都成但也 现实。
3. Data Warebase 与湖仓一体的本质区别
说过湖仓一体 ,不复杂才能关键在于的 ,还才可让仓和湖二者之二者之间数据统计 并能 打通 ,流转赶要来 ,对于 让仓并能 强行访问湖的数据统计 ,做在他所有 数 查询非常快。层面跟据指出 数据统计 仓库并能 对接两个标准的湖存储 ,做外表的查询 ,计算和写入。
我说讲才可数据统计 库的趋势。并能 放大到大数据统计 的趋势 ,只这是 事也值得关注更多:未来几年数据统计 湖的两个标准才可有两 ,还才可 Iceberg。 只还才可这个世界两大数据统计 巨头 Snowflake 和 Databricks 这个地方继续围绕 Iceberg 选用到。Snowflake 的存储直到最后到最后了还才可认知基础 Iceberg 独特选用和火速完成的 ,Databricks 直到最后了有自研的 Delta Lake ,对于收购了 Iceberg 背原来 部分方式改变 公司 Tabular。对于而已而已 对于而已而已 并能 预见 ,未来几年这有两这个世界才能关键在于关键在于数据统计 巨头这个地方继续围绕着 Iceberg 来布局数据统计 湖生态。
结 语
数据统计 库各种大数据统计 演进到 Data Warebase ,不只还才可架构革新 ,对于而已为 AI 工作后流打下坚实的数据统计 底座。在新一轮的 AI 浪潮中 ,谁拥有高更完整更强难以估量 Data API ,谁就拥有高更高的智能上限。
作者介绍简介:
王绍翾 ,ProtonBase 创始人兼 CEO。曾在 Facebook 负责在线认知基础设施开发 ,并深度参与者了 Memcache ,RocksDB 和自研分布式图数据统计 库 TAO 的开发 ,该数据统计 库支撑了 Facebook 每秒几十亿次的海量数据统计 查询。2015 年加如阿里巴巴 ,先后 负责两项核心工作后:下了方面用 Flink 努力打造了搜索综合推荐关于他们的数据统计 后续处理与 AI 机器去学习平台发展 ,下了方面负责达摩院机器智能工程工作团队 ,部分方式改变 视觉 / 语音 /NLP 等 AI 场景的模型训练 ,推理 ,部分方式改变 向量检索核心技术。2021 年直到最后了创业 ,创立“小质科技” ,推赶要来自研产品产品 ProtonBase ,几款两者结合数据统计 库与数据统计 仓库强悍强的一体全新一代 Data Warebase(Data Warehouse + Database)。