发布与公告
功能发布公告
2025 年更新与发布

2025 年功能更新

2025.8 平台发布 Teleport 支持适配"无损变更"能力

当上游数据库采用 Aliyun DMS 进行数据结构变更时,支持 Teleport 作业适配"无损变更"能力,该模式下,ProtonBase 不会产生临时表,不会修改 table id,不会改变视图依赖。

2025.7 平台发布 Teleport 导出到 Kafka 能力

支持将 ProtonBase 的数据变更事件实时推动到下游 Kafka 中,支持整库同步,支持 MaxwellKVS 两种格式。

2025.5 引擎发布 V1.2 版本

SQL 引擎优化

  • 新增两种事务隔离级别:Read Committed(读已提交)和 Repeatable Read(可重复读),这些隔离级别比 Read Uncommitted(读未提交)更严格,但比 Serializable(可串行化,默认)更宽松,可以在 TP 场景支持更高的 TPS。参考文档 事务处理

  • 查询优化器支持高效的 Runtime Filter,通过在查询执行过程中动态生成和应用过滤条件,显著减少了数据扫描量、I/O 操作和网络传输开销,在大表 Join 小表的场景下,能够带来显著的性能提升。

  • 优化 SQL 执行引擎的 Spill 能力,支持自适应 Spill,提高大作业稳定性。

  • 改善分区表使用体验,支持 truncate 父表,支持为不同的分区设置不同的存储格式(冷热分层),支持在分区父表上订阅 CDC。参考文档 分区表

  • 增强 pg_hint_plan 能力,支持通过配置 hint_table 动态改变运行时的 Query 行为。参考文档 SQL Hints

增量物化视图优化

  • 优化增量物化视图刷新体验,减少刷新过程的表级锁依赖,加速物化视图并行刷新效率。

  • 增量物化视图增加更多聚合算子,包括 string_agg(DISTINCT) / 近似去重 approx_count_distinct / 近似分位数 approx_percentile,参考文档 近似计算

  • 增量物化视图支持动态修改存储格式,ALTER MATERIALIZED VIEW mv_name SET ACCESS METHOD columnar/row/hybird,支持为物化视图动态创建索引。参考文档 物化视图

多模检索优化

  • 向量检索中 HNSW 索引支持向量量化,支持 int8/fp16 两种量化类型,通过将原始浮点向量转换为更紧凑的类型表示,减少类型占用位数来压缩数据,可以显著影响索引的性能和内存使用。参考文档 向量检索

  • Feature Store 场景优化,增量物化视图支持常见特征计算算子,包括以下窗口函数:排名函数 ROW_NUMBER,RANK,DENSE_RANK,NTILE;聚合函数 SUM OVER,AVG OVER,COUNT OVER,MIN OVER,MAX OVER;分布函数 PERCENT_RANK,CUME_DIST;位置函数 FIRST_VALUE,LAST_VALUE;滞后/领先函数 LAG,LEAD;支持总体标准差 stddev_pop/ 样本标准差 stddev_samp/ 总体方差 var_pop/ 样本方差 var_samp 等函数。

  • 增加 PostGIS 扩展支持,支持地理信息检索,允许在 SQL 中运行空间查询,包括空间关系判断、空间测量、几何操作等。参考文档 PostGIS 地理信息检索

  • 全文检索场景优化搜索排名能力。参考文档 全文检索

  • 改善 JSON 使用体验,支持更多 JSON PATH Query 下推优化,支持索引对使用 CAST 进行过滤场景的加速,支持对 JSON 稀疏字段的 Partial Index,改善执行效率。

数据湖优化

2025.4 平台发布 Cache 能力

为什么需要 Cache 能力?支持针对冷存和数据湖数据的加速访问。使用详情参考 缓存 Cache

2025.4 平台发布 Warebase 自动暂停能力

为什么需要自动暂停能力?针对长时间未访问的 Warebase 实例,可以启动自动暂停功能,节约计算资源。

2025.3 平台发布 Catalog 能力

为什么需要 Catalog 能力?支持基于共享存储的多 Warebase 隔离机制,可以实现灵活的读写隔离、写写隔离、读读隔离,更适合不同业务团队共享 Database,独立加工,独立服务的场景。使用详情参考 多 Warebase 负载隔离

2025.1 引擎发布 V1.1 版本

本次引擎更新包含以下更新:

  • 发布增量物化视图(Incremental Materialized View),通过物化视图增量刷新机制,以更低的数据加工资源实现物化视图的近实时更新,提升数据的时效性和查询效率,支持 COUNT、SUM、MIN、MAX、COUNT DISTINCT、方差、标准差等聚合算子;支持 Having 表达式;支持 WITH 表达式;支持全面的多表连接,包括 Inner/Left Outer/Right Outer/Full Outer 连接方式。使用详情参考 物化视图

  • 完善分区表运维体验,支持灵活的 ATTACH、DETACH 分区操作,支持数据直接导入分区父表。使用详情参考 分区表

  • 优化数据湖支持,支持对接 Iceberg REST Catalog,支持数据导出到 ORC、Parquet、Iceberg(V2) 格式的外表。使用详情参考 外部表

  • 支持数据冷热分层存储,平衡性能和成本,降低用户存储成本。使用详情参考 存储分层

  • 支持列级权限控制,细粒度控制 SELECT、UPDATE 权限。请用详情参考 列级权限控制

  • 向量检索新增 HNSW 类型索引,针对海量数据集,支持更高召回精度和查询性能。使用详情参考 向量检索

  • 完善 Statements 统计分析,支持 pg_stat_statements 扩展。使用详情参考 Statements 统计分析

  • 支持 SQL Hints 机制,支持 pg_hint_plan 扩展。使用详情参考 SQL Hints

  • 新增 mysql_compatible 扩展,改善与 MySQL 兼容程度。使用详情参考 MySQL 兼容

  • COPY 支持 Binary 协议,改善数据导入导出效率。使用详情参考 COPY

  • 支持临时表。使用详情参考 临时表

  • 完善支持 CURSOR 相关操作,包括 DECLAREFETCHMOVECLOSE 等操作。

  • 支持数据类型转换相关操作,包括 CREATE CASTDROP CAST 等操作。

  • 丰富数组能力,支持多维数组结构。使用详情参考 Arrays

  • 优化生态对接能力,与 ByteBase、AirByte、dlt、dbt 改善兼容度。

  • 改善 JSON 类型查询效率,优化列剪裁和字典编码。

  • 改善内存使用,更合理高效,提升系统运行稳定性,减少 OOM。