2025 年功能更新
2025.8 平台发布 Teleport 支持适配"无损变更"能力
当上游数据库采用 Aliyun DMS 进行数据结构变更时,支持 Teleport 作业适配"无损变更"能力,该模式下,ProtonBase 不会产生临时表,不会修改 table id,不会改变视图依赖。
2025.7 平台发布 Teleport 导出到 Kafka 能力
支持将 ProtonBase 的数据变更事件实时推动到下游 Kafka 中,支持整库同步,支持 Maxwell 和 KVS 两种格式。
2025.5 引擎发布 V1.2 版本
SQL 引擎优化
-
新增两种事务隔离级别:Read Committed(读已提交)和 Repeatable Read(可重复读),这些隔离级别比 Read Uncommitted(读未提交)更严格,但比 Serializable(可串行化,默认)更宽松,可以在 TP 场景支持更高的 TPS。参考文档 事务处理。
-
查询优化器支持高效的 Runtime Filter,通过在查询执行过程中动态生成和应用过滤条件,显著减少了数据扫描量、I/O 操作和网络传输开销,在大表 Join 小表的场景下,能够带来显著的性能提升。
-
优化 SQL 执行引擎的 Spill 能力,支持自适应 Spill,提高大作业稳定性。
-
改善分区表使用体验,支持 truncate 父表,支持为不同的分区设置不同的存储格式(冷热分层),支持在分区父表上订阅 CDC。参考文档 分区表。
-
增强 pg_hint_plan 能力,支持通过配置 hint_table 动态改变运行时的 Query 行为。参考文档 SQL Hints。
增量物化视图优化
-
优化增量物化视图刷新体验,减少刷新过程的表级锁依赖,加速物化视图并行刷新效率。
-
增量物化视图增加更多聚合算子,包括 string_agg(DISTINCT) / 近似去重 approx_count_distinct / 近似分位数 approx_percentile,参考文档 近似计算。
-
增量物化视图支持动态修改存储格式,ALTER MATERIALIZED VIEW mv_name SET ACCESS METHOD columnar/row/hybird,支持为物化视图动态创建索引。参考文档 物化视图。
多模检索优化
-
向量检索中 HNSW 索引支持向量量化,支持 int8/fp16 两种量化类型,通过将原始浮点向量转换为更紧凑的类型表示,减少类型占用位数来压缩数据,可以显著影响索引的性能和内存使用。参考文档 向量检索。
-
Feature Store 场景优化,增量物化视图支持常见特征计算算子,包括以下窗口函数:排名函数 ROW_NUMBER,RANK,DENSE_RANK,NTILE;聚合函数 SUM OVER,AVG OVER,COUNT OVER,MIN OVER,MAX OVER;分布函数 PERCENT_RANK,CUME_DIST;位置函数 FIRST_VALUE,LAST_VALUE;滞后/领先函数 LAG,LEAD;支持总体标准差 stddev_pop/ 样本标准差 stddev_samp/ 总体方差 var_pop/ 样本方差 var_samp 等函数。
-
增加 PostGIS 扩展支持,支持地理信息检索,允许在 SQL 中运行空间查询,包括空间关系判断、空间测量、几何操作等。参考文档 PostGIS 地理信息检索。
-
全文检索场景优化搜索排名能力。参考文档 全文检索。
-
改善 JSON 使用体验,支持更多 JSON PATH Query 下推优化,支持索引对使用 CAST 进行过滤场景的加速,支持对 JSON 稀疏字段的 Partial Index,改善执行效率。
数据湖优化
-
支持 Delta Lake 格式,支持集成 Databricks Unity Catalog。参考文档 配置 Unity Catalog 外部表。
-
改善数据湖使用体验,支持 Parquet 和 ORC 的 Array 类型。参考文档 外表数据类型映射。
2025.4 平台发布 Cache 能力
为什么需要 Cache 能力?支持针对冷存和数据湖数据的加速访问。使用详情参考 缓存 Cache。
2025.4 平台发布 Warebase 自动暂停能力
为什么需要自动暂停能力?针对长时间未访问的 Warebase 实例,可以启动自动暂停功能,节约计算资源。
2025.3 平台发布 Catalog 能力
为什么需要 Catalog 能力?支持基于共享存储的多 Warebase 隔离机制,可以实现灵活的读写隔离、写写隔离、读读隔离,更适合不同业务团队共享 Database,独立加工,独立服务的场景。使用详情参考 多 Warebase 负载隔离。
2025.1 引擎发布 V1.1 版本
本次引擎更新包含以下更新:
-
发布增量物化视图(Incremental Materialized View),通过物化视图增量刷新机制,以更低的数据加工资源实现物化视图的近实时更新,提升数据的时效性和查询效率,支持 COUNT、SUM、MIN、MAX、COUNT DISTINCT、方差、标准差等聚合算子;支持 Having 表达式;支持 WITH 表达式;支持全面的多表连接,包括 Inner/Left Outer/Right Outer/Full Outer 连接方式。使用详情参考 物化视图。
-
完善分区表运维体验,支持灵活的 ATTACH、DETACH 分区操作,支持数据直接导入分区父表。使用详情参考 分区表。
-
优化数据湖支持,支持对接 Iceberg REST Catalog,支持数据导出到 ORC、Parquet、Iceberg(V2) 格式的外表。使用详情参考 外部表。
-
支持数据冷热分层存储,平衡性能和成本,降低用户存储成本。使用详情参考 存储分层。
-
支持列级权限控制,细粒度控制 SELECT、UPDATE 权限。请用详情参考 列级权限控制。
-
向量检索新增 HNSW 类型索引,针对海量数据集,支持更高召回精度和查询性能。使用详情参考 向量检索。
-
完善 Statements 统计分析,支持 pg_stat_statements 扩展。使用详情参考 Statements 统计分析。
-
支持 SQL Hints 机制,支持 pg_hint_plan 扩展。使用详情参考 SQL Hints。
-
新增 mysql_compatible 扩展,改善与 MySQL 兼容程度。使用详情参考 MySQL 兼容。
-
COPY 支持 Binary 协议,改善数据导入导出效率。使用详情参考 COPY。
-
支持临时表。使用详情参考 临时表。
-
支持数据类型转换相关操作,包括 CREATE CAST、DROP CAST 等操作。
-
丰富数组能力,支持多维数组结构。使用详情参考 Arrays。
-
优化生态对接能力,与 ByteBase、AirByte、dlt、dbt 改善兼容度。
-
改善 JSON 类型查询效率,优化列剪裁和字典编码。
-
改善内存使用,更合理高效,提升系统运行稳定性,减少 OOM。