2025年更新
2025.5,引擎发布 V1.2 版本
-
SQL引擎优化:
-
新增两种事务隔离级别:Read Committed(读已提交) 和 Repeatable Read (可重复读),这些隔离级别比 Read Uncommitted(读未提交) 更严格,但比和 Serializable(可串行化,默认)更宽松,可以在 TP 场景支持更高的 TPS。参考文档事务处理。
-
查询优化器支持高效的 Runtime Filter,通过在查询执行过程中动态生成和应用过滤条件,显著减少了数据扫描量、I/O操作和网络传输开销,在大表Join小表的场景下,能够带来显著的性能提升。
-
优化 SQL 执行引擎的 Spill 能力,支持自适应 Spill,提高大作业稳定性。
-
改善分区表使用体验,支持 truncate 父表,支持为不同的分区设置不同的存储格式(冷热分层),支持在分区父表上订阅 CDC。参考文档分区表。
-
-
增量物化视图优化:
-
多模检索优化:
-
向量检索中 HNSW 索引支持向量量化,支持int8/fp16两种量化类型,通过将原始浮点向量转换为更紧凑的类型表示,减少类型占用位数来压缩数据,可以显著影响索引的性能和内存使用。参考文档向量检索。
-
Feature Store 场景优化,增量物化视图支持常见特征计算算子,包括以下窗口函数:排名函数 ROW_NUMBER,RANK,DENSE_RANK,NTILE;聚合函数 SUM OVER,AVG OVER,COUNT OVER,MIN OVER,MAX OVER;分布函数 PERCENT_RANK,CUME_DIST;位置函数 FIRST_VALUE,LAST_VALUE;滞后/领先函数 LAG,LEAD;支持总体标准差 stddev_pop/ 样本标准差 stddev_samp/ 总体方差 var_pop/ 样本方差var_samp 等函数。
-
增加 PostGIS 扩展支持,支持地理信息检索,允许在 SQL 中运行空间查询,包括空间关系判断、空间测量、几何操作等。参考文档PostGIS 地理信息检索。
-
全文检索场景优化搜索排名能力。参考文档全文检索。
-
改善 JSON 使用体验,支持更多 JSON PATH Query 下推优化,支持索引对使用 CAST 进行过滤场景的加速,支持对 JSON 稀疏字段的 Partial Index,改善执行效率。
-
-
数据湖优化:
-
支持 Delta Lake 格式,支持集成 Databricks Unity Catalog。参考文档配置 Unity Catalog 外部表。
-
改善数据湖使用体验,支持 Parquet 和 ORC 的 Array 类型。参考文档外表数据类型映射。
-
2025.4,平台发布 Cache 能力
- 支持针对冷存和数据湖数据的加速访问。使用详情参考缓存 Cache。
2025.4 平台发布 Warebase 自动暂停能力
- 针对长时间未访问的 Warebase 实例,可以启动自动暂停功能,节约计算资源。
2025.3,平台发布 Catalog 能力
- 支持基于共享存储的多 Warebase 隔离机制,可以实现灵活的读写隔离、写写隔离、读读隔离,更适合不同业务团队共享 Database,独立加工,独立服务的场景。使用详情参考多 Warebase 负载隔离。
2025.1,引擎发布 V1.1版本
-
本次引擎更新包含以下更新:
-
发布增量物化视图(Incremental Materialized View),通过物化视图增量刷新机制,以更低的数据加工资源实现物化视图的近实时更新,提升数据的时效性和查询效率,支持 COUNT、SUM、MIN、MAX、COUNT DISTINCT、方差、标准差等聚合算子;支持 Having 表达式;支持 WITH 表达式;支持全面的多表连接,包括 Inner/Left Outer/Right Outer/Full Outer 连接方式。使用详情参考物化视图。
-
完善分区表运维体验,支持灵活的 ATTACH、DETACH分区操作,支持数据直接导入分区父表。使用详情参考分区表。
-
优化数据湖支持,支持对接Iceberg REST Catalog,支持数据导出到ORC、Parquet、Iceberg(V2) 格式的外表。使用详情参考外部表。
-
支持数据冷热分层存储,平衡性能和成本,降低用户存储成本。使用详情参考存储分层。
-
支持列级权限控制,细粒度控制 SELECT、UPDATE 权限。请用详情参考列级权限控制。
-
向量检索新增 HNSW 类型索引,针对海量数据集,支持更高召回精度和查询性能。使用详情参考向量检索。
-
完善 Statements 统计分析,支持 pg_stat_statements 扩展。使用详情参考Statements 统计分析。
-
支持 SQL Hints 机制,支持 pg_hint_plan 扩展。使用详情参考SQL Hints。
-
新增 mysql_compatible 扩展,改善与 MySQL 兼容程度。使用详情参考MySQL 兼容。
-
COPY 支持 Binary 协议,改善数据导入导出效率。使用详情参考COPY。
-
支持临时表。使用详情参考临时表。
-
支持数据类型转换相关操作,包括 CREATE CAST、DROP CAST 等操作。
-
丰富数组能力,支持多维数组结构。使用详情参考Arrays。
-
优化生态对接能力,与 ByteBase、AirByte、dlt、dbt 改善兼容度。
-
改善 JSON 类型查询效率,优化列剪裁和字典编码。
-
改善内存使用,更合理高效,提升系统运行稳定性,减少 OOM。
-