索引设计

索引是提高查询性能的关键工具。在 ProtonBase 中，有多种索引类型，可以根据数据的特点和查询需求选择最合适的索引。

为什么需要索引

假设我们有一张表：

CREATE TABLE test1 (
    id integer,
    content varchar
);

应用程序发出许多如下模式的查询：

SELECT content FROM test1 WHERE id = constant;

如果没有提前准备，系统将不得不逐行扫描整个 test1 表，以找到所有匹配的条目。如果 test1 中有许多行，但只有很少的行（也许是零或一个）会被这样的查询返回，这显然是一种低效的方法。但如果已经在 id 列上创建了索引，它可以使用一种更高效的方法来查找匹配的行。例如，它可能只需要消耗几次 IO 即可定位到匹配的行。

可以使用以下命令在 id 列上创建索引：

CREATE INDEX test1_id_index ON test1 (id);

ProtonBase 提供了多种索引类型，适用于不同的场景：

主键索引：用于唯一标识一行数据，通常自动创建
全局二级索引：适用于频繁查询的非主键列
Bitmap 索引：适用于低基数列（例如性别、状态等）
GIN 索引：适用于处理多值列（如数组、JSON 等）或全文搜索
向量索引：适用于高维数据的相似度搜索

索引类型详解

目前提供了多种索引类型：B-tree、GIN 和 BITMAP，索引命名需要保证 Schema 下唯一。每种索引类型使用不同的算法，适合不同类型的查询，适配不同的存储结构。默认情况下，CREATE INDEX 命令创建 B-tree 索引。可以通过在关键字 USING 后面指定索引类型名称来选择需要的索引类型，列存创建的索引使用 Split 机制，创建 SPLIT_GIN，SPLIT_BITMAP 等。

CREATE INDEX idx_content_bitmap ON test1 USING split_bitmap (content);

B-tree 全局二级索引

全局二级索引（Global Secondary Index）适用于需要在非主键列上进行高效查询的场景。与主键索引不同，二级索引并不要求数据唯一，但它可以提高特定列的查询效率。全局二级索引是一种 B-tree 索引，可以处理可排序数据的等式查询和范围查询。

下面两个创建索引的语句等效：

CREATE INDEX idx_b ON tbl (b);
CREATE INDEX idx_b ON tbl USING btree (b);

使用示例：

假设你有一张包含用户交易记录的表 transactions：

CREATE TABLE transactions (
    id SERIAL PRIMARY KEY,
    user_id INT,
    amount DECIMAL,
    transaction_date DATE
);

如果想按日期查询交易，比如 WHERE transaction_date = '2023-04-01'，使用 B-Tree 索引会非常高效：

CREATE INDEX idx_transaction_date ON transactions (transaction_date);

适用场景：

查询频繁使用非主键列作为过滤条件的情况，比如 =, <, >, BETWEEN 的操作，常用于数值、字符串或日期类型的字段
需要通过某些非主键列进行排序、分组或者连接的情况

Bitmap 位图索引

列存表支持位图索引。位图索引是数据库中用于提高查询性能的数据结构，特别适用于具有低基数的列，其中存在有限数量的不同值，例如性别、状态等。

CREATE INDEX idx_b_bitmap ON tbl USING split_bitmap (b);

ProtonBase 引擎会自动为文本类型（TEXT/CHAR/VARCHAR/BPCHAR)，日期类型（DATE），枚举类型（ENUM）字段创建自适应的 Bitmap 索引，不再需要手动创建位图索引。引擎会根据数据的特征决策如何创建实际的索引文件，用户可以通过修改 adaptive 参数调整自适应行为。

CREATE INDEX idx_b_bitmap ON tbl USING split_bitmap (b) with (adaptive=true);

使用示例：

在数据仓库场景中，你有一张 sales 表，包含多列为分类字段，例如 region 和 product_category：

CREATE TABLE sales (
    id SERIAL PRIMARY KEY,
    region TEXT,
    product_category TEXT,
    sales_amount DECIMAL
);

当查询 WHERE region = 'North America' AND product_category = 'Electronics' 时，创建多个 Bitmap 索引可以加速这类组合条件的查询：

CREATE INDEX idx_region ON sales USING split_bitmap (region);
CREATE INDEX idx_product_category ON sales USING split_bitmap (product_category);

适用场景：

列的数据值种类较少，通常为有限的离散值（如布尔值、性别、分类等）
进行条件过滤查询时，性能要求较高

GIN 倒排索引

GIN（Generalized Inverted Index），通用倒排索引，适用于包含多个组合值的数据的"倒排索引"，行存表是 GIN 索引，列存表和混合存储是 SPLIT_GIN 索引。

使用示例：

假设有一张记录产品标签的表 products，每个产品可能关联多项标签：

CREATE TABLE products (
    id serial PRIMARY KEY,
    name text,
    tags text[]
);
 
INSERT INTO products (name, tags) VALUES
    ('Product A', ARRAY['electronics', 'gadgets']),
    ('Product B', ARRAY['clothing', 'accessories']),
    ('Product C', ARRAY['electronics', 'accessories']),
    ('Product D', ARRAY['furniture']);
 
CREATE INDEX products_tags_gin ON products USING gin (tags);

查询带 'furniture' 标签的产品：

SELECT count(*) FROM products WHERE tags @> '{"furniture"}';

适用场景：

GIN 索引适用于数组（如 TEXT[]）、JSONB 数据类型或全文搜索场景。常见的运算符包括 @>, && 及全文索引中的 to_tsvector()。对于文本类型，需要添加类型运算符，如 'gin_trgm_ops'，对于数组类型和 JSON 类型，无需运算符。

Protonbase 支持使用以下运算符的索引查询：

<@   @>   =   &&

Vector 向量索引

向量索引通常用于处理高维数据或需要进行相似度搜索的应用，例如图像处理、自然语言处理（NLP）等场景。这类索引允许高效地查找相似度高的记录（例如最相似的文本或图像）。

有关向量索引的使用，参考文档向量检索

适用场景：

高维数据，如机器学习模型生成的向量
相似度搜索，例如基于文本、图像或声音的检索

Primary 主键索引

主键索引是最常见的索引类型，通常用于确保数据的唯一性和完整性。每张表都应该有一个主键（Primary Key），并且通常会在主键列上自动创建索引。主键索引特别适合于根据主键快速定位某一行数据。

使用示例：

CREATE TABLE user_table (
    user_id int,
    username varchar(50),
    email varchar(100),
    PRIMARY KEY (user_id)
);

注意事项：

主键必须具有唯一性，且不可为空
对于多列主键，索引的顺序非常重要。查询优化器会优先使用最左边的列进行匹配，所以列的顺序应根据查询的条件顺序来决定

联合主键设计：

如果主键是多个列组成的联合主键，查询时应该遵循 最左匹配原则，即查询条件中必须包含联合主键的最左列。例如，如果主键是 (a, b, c)，查询时应该优先在 a 上进行等值查询，若包含 b 和 c 的范围查询，索引效率将会显著降低。

高级索引技术

多列索引

可以在表的多个列上定义一个索引（无论是 B-tree 还是位图索引）。

使用示例：

如果我们有一张表 users，其包含字段：id、firstname 和 lastname。假设在这张表上，可创建多列（复合）索引：

CREATE INDEX idx_fullname ON users (firstname, lastname);

此索引基于 firstname 和 lastname 两个字段的组合加速查询。

SELECT * FROM users WHERE firstname = 'John' AND lastname = 'Doe';

此查询能够完全利用我们设置的多列索引 idx_fullname，因而提升性能。

适用场景：

当一个 查询过滤 涉及两列或更多列时
适合用在多列的联合查询（AND 逻辑连接）行为频繁的情况，比如用户组合搜索条件的 Web 应用
适合 高选择性字段（Selectivity），即字段组合后能够筛选出较小范围的数据

具体场景示例：

电商平台按多个字段查询商品（如分类 + 价格区间）时能较好加速查询
某社交平台同时根据用户的 姓 和 名 排查重复记录时使用同样合适

注意事项：

索引列顺序 B-tree 索引中列的顺序显著影响底层索引查找效率。只有在主导（最左侧）列上有约束时才有效。然而，位图索引中列的顺序没有影响。对于位图索引，定义一个组合索引和在各个列上分开定义效果是一样的，只是写法上的区别。
组合过多字段的索引要谨慎 如果创建了很多字段的大型索引，会增加索引表的体积，造成记录插入和更新变慢，索引管理成本增高。因此建议严格控制复合索引长度，避免异常字段组合。
谨防覆盖索引与单列索引冲突 在设计多列索引时，要配合实际使用判断是否仍需要额外的单列索引。例如，假设多列索引无任何单列键可覆盖，可能导致单一列使用被浪费。

部分索引（Partial Index）

部分索引(Partial Index)，也称为条件索引或过滤索引，是 ProtonBase 中的一种高级索引技术，它只为表中满足特定条件的行创建索引，而不是为所有行建立索引。

特点：

选择性索引：只包含符合指定条件的行，避免为所有行建索引，特别是很多行很少被查询
条件表达式：通过 WHERE 子句定义哪些行需要被索引，避免每次数据修改都需要更新索引，即使这些数据不在查询条件内
空间效率：比完整索引占用更少存储空间，节省 30-90% 存储空间
提高查询性能：更小的索引带来更快的搜索速度
解决特殊场景问题：如稀疏数据、高频查询特定子集

基本语法：

CREATE INDEX index_name
ON table_name (column_name [, ...])
WHERE condition;

使用示例：

假设有一个名为 orders 的表，其中存储了所有的订单数据。我们经常查询那些状态为 completed 的订单，但很少涉及其他状态的数据。可以像下面这样创建 Partial Index：

CREATE INDEX idx_completed_orders
ON orders (order_date, customer_id)
WHERE status = 'completed';

当查询符合索引条件时，数据库会利用这个部分索引，从而加速查询操作：

SELECT customer_id, order_date
FROM orders
WHERE status = 'completed'
  AND order_date > '2023-01-01';

此查询将只使用部分索引中的记录，而数据量显著小于整表扫描，因此性能优异。

而如果查询条件不符合索引约束（即 WHERE status != 'completed'），数据库会自动回退为其他显式的索引或采用全表扫描方式。

使用场景：

稀疏数据：某列大量 NULL 或默认值时

CREATE INDEX idx_non_null_phone ON customers(phone)
WHERE phone IS NOT NULL;

业务分区：只查询特定状态的数据

CREATE INDEX idx_unpaid_orders ON orders(total)
WHERE payment_status = 'unpaid';

时间范围：只索引近期数据

CREATE INDEX idx_recent_logs ON logs(timestamp)
WHERE timestamp > '2023-01-01';

排除重复值：只为唯一值建索引

CREATE INDEX idx_unique_emails ON users(email)
WHERE email IN (SELECT email FROM users GROUP BY email HAVING COUNT(*) = 1);

注意事项：

查询必须匹配索引条件：数据库优化器只能使用符合 Partial Index 条件的 SQL 查询语句，否则将无法利用该索引
运维复杂度略有提升：部分索引的范围和条件设计需要根据业务场景精准规划，否则可能因范围不当影响预期效果
条件选择性：条件应该过滤掉足够多的数据（通常>90%）
多列索引：可以组合条件过滤和多列索引

表达式索引（Expression Index）

表达式索引（Expression Index）是一种基于表达式结果而不是原始列值建立的数据库索引。与普通索引直接基于一列（或多列）的值不同，表达式索引将某个表达式（比如函数或运算）应用到一列或多列上，然后对结果建立索引。这样，查询时只要用尽量相同的表达式，索引就能被用到，提高检索效率。

使用示例：

假如有一张员工表：

CREATE TABLE employee (name VARCHAR(20), salary INT);

经常查询薪资的绝对值：

SELECT * FROM employee WHERE ABS(salary) = 5000;

可以创建表达式索引：

CREATE INDEX idx_salary_abs ON employee((ABS(salary)));

这样每次查询都不会全表扫描，而优先用索引。

适用场景：

想对某列的派生或计算结果加速查询
经常在 WHERE 中用到函数/运算的字段

INCLUDE 表达式

CREATE INDEX INCLUDE 允许你在创建索引时包含额外的列，这些列不会被用作索引的搜索键，但会被存储在索引中。使用 CREATE INDEX INCLUDE 可以避免回表查询，通过索引直接访问所需的字段，提高查询的效率。

使用示例：

-- 创建包含额外列的索引
CREATE INDEX idx_employee_dept ON employees (department_id) INCLUDE (salary, hire_date);
 
-- 这个查询可以使用索引覆盖扫描
SELECT salary, hire_date FROM employees WHERE department_id = 5;

注意事项：

包含的列会增加索引的大小
包含的列不能用于索引扫描条件，只能用于避免回表

索引构建优化

并发构建索引

创建索引可能会干扰数据库的正常操作。通常情况下，ProtonBase 会锁定要对其进行索引的表，既针对读取也针对写入，并通过对表的单次扫描来执行整个索引构建。如果系统是一个实时生产数据库，这可能会产生严重的影响。

ProtonBase 支持在不阻塞写入的情况下构建索引。通过指定 CREATE INDEX 的 CONCURRENTLY 选项来调用此方法。

CREATE INDEX CONCURRENTLY test2_mm_idx ON test2 (major, minor);

最佳实践

1. 选择正确的列

为经常出现在 WHERE 子句、JOIN 条件以及 ORDER BY 或 GROUP BY 子句中的列创建索引
考虑为具有高基数（许多不同值）的列创建 B-tree 索引以进行过滤以及用于排序
考虑为具有低基数（许多相同值）的列创建 bitmap 索引以进行过滤

2. 避免过度创建索引

不要在很少或从不在查询中使用的列上创建索引，过多的 B-tree 索引由于引起写放大，会降低写入和更新的吞吐
只为需要提高查询性能的场景创建索引
避免重复索引，如下所示：

CREATE INDEX ON t(a);
 
-- 这个组合索引已经包含上面的索引
CREATE INDEX ON t(a, b);

3. 注意索引大小

请注意索引会占用存储空间。大型索引可能会影响磁盘 I/O 和写入性能
在索引的好处与数据库的空间限制之间取得平衡