监控指标

Warebase 指标

展示所选特定 Warebase 在指定时间段内的多种指标,包括:

  • 目标/当前 规格:显示 Warebase 的目标和当前规格。当前规格指 Warebase 处于正常服务状态的 Unit 数量。例如,在新建或扩容时,目标规格 > 当前规格 的情况会暂时出现,随后会调整为 目标规格 = 当前规格。如果持续出现 目标规格 != 当前规格 的情况,则可能指示系统处于非正常状态,此时应联系管理员。
  • 利用率:表示 Warebase 资源的使用率,综合考虑了 CPU 和内存的消耗。如果这一指标持续高于 80%,可能需要考虑扩容。
  • QPS:显示 Warebase 每秒处理的 SQL 语句数量,包括 Select、Update、Insert、Delete 和 Copy 等类型。
  • SQL 延迟:P99:统计 Warebase 上 99% 的 SQL 语句执行耗时; P90:统计 Warebase 上 90% 的 SQL 语句执行耗时。如果 P99 延迟或 P90 延迟指标长时间异常(如持续数分钟),需结合业务和系统状况进行分析。
  • 各类型 SQL 延迟:分别统计 Warebase 上各类型 SQL(select、insert、update、delete、copy)的P99 延迟和 P90 延迟。如果指标长时间异常(如持续数分钟),需结合业务和系统状况进行分析。
  • 网络吞吐:显示 Warebase 的网络吞吐量,包括接收和发送的字节数。
  • 连接数:显示 Warebase 上的 SQL 连接数,包括活跃和空闲连接。
  • 失败 Query 数:显示 Warebase 每秒执行失败的 SQL 语句数量。如数值突增,需结合业务和系统状况进行分析。
  • 影响行数:显示 Warebase 每秒执行插入(INSERT)、更新(UPDATE)或删除(DELETE)操作后受影响的行数。如出现异常或结果不符合预期,需结合业务和系统状况进行分析。

存储大小

展示 Warebase 和 Database 维度的存储大小:

  • 各 Warebase 绑定存储大小:显示每个 Warebase 下所有数据库的存储大小。
  • 各 Database 存储大小
    • 逻辑存储大小: 展示每个数据库按照逻辑大小(单副本)统计的存储资源消耗,目前根据类型具体细分为热存和日志2个类型。
    • 物理存储大小: 即将下线。展示每个数据库按照物理大小(多副本)统计的存储资源消耗。

数据库存储大小包括所有数据所占用的底层存储空间,涵盖表索引数据和事务日志。数据插入、修改、索引整理、事务执行、schema 变更、复制和快照等操作都会影响存储大小。

监控指标

当前 ProtonBase 支持以下实时监控指标到云监控

指标名指标名(中文)类型样例值label含义
Warebase 计算指标
warebase_expect_units目标规格gauge5
  • _cloudProvider
  • _region
  • _datacloudId
  • _id
  • _name

目标/当前 规格:显示 Warebase 的目标和当前规格。当前规格指 Warebase 处于正常服务状态的 Unit 数量。例如,在新建或扩容时, 目标规格 > 当前规格 的情况会暂时出现,随后会调整为 目标规格 = 当前规格 。如果持续出现目标规格 != 当前规格的情况,则可能指示系统处于非正常状态,此时应联系管理员。

warebase_running_units当前规格gauge5
warebase_resource_percent_normalized利用率gauge0.8

利用率:表示 Warebase 资源的使用率,综合考虑了 CPU 和内存的消耗。如果这一指标持续高于 80%,可能需要考虑扩容。

warebase_select_qpsSelect QPSgauge1000

QPS: 显示 Warebase 每秒处理的 SQL 语句数量,包括 Select、Update、Insert、Delete 和 Copy 等类型。

warebase_update_qpsUpdate QPSgauge1000
warebase_insert_qpsInsert QPSgauge1000
warebase_delete_qpsDelete QPSgauge1000
warebase_copy_qpsCopy QPSgauge1
warebase_failure_qps失败 Query QPSgauge1

失败 Query 数:显示 Warebase 每秒执行失败的 SQL 语句数量。如数值突增,需结合业务和系统状况进行分析。

warebase_insert_affected_rowsInsert 影响行数gauge10000

影响行数:显示 Warebase 每秒执行插入(INSERT)、更新(UPDATE)或删除(DELETE)操作后受影响的行数。如出现异常或结果不符合预期,需结合业务和系统状况进行分析。

warebase_update_affected_rowsUpdate 影响行数gauge10000
warebase_delete_affected_rowsDelete 影响行数gauge10000
warebase_copy_affected_rowsCopy 影响行数gauge10000
warebase_sql_select_p90_latencySelect 延迟(P90)gauge38818282.52(纳秒)

各类型 SQL 延迟:分别统计 Warebase 上各类型 SQL(select、insert、update、delete、copy)的 P99 延迟和 P90 延迟。如果指标长时间异常(如持续数分钟),需结合业务和系统状况进行分析。

warebase_sql_select_p99_latencySelect 延迟(P99)gauge38818282.52(纳秒)
warebase_sql_insert_p90_latencyInsert 延迟(P90)gauge38818282.52(纳秒)
warebase_sql_insert_p99_latencyInsert 延迟(P99)gauge38818282.52(纳秒)
warebase_sql_update_p90_latencyUpdate 延迟(P90)gauge38818282.52(纳秒)
warebase_sql_update_p99_latencyUpdate 延迟(P99)gauge38818282.52(纳秒)
warebase_sql_delete_p90_latencyDelete 延迟(P90)gauge38818282.52(纳秒)
warebase_sql_delete_p99_latencyDelete 延迟(P99)gauge38818282.52(纳秒)
warebase_sql_copy_p90_latencyCopy 延迟(P90)gauge38818282.52(纳秒)
warebase_sql_copy_p99_latencyCopy 延迟(P99)gauge38818282.52(纳秒)
warebase_sql_service_p90_latencySQL 延迟(P90)gauge38818282.52(纳秒)

SQL 延迟:P99:统计 Warebase 上 99% 的 SQL 语句执行耗时; P90:统计 Warebase 上 90% 的 SQL 语句执行耗时。如果 P99 延迟或 P90 延迟指标长时间异常(如持续数分钟),需结合业务和系统状况进行分析。

warebase_sql_service_p99_latencySQL 延迟(P99)gauge38818282.52(纳秒)
warebase_network_receive_bytes网络吞吐(接收)gauge92468.533333(字节)

网络吞吐:显示 Warebase 的网络吞吐量,包括接收和发送的字节数。

warebase_network_send_bytes网络吞吐(发送)gauge92468.533333(字节)
warebase_active_sql_connections活跃连接数gauge100

连接数:显示 Warebase 上的 SQL 连接数,包括活跃和空闲连接。

warebase_idle_sql_connections闲置连接数gauge20
Database 存储指标
database_size_bytesDatabase 存储大小gauge1073741824 (即 1TB)
  • _cloudProvider
  • _region
  • _datacloudId
  • _handle

各 Database 存储大小:显示每个数据库的存储大小。

数据库存储大小包括所有数据所占用的底层存储空间,涵盖表索引数据和事务日志。数据插入、修改、索引整理、事务执行、schema 变更、复制和快照等操作都会影响存储大小。按照物理大小(多副本)方式统计。

database_hot_size_bytesDatabase 热存存储大小gauge1073741824 (即 1TB)
  • _cloudProvider
  • _region
  • _datacloudId
  • _handle

各 Database 热存存储大小,按照逻辑大小(单副本)方式统计

database_wal_size_bytesDatabase 日志存储大小gauge1073741824 (即 1TB)
  • _cloudProvider
  • _region
  • _datacloudId
  • _handle

各 Database 日志存储大小,按照逻辑大小(单副本)方式统计

Backup 备份指标
backup_size_bytesBackup 存储大小gauge1073741824 (即 1TB)
  • _cloudProvider
  • _region
  • _datacloudId
  • _handle
各备份 Backup 存储大小
Teleport 数据同步指标
teleport_source_idle_timegaugetodo
  • _cloudProvider
  • _region
  • _datacloudId
  • _jobId
  • _jobName

Source 闲置时间,单位秒当前系统时间 - 上一条数据的 event time 在没有数据的情况下,该指标会增加。

teleport_emit_event_timegaugetodo

最近一次读取到的数据延时时间,单位秒最近一次读取到数据的系统时间 - 最近一次读取到数据的业务时间在源端没有数据的情况,该指标不会增加

teleport_source_heartbeat_timegaugetodo

源端心跳时间,单位秒指标产生的时间 - 最近一次尝试读取源端的系统时间如果该指标持续增大,说明被写入端反压了

teleport_rpsgaugetodo每秒记录数
teleport_bpsgaugetodo每秒字节数