阿里云云监控集成
ProtonBase 已集成阿里云云监控,您可以通过配置将 ProtonBase 服务的监控数据推送到阿里云云监控。之后,您可以直接在云监控仪表板中查看这些指标,并针对指定监控指标设置报警。
前提条件
- 已开通阿里云云监控 (opens in a new tab)。
配置步骤
Step 1. 创建云监控指标仓库
- 访问阿里云云监控管控台-指标仓库 (opens in a new tab)。
- 点击“创建指标仓库”,为 ProtonBase 监控指标创建一个新的指标仓库。
- 复制指标仓库名,以备 step 4 使用。
Step 2. 创建 RAM 权限策略
-
点击“创建指标仓库”,为 ProtonBase 监控指标的订阅创建一个新的权限策略。
- 创建方式:脚本编辑
- 脚本名称: ProtonbaseMetricsPublishPolicy
- 脚本内容:如下
{
"Version": "1",
"Statement": [
{
"Effect": "Allow",
"Action": [
"cms:DescribeCustomNamespace",
"cms:PutHybridMonitorMetricData"
],
"Resource": "*"
}
]
}
Step 3. 创建 RAM 角色
-
点击“创建角色”,为 ProtonBase 监控指标的订阅创建一个新的角色。
- 角色名称:自定义
- 信任的云账号:选择"其他云账号",账号ID设置为 1359487952478041
-
点击前述步骤创建的角色 ,点击“新增授权”,设置权限策略为前述步骤的 “ProtonbaseMetricsPublishPolicy” 。
-
点击前述步骤创建的角色,点击“信任策略”,允许 ProtonBase 账号 “acs:ram::1359487952478041:user/protonbase” 扮演该角色,信任策略配置如下:
{
"Statement": [
{
"Action": "sts:AssumeRole",
"Effect": "Allow",
"Principal": { "RAM": ["acs:ram::1359487952478041:user/protonbase"] }
}
],
"Version": "1"
}
- 点击前述步骤创建的角色 “protonbase-metrics”,查看“基本信息”,复制
ARN
信息以备以备 step 4 使用。
Step 4. ProtonBase 配置指标推送
- 登录
ProtonBase控制台- 系统监控 - 告警集成
页面, 点击阿里云云监控
启动集成,表单参数详见前述准备工作:- 指标仓库:参考 Step 1
- RAM 角色 ARN:参考 Step3
- 服务区域 ID:根据所在业务在阿里云区域的分布情况设置
- 点击
确定
以完成云监控集成配置。预计 1-2 分钟后开始正式推送监控指标,您可前往云监控/指标仓库/指标仓库详情 (opens in a new tab)查看指标数据,集成配置的“指标仓库”会提示指标仓库详情
的超链接。
监控指标
当前 ProtonBase 支持以下实时监控指标到云监控
指标名 | 指标名(中文) | 类型 | 样例值 | label | 含义 |
---|---|---|---|---|---|
Warebase 计算指标 | |||||
warebase_expect_units | 目标规格 | gauge | 5 |
| 目标/当前 规格:显示 Warebase 的目标和当前规格。当前规格指 Warebase 处于正常服务状态的 Unit 数量。例如,在新建或扩容时, 目标规格 > 当前规格 的情况会暂时出现,随后会调整为 目标规格 = 当前规格 。如果持续出现目标规格 != 当前规格的情况,则可能指示系统处于非正常状态,此时应联系管理员。 |
warebase_running_units | 当前规格 | gauge | 5 | ||
warebase_resource_percent_normalized | 利用率 | gauge | 0.8 | 利用率:表示 Warebase 资源的使用率,综合考虑了 CPU 和内存的消耗。如果这一指标持续高于 80%,可能需要考虑扩容。 | |
warebase_select_qps | Select QPS | gauge | 1000 | QPS: 显示 Warebase 每秒处理的 SQL 语句数量,包括 Select、Update、Insert、Delete 和 Copy 等类型。 | |
warebase_update_qps | Update QPS | gauge | 1000 | ||
warebase_insert_qps | Insert QPS | gauge | 1000 | ||
warebase_delete_qps | Delete QPS | gauge | 1000 | ||
warebase_copy_qps | Copy QPS | gauge | 1 | ||
warebase_failure_qps | 失败 Query QPS | gauge | 1 | 失败 Query 数:显示 Warebase 每秒执行失败的 SQL 语句数量。如数值突增,需结合业务和系统状况进行分析。 | |
warebase_insert_affected_rows | Insert 影响行数 | gauge | 10000 | 影响行数:显示 Warebase 每秒执行插入(INSERT)、更新(UPDATE)或删除(DELETE)操作后受影响的行数。如出现异常或结果不符合预期,需结合业务和系统状况进行分析。 | |
warebase_update_affected_rows | Update 影响行数 | gauge | 10000 | ||
warebase_delete_affected_rows | Delete 影响行数 | gauge | 10000 | ||
warebase_copy_affected_rows | Copy 影响行数 | gauge | 10000 | ||
warebase_sql_select_p90_latency | Select 延迟(P90) | gauge | 38818282.52(纳秒) | 各类型 SQL 延迟:分别统计 Warebase 上各类型 SQL(select、insert、update、delete、copy)的 P99 延迟和 P90 延迟。如果指标长时间异常(如持续数分钟),需结合业务和系统状况进行分析。 | |
warebase_sql_select_p99_latency | Select 延迟(P99) | gauge | 38818282.52(纳秒) | ||
warebase_sql_insert_p90_latency | Insert 延迟(P90) | gauge | 38818282.52(纳秒) | ||
warebase_sql_insert_p99_latency | Insert 延迟(P99) | gauge | 38818282.52(纳秒) | ||
warebase_sql_update_p90_latency | Update 延迟(P90) | gauge | 38818282.52(纳秒) | ||
warebase_sql_update_p99_latency | Update 延迟(P99) | gauge | 38818282.52(纳秒) | ||
warebase_sql_delete_p90_latency | Delete 延迟(P90) | gauge | 38818282.52(纳秒) | ||
warebase_sql_delete_p99_latency | Delete 延迟(P99) | gauge | 38818282.52(纳秒) | ||
warebase_sql_copy_p90_latency | Copy 延迟(P90) | gauge | 38818282.52(纳秒) | ||
warebase_sql_copy_p99_latency | Copy 延迟(P99) | gauge | 38818282.52(纳秒) | ||
warebase_sql_service_p90_latency | SQL 延迟(P90) | gauge | 38818282.52(纳秒) | SQL 延迟:P99:统计 Warebase 上 99% 的 SQL 语句执行耗时; P90:统计 Warebase 上 90% 的 SQL 语句执行耗时。如果 P99 延迟或 P90 延迟指标长时间异常(如持续数分钟),需结合业务和系统状况进行分析。 | |
warebase_sql_service_p99_latency | SQL 延迟(P99) | gauge | 38818282.52(纳秒) | ||
warebase_network_receive_bytes | 网络吞吐(接收) | gauge | 92468.533333(字节) | 网络吞吐:显示 Warebase 的网络吞吐量,包括接收和发送的字节数。 | |
warebase_network_send_bytes | 网络吞吐(发送) | gauge | 92468.533333(字节) | ||
warebase_active_sql_connections | 活跃连接数 | gauge | 100 | 连接数:显示 Warebase 上的 SQL 连接数,包括活跃和空闲连接。 | |
warebase_idle_sql_connections | 闲置连接数 | gauge | 20 | ||
Database 存储指标 | |||||
database_size_bytes | Database 存储大小 | gauge | 1073741824 (即 1TB) |
| 各 Database 存储大小:显示每个数据库的存储大小。 数据库存储大小包括所有数据所占用的底层存储空间,涵盖表索引数据和事务日志。数据插入、修改、索引整理、事务执行、schema 变更、复制和快照等操作都会影响存储大小。 |
Backup 备份指标 | |||||
backup_size_bytes | Backup 存储大小 | gauge | 1073741824 (即 1TB) |
| 各备份 Backup 存储大小 |
Teleport 数据同步指标 | |||||
teleport_source_idle_time | gauge | todo |
| Source 闲置时间,单位秒当前系统时间 - 上一条数据的 event time 在没有数据的情况下,该指标会增加。 | |
teleport_emit_event_time | gauge | todo | 最近一次读取到的数据延时时间,单位秒最近一次读取到数据的系统时间 - 最近一次读取到数据的业务时间在源端没有数据的情况,该指标不会增加 | ||
teleport_source_heartbeat_time | gauge | todo | 源端心跳时间,单位秒指标产生的时间 - 最近一次尝试读取源端的系统时间如果该指标持续增大,说明被写入端反压了 | ||
teleport_rps | gauge | todo | 每秒记录数 | ||
teleport_bps | gauge | todo | 每秒字节数 |