3.1. 监视整个簇¶
整体存储簇统计数据在监视 > 仪表板屏幕中提供。注意存储簇状态,它可以是以下其中一种:
- 运行正常
- 所有簇组件都是活动的并且正常操作。 
- 不可用
- 有关簇状态的信息不足(例如,因为簇不可访问)。 
- 已降级
- 某些簇组件不活动或不可访问。簇正尝试修复自身,数据复制已计划或正在进行中。 
- 错误
- 簇有太多的不活动服务,自动复制已禁用。如果簇进入此状态,请对节点进行故障排除或联系支持团队。 
要全屏查看存储簇统计数据,请单击全屏模式。要退出全屏模式,请按 Esc 或退出全屏模式。
对于高级监视,请单击 Grafana 仪表板。单独的浏览器选项卡将在预配置的 Grafana 仪表板中打开,可以在其中管理现有仪表板、创建新仪表板、在用户间共享仪表板、配置警告等。仪表板使用 Prometheus 数据源。其指标存储 7 天。如果要延长此保留期限,可以按照 Configuring Retention Policy for Prometheus Metrics 中所述手动进行配置。有关更多信息,请参考 Grafana 文档。
 
图表的默认时间间隔是 12 小时。要放大特定时间间隔,请用鼠标选择相应内部。要重置缩放,请双击任何图表。
3.1.2. 服务图表¶
在服务图表上,可以监视两种类型的服务:
- 元数据服务 (MDS)。具有元数据角色的所有磁盘数。确保始终有至少三个 MDS 在运行。 
- 区块服务 (CS)。具有存储角色的所有磁盘数。 
典型的统计数据可能看似如下:
 
如果某些服务在某些时间没有正常运行,这些时间段将在图表中以红色亮显。
3.1.3. 区块图表¶
可以在区块图表上监视簇中所有区块的状态。区块可以有以下状态:
- 运行正常
- 有足够活动副本的区块的数量和百分比。区块的正常状态。 
- 脱机
- 其所有副本都脱机的区块的数量和百分比。此类区块对于簇完全不可访问并且无法复制、从中读取或写入。对脱机区块的所有请求都被冻结,直到存储该区块的副本的 CS 脱机。 - 使脱机的区块服务器尽快重新联机,以避免丢失数据。 
- 已阻止
- 具有比设置的最小数量更少的活动副本的区块数量和百分比。对阻止的区块的写请求被冻结,直到它至少具有设置的副本最小数量。但允许对阻止的区块的写请求,因为它们仍有一些活动的副本。阻止的区块比降级的区块有更高的优先级。 - 在簇中有阻止的区块会增加丢失数据的风险,因此要推迟在工作簇节点上的任意维护,并使脱机的区块服务器尽快重新联机。 
- 已降级
- 其活动副本很少但没有低于设置的最小值的区块数量和百分比。此类区块可以读取和写入。但在后一种情况下,降级的区块会变得紧急。 
运行正常的区块在等级表中以绿色亮显,脱机的显示为红色,阻止的显示为黄色,降级的显示为灰色。例如:
 
复制部分显示有关簇中复制活动的信息。
3.1.4. 物理空间图表¶
物理空间图表显示在整个存储簇和在每个特定层上的当前物理空间的使用情况。使用的空间包括由所有数据区块及其副本占用的空间,再加上由任意其他数据占用的空间。
 
3.1.4.1. 了解物理空间¶
总的物理磁盘空间是在相同层上所有存储磁盘中所有磁盘空间的总和。在冗余模式下,使用的物理空间是相同层上存储磁盘中所有用户数据的总和。空闲磁盘空间是总的物理空间减去使用的物理空间。
为了更好地了解物理磁盘空间的计算方式,请考虑以下示例:
| 已用/总和(空闲),GiB | |||
|---|---|---|---|
| 第 0 层,3+2 编码 (67% 开销) | 第 1 层,2 个副本 (100% 开销) | 第 2 层,无冗余 | |
| 节点 1 | 334/1024 (690) | 134/512 (378) | 50/256 (206) | 
| 节点 2 | 334/1024 (690) | 133/512 (379) | 50/256 (206) | 
| 节点 3 | 334/1024 (690) | 133/512 (379) | |
| 节点 4 | 334/1024 (690) | ||
| 节点 5 | 334/1024 (690) | ||
| 报告的摘要 | 1670/5120 (3450) | 400/1536 (1136) | 100/512 (412) | 
簇包含具有存储角色的十个磁盘:五个 1024 GiB 磁盘指派给第 0 层,三个 512 GiB 磁盘指派给第 1 层,两个 256 GiB 磁盘指派给第 2 层。磁盘上没有其他数据(比如系统文件)。第 0 层以 3+2 编码模式存储 1000 GiB 的用户数据。第 1 层以两个副本模式存储 200 GiB 的用户数据。第 2 层存储 100 GB 的用户数据,无冗余。
不管使用哪种冗余模式,簇都尝试在相同层的磁盘间均匀传播数据区块。
在此示例中,每个层上的物理磁盘空间报告如下:
- 在第 0 层上,磁盘空间总和为 5120 GiB,使用的磁盘空间为 1670 GiB,空闲磁盘空间为 3450 GiB; 
- 在第 1 层上,磁盘空间总和为 1536 GiB,使用的磁盘空间为 400 GiB,空闲磁盘空间为 1136 GiB; 
- 在第 2 层上,磁盘空间总和为 512 GiB,使用的磁盘空间为 100 GiB,空闲磁盘空间为 456 GiB。 
3.1.5. 逻辑空间图表¶
逻辑空间图表表示分配给不同服务用于存储用户数据的所有空间。这包含由用户数据独占的空间。副本和擦除编码元数据不考虑在内。
 
3.1.5.1. 了解逻辑空间¶
当监视簇上的磁盘空间信息时,记住逻辑空间是可用于以数据区块及其所有副本形式存储用户数据的空闲磁盘空间量。一旦此空间用完,没有数据可以写入到该簇。
为了更好地了解物理磁盘空间的计算方式,请考虑以下示例:
- 簇有三个具有存储角色的磁盘。第一个磁盘有 200 GB 的空间,第二个有 500 GB,第三个有 1 TB。 
- 如果冗余模式设置为三个副本,则每个数据块必须存储为具有存储角色的三个不同磁盘上的三个副本。 
在此示例中,可用逻辑磁盘空间将为 200 GB,即,等于具有存储角色的最小磁盘的空间。原因是每个副本必须存储在不同磁盘上。因此一旦最小磁盘(即 200 GB)上的空间用完,不会创建新的区块副本,除非添加具有存储角色的新磁盘或冗余模式更改为两个副本。
使用两个副本冗余模式时,可用逻辑磁盘空间将为 700 GB,因为两个最小的磁盘结合起来可以容纳 700 GB 的数据。
 
        