4.1. 监视整个群集

要查看存储群集状态,请单击左侧菜单底部的群集名称。它可以是以下项之一:

运行正常

所有群集组件都是活动的并且正常操作。

不可用

有关群集状态的信息不足(例如,因为群集不可访问)。

已降级

某些群集组件不活动或不可访问。群集正尝试修复自身,数据复制已计划或正在进行中。

错误

群集有太多的不活动服务,自动复制已禁用。如果群集进入此状态,请对节点进行故障排除或联系支持团队。

../_images/cluster_status_ac.png

整体存储群集统计数据在监视 > 仪表板屏幕中提供。要全屏查看存储群集统计数据,请单击全屏模式。要退出全屏模式,请按 Esc退出全屏模式

对于高级监视,请单击 Grafana 仪表板。单独的浏览器选项卡将在预配置的 Grafana 仪表板中打开,可以在其中管理现有仪表板、创建新仪表板、在用户间共享仪表板、配置警告等。仪表板使用 Prometheus 数据源。其指标存储 7 天。如果要延长此保留期限,可以按照 Configuring retention policy for Prometheus metrics 中所述手动进行配置。有关更多信息,请参考 Grafana 文档

../_images/monitoring_cluster1.png

图表的默认时间间隔是 12 小时。要放大特定时间间隔,请用鼠标选择相应内部。要重置缩放,请双击任何图表。

4.1.1. I/O 活动图表

图表按读和写 I/O 操作的速度(以 MB/s 为单位)及每秒读和写 I/O 操作 (IOPS) 的数量显示群集 I/O 活动的历史记录。例如:

../_images/monitoring_cluster2_ac.png

4.1.2. 服务图表

服务图表上,可以监视两种类型的服务:

  • 元数据服务 (MDS)。具有元数据角色的所有磁盘数。确保始终有至少三个 MDS 在运行。

  • 区块服务 (CS)。具有存储角色的所有磁盘数。

典型的统计数据可能看似如下:

../_images/monitoring_cluster3_ac.png

如果某些服务在某些时间没有正常运行,这些时间段将在图表中以红色亮显。

4.1.3. 区块图表

可以在区块图表上监视群集中所有区块的状态。区块可以有以下状态:

运行正常

有足够活动副本的区块的数量和百分比。区块的正常状态。

脱机

其所有副本都脱机的区块的数量和百分比。此类区块对于群集完全不可访问并且无法复制、从中读取或写入。所有对脱机区块的请求都将被冻结,直到存储该块副本的CS联机。

使脱机的区块服务器尽快重新联机,以避免丢失数据。

已阻止

活动副本少于设置的最小数量的块的数量和百分比。对阻止的区块的写请求被冻结,直到它至少具有设置的副本最小数量。但是,由于仍保留了一些活动副本,因此允许对块进行读取请求。阻塞块的复制优先级高于降级的块。

在群集中有阻止的区块会增加丢失数据的风险,因此要推迟在工作群集节点上的任意维护,并使脱机的区块服务器尽快重新联机。

已降级

其活动副本很少但没有低于设置的最小值的区块数量和百分比。此类区块可以读取和写入。但在后一种情况下,降级的区块会变得紧急。

运行正常的区块在等级表中以绿色亮显,脱机的显示为红色,阻止的显示为黄色,降级的显示为灰色。例如:

../_images/monitoring_cluster4.png

复制部分显示有关群集中复制活动的信息。

4.1.4. 物理空间图表

物理空间图表显示在整个存储群集和在每个特定层上的当前物理空间的使用情况。使用的空间包括由所有数据区块及其副本占用的空间,再加上由任意其他数据占用的空间。

../_images/monitoring_cluster5.png

4.1.4.1. 了解物理空间

总的物理磁盘空间是在相同层上所有存储磁盘中所有磁盘空间的总和。在冗余模式下,使用的物理空间是相同层上存储磁盘中所有用户数据的总和。空闲磁盘空间是总的物理空间减去使用的物理空间。

为了更好地了解物理磁盘空间的计算方式,请考虑以下示例:

表 4.1.4.1.1 物理空间示例

                                                       已用/总和(空闲),GiB

第 0 层,3+2 编码

(67% 开销)

第 1 层,2 个副本

(100% 开销)

第 2 层,无冗余

节点 1

334/1024 (690)

134/512 (378)

50/256 (206)

节点 2

334/1024 (690)

133/512 (379)

50/256 (206)

节点 3

334/1024 (690)

133/512 (379)

节点 4

334/1024 (690)

节点 5

334/1024 (690)

报告的摘要

1670/5120 (3450)

400/1536 (1136)

100/512 (412)

群集包含具有存储角色的十个磁盘:五个 1024 GiB 磁盘分配给第 0 层,三个 512 GiB 磁盘分配给第 1 层,两个 256 GiB 磁盘分配给第 2 层。磁盘上没有其他数据(比如系统文件)。第 0 层以 3+2 编码模式存储 1000 GiB 的用户数据。第 1 层以两个副本模式存储 200 GiB 的用户数据。第 2 层存储 100 GB 的用户数据,无冗余。

不管使用哪种冗余模式,群集都尝试在相同层的磁盘间均匀传播数据区块。

在此示例中,每个层上的物理磁盘空间报告如下:

  • 在第 0 层上,磁盘空间总和为 5120 GiB,使用的磁盘空间为 1670 GiB,空闲磁盘空间为 3450 GiB。

  • 在第 1 层上,磁盘空间总和为 1536 GiB,使用的磁盘空间为 400 GiB,空闲磁盘空间为 1136 GiB。

  • 在第 2 层上,磁盘空间总和为 512 GiB,使用的磁盘空间为 100 GiB,空闲磁盘空间为 456 GiB。

4.1.5. 逻辑空间图表

逻辑空间图表表示分配给不同服务用于存储用户数据的所有空间。这包含由用户数据独占的空间。副本和纠删码元数据不考虑在内。

../_images/monitoring_cluster6.png

4.1.5.1. 了解逻辑空间

监视集群中的磁盘空间信息时,请记住,逻辑空间是可用磁盘空间量,可用磁盘空间以数据块及其所有副本的形式存储用户数据。一旦该空间用完,就无法将任何数据写入集群。

为了更好地了解物理磁盘空间的计算方式,请考虑以下示例:

  • 群集有三个具有存储角色的磁盘。第一个磁盘有 200 GB 的空间,第二个有 500 GB,第三个有 1 TB。

  • 如果冗余模式设置为三个副本,则每个数据块必须存储为具有存储角色的三个不同磁盘上的三个副本。

在此示例中,可用逻辑磁盘空间将为 200 GB,即,等于具有存储角色的最小磁盘的空间。原因是每个副本必须存储在不同磁盘上。因此一旦最小磁盘(即 200 GB)上的空间用完,不会创建新的区块副本,除非添加具有存储角色的新磁盘或冗余模式更改为两个副本。

使用两个副本冗余模式时,可用逻辑磁盘空间将为 700 GB,因为两个最小的磁盘结合起来可以容纳 700 GB 的数据。