3.8. 执行节点维护

当需要在群集节点上执行服务操作时,请将其置于维护模式中。当这样做时,节点将停止分配新的存储数据区块,但继续处理 I/O 操作用于核心存储服务,例如 MDS、CS 和缓存。其他服务(计算、Backup Gateway、iSCSI、S3 和 NFS)在维护期间可以重新分配,也可以保持不变。在节点处于维护模式后,可以将其关闭并对其执行服务操作。完成之后,打开节点电源并在管理面板中将其返回到操作。

重要

建议在存储群集中有五个 MDS 服务。在此情况下,当运行 MDS 服务的节点在维护期间关闭时,群集可以在另一个节点发生故障时正常运行。

在将节点置于维护模式中之前,请执行以下操作:

  • 如果节点托管虚拟机,将对它们重新分配。确保其他计算节点有足够的资源容纳这些虚拟机。

  • 如果节点托管 iSCSI 目标,请确保将 iSCSI 发起程序配置为使用来自同一目标组的多个 IP 地址。

  • 如果节点运行 S3 网关,则从 S3 接入点的 DNS 记录中删除其 IP 地址。否则,某些 S3 客户端可能会遇到连接超时。

要将节点置于维护模式中,请执行以下操作:

  1. 基础架构 > 节点屏幕中,单击有所需节点的行。

  2. 在节点右侧窗格中,单击进入维护

  3. 进入维护窗口中,选择在维护期间撤离忽略以下工作负载:

    • 块存储。iSCSI 目标组高度可用,具有运行在不同节点上的多个目标。当节点进入维护模式时,将停止它所托管的目标,所需的路径将在 60 秒内移动到目标组中的另一个节点。这样服务就不会在维护期间中断。

    • 块存储(版本 2.4 或更低)。在版本 2.4 或更低版本上创建的旧 iSCSI 目标将从节点中撤离,并在维护后迁移回来。要避免此问题,建议将旧目标转换到新目标组,如在 管理旧 iSCSI 目标 中所述。

    • 计算。从节点中撤离虚拟机意味着将它们一个个地实时迁移到其他计算节点。如果选择忽略它们,它们将继续运行,直到重新启动或关闭节点。在这种情况下,将停止它们,从而导致停机。在节点再次启动后,也不会自动启动它们。

      重要

      挂起的 VM 无法从节点中撤离并将被忽略。

    • S3。可以将 S3 服务从此节点撤离到 S3 群集中的其他节点或忽略它们。在后一种情况下,它们将继续运行,直到重新启动或关闭节点,从而导致停机。在节点再次启动后,将自动启动它们。

    • NFS。可以将 NFS 服务从此节点撤离到 NFS 群集中的其他节点或忽略它们。在后一种情况下,它们将继续运行,直到重新启动或关闭节点,从而导致停机。在节点再次启动后,将自动启动它们。

    • ABGW。此服务高度可用,具有多个实例跨不同节点传播。将此节点置于维护模式将停止其中一个实例,但其他的将继续工作,这样服务就不会被中断。

    群集自我修复是存储群集数据的自动恢复,在存储节点(或磁盘)脱机时变得不可用。如果这发生在维护期间,将延迟自我修复(默认情况下为 30 分钟)以节省群集资源。如果在延迟结束之前节点重新联机,则没必要自我修复。

    通过使用 vstorage -c <cluster_name> set-config 命令以毫秒设置 mds.wd.offline_tout_mnt 参数,可以手动配置复制超时。

    此外,如果节点脱机,节点上的任何非冗余数据区块将变为不可用。但是,如果选中了重新分配非冗余数据,它们会移动到其他存储节点。如果当前层已满,它们还可能临时移动到其他层。

    通常,节点上的所有 CS 都将继续为数据服务,即使在维护模式下,除非节点脱机。但它们不会用于分配新数据,因此将节点置于维护模式可能会减少存储群集中的空闲空间。

    ../_images/node_maintenance1_ac.png
  4. 单击进入

如果出于某些原因,服务不能从节点中撤离,将停止进入维护。您将需要决定如何继续:退出维护以便节点上的所有服务都返回其正常状态;或强制维护以便无法撤离的服务在节点重新启动或停机期间停止。在节点右侧窗格中,单击进入维护、选择所需的操作,然后单击继续

../_images/node_maintenance2_ac.png

维护中的节点可以返回到操作或被释放。

要将节点返回到操作,请在其右侧窗格上单击退出维护