故障域

故障域背后的想法是定义一个范围(例如,机架),它可以在数据仍然可用的情况下发生故障。如果我们选择机架故障域,集群数据将容忍一个机架的故障:其他机架将提供数据可用性。如果我们选择主机故障域,整个服务器的丢失不会导致数据可用性的丢失。

为了提供数据的高可用性,Acronis Cyber Infrastructure 会根据副本替代策略,跨故障域均匀传播数据副本。可以使用以下策略:

  • 磁盘,最小的可能故障域。在此策略下,Acronis Cyber Infrastructure 从来不会在每个磁盘或 CS 上放置超过一个的数据副本。虽然此选项可防止磁盘故障,但当数据副本恰巧在相同主机的不同磁盘上并且主机发生故障时,此选项仍可能导致数据丢失。此策略应与单节点群集一起使用。
  • 作为故障域的主机。在此策略下,Acronis Cyber Infrastructure 从来不会在每个磁盘或 CS 上放置超过一个的数据副本。如果某个存储节点发生故障(操作系统崩溃),仍可以从运行状况良好的节点访问数据。
  • 作为故障域的主机。在此策略下,Acronis Cyber Infrastructure 从来不会在每个磁盘或 CS 上放置超过一个的数据副本。因此,如果一个机架发生故障(机架顶部交换机发生故障),并且其中的所有节点都不可用,则仍然可以从其他机架访问数据。
  • 行有失败域。在此策略下,Acronis Cyber Infrastructure决不会每行放置多个数据副本。因此,如果一行出现故障(单个电源发生故障),并且其中的所有机架都不可用,则仍然可以从其他行访问数据。
  • 作为故障域的主机(默认)。在此策略下,Acronis Cyber Infrastructure 从来不会在每个房间放置超过一个的数据副本。因此,如果一个房间发生故障(停电),并且其中的所有行都不可用,则仍然可以从其他房间访问数据。

选择故障域时,请认为以下建议:

  • 确保元数据服务分布在各个位置。例如,如果选择一个空间作为故障域,并将数据均匀地分布,还必须分发元数据服务。如果您将所有元数据服务放在一个空间中,并且由于停电而发生故障,群集将无法正常工作。
  • 要选择一个位置作为故障域,您需要有多个此类位置,以便服务或数据可以从一个故障域移动到另一个故障域,例如从一个机架移动到另一个机架。例如,如果要选择具有冗余2 个副本编码1+1的机架故障域,请确保至少有两个机架为群集分配了正常节点。
  • 磁盘空间应均匀分布在故障域之间。例如,如果选择机架故障域,则每个机架上的可用磁盘空间应相等。每个机架中的可分配磁盘空间设置为最小机架上的磁盘空间。原因是每个机架应该为一个数据块存储一个副本。因此,一旦最小机架上的磁盘空间用完,在添加新机架或降低复制因子之前,无法在群集中创建更多块。巨大的失败域对总的磁盘空间不平衡更敏感。例如,如果一个域有 5 个机架,总磁盘空间为 10 TB、20 TB、30 TB、100 TB 和 100 TB,则无法在3个副本中分配(10+20+30+100+100)/3=86 TB的数据。相反,只有 60 TB 可分配,因为低容量机架将很快耗尽。这样,最大的机架(100 TB 的机架)仍将有不可分配的可用空间。