Fehlerdomänen

Die Idee hinter Fehlerdomänen ist es, einen Bereich (z.B. ein Rack) zu definieren, der ausfallen kann, wobei dessen Daten aber weiter verfügbar bleiben. Wenn wir die Fehlerdomäne 'Rack' wählen, tolerieren die Cluster-Daten also den Ausfall eines Racks: die anderen Racks werden dann für die Datenverfügbarkeit sorgen. Wenn wir die Fehlerdomäne 'Host' wählen, würde der Ausfall eines kompletten Servers nicht zum Verlust der Datenverfügbarkeit führen.

Um Hochverfügbarkeit bereitstellen zu können, verteilt Acronis Cyber Infrastructure die Datenreplikate auf Basis einer Replikat-Platzierungsrichtlinie gleichmäßig über die Fehlerdomänen. Folgende Richtlinien sind verfügbar:

  • Laufwerk – die kleinstmögliche Fehlerdomäne. Unter dieser Richtlinie platziert (speichert) Acronis Cyber Infrastructure niemals mehr als ein Datenreplikat pro Laufwerk. Diese Option kann zwar vor Laufwerksausfällen schützen, aber dennoch zu Datenverlusten führen, wenn sich Datenreplikate auf verschiedenen Laufwerken desselben Hosts befinden und dieser ausfällt. Diese Richtlinie sollte bei 1-Knoten-Clustern angewendet werden.
  • Host als Fehlerdomäne. Unter dieser Richtlinie platziert (speichert) Acronis Cyber Infrastructure niemals mehr als ein Datenreplikat pro Host. Wenn also ein Storage-Knoten ausfallen sollten (z.B. durch einen Betriebssystemcrash) und all dessen Laufwerke nicht mehr verfügbar sind, wird der Zugriff auf die Daten weiter über die intakten Knoten möglich sein.
  • Rack als Fehlerdomäne. Unter dieser Richtlinie platziert (speichert) Acronis Cyber Infrastructure niemals mehr als ein Datenreplikat pro Rack. Wenn also ein einzelnes Rack ausfallen sollte (Ausfall des Top-of-Rack-Switch) und daher alle darin befindlichen Knoten nicht mehr verfügbar sind, werden die entsprechenden Daten weiter über die anderen Racks verfügbar sein.
  • Reihe als Fehlerdomäne. Unter dieser Richtlinie platziert (speichert) Acronis Cyber Infrastructure niemals mehr als ein Datenreplikat pro Reihe. Wenn also eine einzelne Reihe ausfallen sollte (Ausfall einer einzelnen Stromquelle) und daher alle dort befindlichen Racks nicht mehr verfügbar sind, werden die entsprechenden Daten weiter über die anderen Reihen verfügbar sein.
  • Raum als Fehlerdomäne. Unter dieser Richtlinie platziert (speichert) Acronis Cyber Infrastructure niemals mehr als ein Datenreplikat pro Raum. Wenn also ein einzelner Raum ausfallen sollte (ein Stromausfall) und daher alle in diesem befindlichen Reihen nicht mehr verfügbar sind, werden die entsprechenden Daten weiter über die anderen Räume verfügbar sein.

Beachten Sie bei der Auswahl einer Fehlerdomäne folgende Empfehlungen:

  • Stellen Sie sicher, dass die Metadaten-Services über die Speicherorte verteilt werden. Wenn Sie z.B. einen Raum als Fehlerdomäne wählen und die Daten gleichmäßig über mehrere Räume verteilen, müssen Sie auch die Metadaten-Services so verteilen. Wenn Sie alle Metadaten-Services in einen Raum stellen und dieser aufgrund eines Stromausfalls ausfällt, wird der Cluster nicht mehr richtig funktionieren.
  • Um einen Speicherort als Fehlerdomäne auszuwählen, müssen Sie mehrere Speicherorte dieser Art haben, damit ein Service oder die entsprechenden Daten von einer Fehlerdomäne zu einer anderen verschoben werden können (also z.B. von einem Rack zu einem anderen). Wenn Sie zum Beispiel die Fehlerdomäne 'Rack' mit der Redundanz 2 Replikate oder Codierung 1+1 auswählen wollen, müssen Sie sicherstellen, dass Sie dem Cluster mindestens zwei Racks mit intakten Knoten zugewiesen haben.
  • Der Speicherplatz sollte gleichmäßig zwischen den Fehlerdomänen aufgeteilt sein. Wenn Sie beispielsweise die Fehlerdomäne 'Rack' auswählen, sollte auf jedem der Racks der gleiche Speicherplatz verfügbar sein. Der zuordnenbare Speicherplatz in jedem Rack ist auf den Speicherplatz im kleinsten Rack eingestellt. Der Grund dafür ist, dass jedes Rack für jeden Daten-Chunk ein (1) Replikat speichern sollte. Sobald also der Speicherplatz auf dem kleinsten Rack verbraucht ist, können keine weiteren Chunks im Cluster erstellt werden – und zwar solange, bis ein neues Rack hinzugefügt oder der Replikationsfaktor herabgesetzt wird. Sehr große Fehlerdomänen reagieren empfindlicher auf Ungleichgewichte beim Gesamtspeicherplatz. Wenn eine Fehlerdomäne beispielsweise 5 Racks mit 10 TB, 20 TB, 30 TB, 100 TB sowie 100 TB Gesamtspeicherplatz hat, ist es nicht möglich, (10+20+30+100+100)/3 = 86 TB Daten in 3 Replikaten zuzuordnen. Stattdessen werden nur 60 TB zuordnenbar sein, weil die Racks mit der niedrigeren Kapazität früher ausgeschöpft sein werden. Dabei werden die größten Racks ( die mit 100 TB) dann immer noch freien, nicht zuordenbaren Speicherplatz haben.