3.1. クラスター全体の監視

ストレージクラスター全体の統計情報は、[監視] > [ダッシュボード] 画面で確認できます。ストレージクラスターのステータスに注意してください。ステータスは以下のいずれかになります。

正常

クラスターのすべてのコンポーネントがアクティブで正常に動作しています。

利用不可

クラスターの状態に関する情報が不足しています(たとえば、クラスターにアクセスできないことが原因)。

低下

クラスターコンポーネントの一部がアクティブでないか、アクセスできません。クラスターは自己修復を試みており、データのレプリケーションがスケジュールされているか、進行中です。

エラー

クラスターにアクティブではないサービスが多数存在しており、自動レプリケーションが無効になっています。クラスターがこの状態になった場合、ノードをトラブルシュートするか、サポートチームに連絡してください。

ストレージクラスターの統計情報を全画面で表示するには、[全画面モード] をクリックします。全画面モードを終了するには、Escキーを押すか、[全画面モードを終了します] をクリックします。

高度な監視を実行する場合、[Grafanaダッシュボード] をクリックします。別のブラウザタブに事前設定済みのGrafanaダッシュボードが表示されます。ここでは、既存のダッシュボードを管理したり、新しいダッシュボードを作成したり、ユーザー間でダッシュボードを共有したり、アラートを設定したりできます。ダッシュボードはPrometheusデータソースを使用します。メトリクスは7日間保存されます。保持期間を長くしたい場合は、Configuring Retention Policy for Prometheus Metricsの説明に従って、手動で構成してください。詳細については、Grafanaのマニュアルを参照してください。

../_images/stor_image137.png

チャートのデフォルトの時間間隔は12時間です。特定の時間間隔を拡大するには、マウスでその間隔を選択します。拡大をリセットするには、任意のチャートをダブルクリックします。

3.1.1. I/Oアクティビティチャート

読み取りチャートと書き込みチャートには、クラスターI/Oアクティビティの履歴が読み取りと書き込みのI/O操作の速度(MB/秒)と1秒間あたりの読み取りと書き込みのI/O操作の数(IOPS)として表示されます。たとえば、次のようになります。

../_images/stor_image28_ac.png

3.1.2. サービスチャート

サービスチャートでは、次の2種類のサービスを監視できます。

  • メタデータサービス(MDS)。メタデータロールが割り当てられたすべてのディスクの数。少なくとも常に3つのMDSが実行されていることを確認します。

  • チャンクサービス(CS)。ストレージロールが割り当てられたすべてのディスクの数。

一般に統計情報は次のようになります。

../_images/stor_image27_ac.png

サービスの一部が一定期間正常な状態でなかった場合、この期間はチャートに赤色で強調表示されます。

3.1.3. チャンクチャート

クラスター内のすべてのチャンクの状態はチャンクチャートで監視できます。チャンクは次のいずれかの状態になります。

正常

十分な数のアクティブなレプリカがあるチャンクの数と割合。チャンクの正常な状態。

オフライン

すべてのレプリカがオフラインになっているチャンクの数と割合。クラスターのこのようなチャンクには全くアクセスできず、レプリケートしたり、読み書きしたりすることはできません。チャンクのレプリカを保存しているCSがオンラインになるまで、オフラインのチャンクへのすべてのリクエストは停止されます。

データが失われないようにするために、できるだけ早くオフラインのチャンクサーバーをオンラインにしてください。

ブロックされています

設定された最小値よりもアクティブなレプリカの数が少ないチャンクの数と割合。ブロックされているチャンクへの書き込みリクエストは、そのチャンクのレプリカの数が少なくとも設定された最小値になるまで停止されます。ただし、ブロックされているチャンクにはいくつかのアクティブなレプリカがあるため、そのチャンクへの読み取りリクエストは許可されます。ブロックされているチャンクは、低下しているチャンクよりもレプリケーションの優先順位が高くなります。

クラスターにブロックされているチャンクがあると、データを失う可能性が高くなるため、機能しているクラスターノードでのメンテナンスを延期して、オフラインのチャンクサーバーをできる限り早くオンラインに戻してください。

低下

アクティブなレプリカの数が少ないものの、設定された最小値を下回っていないチャンクの数と割合。このチャンクへの読み書きは可能です。ただし、後者の場合、低下したチャンクは緊急状態になります。

目盛りでは、正常なチャンクは緑色で強調表示され、オフラインのチャンクは赤色、ブロックされているチャンクは黄色、低下しているチャンクは灰色で強調表示されます。たとえば、次のようになります。

../_images/stor_image27_1.png

[レプリケーション] セクションには、クラスター内のレプリケーションアクティビティに関する情報が表示されます。

3.1.4. 物理スペースチャート

物理スペースチャートには、ストレージクラスター全体と特定の各ティアでの物理スペースの現在の使用量が表示されます。使用中の領域には、すべてのデータチャンクおよびレプリカによって使用されている領域とその他のデータによって使用されている領域が含まれます。

../_images/stor_image27_2.png

3.1.4.1. 物理スペースについて

物理ディスクスペースの合計は、同じティア上のすべてのストレージディスクにあるすべてのディスク領域の合計です。使用されている物理スペースは、冗長性モードである場合、同じティアのストレージディスクに保存されているすべてのユーザーデータの合計です。空きディスク領域は、物理スペースの合計から使用中の物理スペースを引いた領域です。

物理ディスクスペースの計算方法を理解するために、次の例について考えてみます。

表 3.1.4.1.1 物理スペースの例

                                                       使用中/合計(空き)、GiB

ティア0、3+2エンコード

(67%オーバーヘッド)

ティア1、2つのレプリカ

(100%オーバーヘッド)

ティア2、冗長性なし

ノード1

334/1024(690)

134/512(378)

50/256(206)

ノード2

334/1024(690)

133/512(379)

50/256(206)

ノード3

334/1024(690)

133/512(379)

ノード4

334/1024(690)

ノード5

334/1024(690)

報告される概要

1670/5120(3450)

400/1536(1136)

100/512(412)

クラスターにストレージロールのディスクが10個あり、5つの1024GiBディスクがティア0に割り当てられ、3つの512GiBディスクがティア1に、2つの256GiBディスクがティア2に割り当てられています。ディスクに他のデータ(システムファイルなど)はありません。ティア0では、3+2エンコードモードで1000GiBのユーザーデータを保存しています。ティア1では、2つのレプリカモードで200GiBのユーザーデータを保存しています。ティア2では、冗長性なしで100GBのユーザーデータを保存しています。

使用されている冗長性モードに関係なく、クラスターはデータチャンクを同じティアのディスクに均等に分散しようとします。

この例では、各ティアの物理ディスクスペースは次のように報告されます。

  • ティア0では、ディスク領域の合計は5120GiBで、使用中のディスク領域は1670GiB、空きディスク領域は3450GiBです。

  • ティア1では、ディスク領域の合計は1536GiBで、使用中のディスク領域は400GiB、空きディスク領域は1136GiBです。

  • ティア2では、ディスク領域の合計は512GiBで、使用中のディスク領域は100GiB、空きディスク領域は456GiBです。

3.1.5. 論理領域チャート

論理領域チャートは、ユーザーデータを保存するためにさまざまなサービスに割り当てられたすべての領域を表します。これには、ユーザーデータが独占している領域も含まれます。レプリカとイレージャーコーディングメタデータは考慮されません。

../_images/stor_image27_3.png

3.1.5.1. 論理領域について

クラスターのディスク領域情報を監視するときには、論理領域は、データチャンクの形のユーザーデータとそのすべてのレプリカを保存するために使用できる空きディスク領域の量であることを覚えておいてください。この領域を使い切ると、クラスターにデータを書き込むことができなくなります。

論理ディスク領域の計算方法を理解するために、次の例について考えてみます。

  • クラスターにストレージロールのディスクが3つあります。最初のディスクの領域は200GB、2番目のディスクの領域は500GB、3番目のディスクの領域は1TBです。

  • 冗長性モードが3つのレプリカに設定されている場合、各データチャンクは、ストレージロールが割り当てられた3つの異なるディスクに3つのレプリカとして保存される必要があります。

この例では、使用可能な論理ディスク領域は200GBです。つまり、ストレージロールが割り当てられたディスクのうち、最も小さいディスクの容量と等しくなります。なぜなら、各レプリカは異なるディスクに保存する必要があるためです。最も小さいディスクの領域(つまり、200GB)を使い切ると、ストレージロールが割り当てられた新しいディスクが追加されるか、冗長性モードが2つのレプリカに変更されない限り、新しいチャンクレプリカを作成することはできません。

2つのレプリカ冗長性モードでは、使用可能な論理ディスク領域は700GBになります。2つの最も小さいディスクを組み合わせると700GBのデータを保存できるためです。