8.10. S3の監視¶
S3クラスターとそのコンポーネントは、[ストレージサービス] > [S3] > [概要] 画面で、次のチャートを使用して監視できます。
- NS、OS、およびGWサービスの [アベイラビリティー]S3 GWサービスのステータスが「失敗」の場合、そのサービスをホストするノードがダウンしている可能性があります。S3クラスターにとって重要ではありません。S3サービスの高可用性は、DNSレコードに基づいています。DNSレコードが適切に構成されている場合、S3サービスは、S3クライアント経由で完全にアクセスできます。一方、OS、またはNSサービスに障害が発生した場合は、重大な問題です。S3クラスター全体が正常に動作しない場合があります。一部のNS、またはOSサービスがオフラインであるにもかかわらず、すべてのクラスターノードが正常で、[OSTORプライベート] トラフィックタイプのネットワークが正常に動作している場合は、テクニカルサポートチームにお問い合わせください。また、Grafanaダッシュボードを参照して、障害の原因を調べることもできます。
- 稼働率このチャートには、すべての操作タイプを含むS3ユーザーの要求によるクラスター全体の負荷が表示されます。
- 障害率をリクエストリクエストは、ユーザー、またはユーザーアプリケーションによって生成されます。処理できないリクエストもあります。たとえば、存在しないオブジェクトの要求、アクセス権の不一致、サポートされていない機能の使用などです(サポートされているAmazon S3機能を参照)。したがって、エラー率が総稼働率のごく一部を占めることは正常です。ただし、アクセスに使用されているS3アプリケーションが正常に動作していないことを示す場合もあります。また、S3クラスターがパブリックアクセス用に開いている場合は、インターネットクローラーによってスキャンされることがあります。この場合、エラーの急増は、クローラーのアクセス権不一致によるすべての問題を含みます。ただし、これはクラスターにとって重要な問題ではありません。
- 帯域幅。このチャートにはS3ユーザーのリクエストによるクラスター全体の負荷が表示されます。
- [待機時間の設定]、および [待機時間の取得]。これらの値は、ユーザーリクエストの最後のバイトが受信されてから、応答の最初のバイトが送信されるまでの時間を測定したものです。
8.10.1. GrafanaによるS3の高度な監視¶
S3クラスターの高度な監視を行うには、[ストレージサービス] > [S3] > [概要] 画面に移動し、[Grafanaダッシュボード] をクリックします。別のブラウザタブに事前設定済みのGrafanaダッシュボードが表示されます。チャートの詳しい説明を見るには、そのチャートの左隅にある [i] アイコンをクリックします。
OS、およびNSサービスの詳細な監視には、オブジェクトストレージの概要、オブジェクトストレージOSの詳細、およびオブジェクトストレージNSの詳細ダッシュボードを使用します。ノード、またはボリュームでデータをフィルタし、サービス使用率が異常なノードまたはボリュームを検出します。次の点に注意してください。タスク遅延チャートは、CPUの待ち時間、使用可能なメモリの待ち時間(リクレーム)、スワップからのメモリ転送(スワップイン)、I/O完了に要した時間の割合を示しています。
[S3の概要] ダッシュボードには、主にS3 GWサービス情報が表示されます。ここでは、次のチャートを使用して、オブジェクトストレージとS3インターフェイスを監視できます。
- S3ゲートウェイの可用性、NSサービスの可用性、およびOSサービスの可用性。各チャートには、対応するS3サービスに関する情報が表示されます。サービスが利用できない期間は赤色で強調表示されます。
- GET 待機時間、およびPUT 待機時間。このチャートには、S3のGETリクエストとPUTリクエストにおける、平均遅延、95パーセンタイル、99パーセンタイル、および最大遅延のパーセンタイルが表示されます。これらの値は、ユーザーリクエストの最後のバイトが受信されてから、応答の最初のバイトが送信されるまでの時間を測定したものです。
- 帯域幅。このチャートには、1秒あたりにすべてのS3ゲートウェイを通過する読み取りまたは書き込み処理の合計量が表示されます。
- 稼働率このチャートには、すべてのS3ゲートウェイにおける1秒あたりのGET、PUT、LIST、およびDELETE処理の合計数が表示されます。

S3ジオレプリケーションの概要ダッシュボードは、地理的に分散した複数のデータセンターでレプリケートされたデータを監視するためのものです。
- ここで最も重要なチャートは、レプリケーションバックログとレプリケーションキュー深度です。値が常に増加している場合、レプリケーションの効率は低下しています。これは、クラスターが送信するよりも多くのデータを受信することを意味します。
- ローカルS3エラー率とリモートS3エラー率は、接続の問題の特定に役立ちます。遅延時間が安定しないインターネット経由でレプリケートされるクラスターの場合、少数のエラーが発生する可能性があります。

2020年10月21日