8.10. 监视 S3

您可以使用以下图表在存储服务 > S3 > 概述屏幕上监视 S3 群集及其组件:

  • NS、OS 和 GW 服务的可用性。如果 S3 GW 服务为“失败”状态,则最有可能承载该服务的节点已关闭。对于 S3 群集而言,这不是一个严重问题:S3 服务的高可用性基于 DNS 记录。如果 DNS 记录配置合理,则 S3 服务仍然可以通过 S3 客户端完全访问。另一方面,如果 OS 或 NS 服务出现故障,则至关重要:整个 S3 群集将无法正常运行。如果您发现某些 NS 或 OS 服务处于脱机状态,但是所有群集节点都处于正常状态,并且具 有OSTOR 专用流量类型的网络运行良好,请联系技术支持团队。您也可以参考 Grafana 仪表板以找出故障原因。

  • 操作率。该图表显示了 S3 用户请求的总体群集负载,包括所有操作类型。

  • 请求失败率。这些请求是由用户或其应用程序生成的。某些请求无法处理:例如,它们可能请求不存在的对象,或与访问权限不匹配,或使用不受支持的功能(请参阅 支持的 Amazon S3 功能)。因此,错误率占总运行率的一小部分是正常的。但是,这也可能表明用于访问的 S3 应用程序无法正常运行。此外,如果 S3 群集已开放供公众访问,则可能会被 Internet 爬网程序扫描。在这种情况下,错误峰值将反映出访问权限不匹配的所有问题。对于群集而言,这并不是一个严重问题。

  • 带宽。该图表显示了 S3 用户的请求对整个群集的负载。

  • PUT 延迟GET 延迟。这些值是从接收到用户请求的最后一个字节到发送响应的第一个字节为止的期间进行测量的。

8.10.1. 通过 Grafana 的高级 S3 监视

要对 S3 群集进行高级监视,请转至存储服务 > S3 > 概述屏幕,然后单击 Grafana 仪表板。将打开一个单独的浏览器选项卡,其中包含预配置的 Grafana 仪表板。要查看每个图表的详细说明,请单击其左上角的 i 图标。

要详细监视 OS 和 NS 服务,请使用对象存储概述对象存储 OS 详细信息对象存储 NS 详细信息仪表板。按节点或卷过滤数据,以检测服务使用异常的节点或卷。注意任务延迟图表:它显示了等待 CPU、可用内存(回收),从交换进行内存转移(交换)和 I/O 完成所浪费的时间比例。

S3 概述仪表板主要显示 S3 GW 服务信息。在此,您可以使用以下图表监视对象存储和 S3 接口:

  • S3 网关可用性NS 服务可用性OS 服务可用性。这些图表显示了相应 S3 服务的相关信息。服务尚不可用的时间段将以红色亮显。

  • GET 延迟PUT 延迟。这些图表显示了 S3 GET 和 PUT 请求的平均延迟以及第 95、99 和最大延迟百分位数。在从接收到请求的最后一个字节到发送响应的第一个字节为止的时间段内测量该值。

  • 带宽。该图表显示每秒通过所有 S3 网关的读取或写入操作的总数。

  • 操作率。该图表显示了所有 S3 网关每秒的 GET、PUT、LIST 和DELETE S3 操作总数。

../_images/s3_grafana1.png

S3 地理复制概述仪表板旨在监视在多个地理分布的数据中心中复制的数据:

  • 复制积压工作复制队列深度是此处最重要的图表。如果值不断增长,则复制效率会下降。这意味着群集接收的数据多于发送的数据。

  • 本地 S3 错误率远程 S3 错误率有助于查找连接问题。如果群集以不稳定的延迟通过 Internet 复制,则可能会出现少量错误。

../_images/s3_grafana2.png