8.10. Supervisión de S3

Puede supervisar el clúster de S3 y sus componentes en la pantalla Servicios de almacenamiento > S3 > Información general con los siguientes gráficos:

  • Disponibilidad de servicios de NS, SO y puerta de enlace. Si un servicio de puerta de enlace de S3 tiene el estado «Fallido», lo más probable es que el alojamiento del nodo esté caído. Esto no es crítico para el clúster: la alta disponibilidad del servicio de S3 se basa en los registros DNS. Si los registros DNS están bien configurados, se sigue pudiendo acceder a todo el servicio de S3 mediante clientes de S3. Sin embargo, si un servicio de SO o NS falla, sí supone un problema crítico: todo el clúster de S3 deja de funcionar con normalidad. Si ve que alguno de los servicios de SO o NS están fuera de línea, pero todos los nodos de clúster están en buen estado y las redes con el tipo de tráfico OSTOR privado funcionan bien, póngase en contacto con el equipo de soporte técnico. También puede consultar los paneles de control de Grafana para descubrir las causas de los errores.
  • Tasa de operaciones. En este gráfico se muestra la carga total del clúster por solicitudes de los usuarios de S3, incluidos todos los tipos de operaciones.
  • Tasa de fallos de solicitud. Las solicitudes las generan los usuarios o sus aplicaciones. Algunas no se pueden procesar: por ejemplo, es posible que soliciten objetos que no existen, que se equivoquen en los derechos de acceso o que usen funciones no admitidas (consulte Características de Amazon S3 compatibles). Por lo tanto, es normal que la tasa de errores suponga una pequeña proporción de la tasa total de operaciones. Sin embargo, también puede indicar que la aplicación de S3 usada para acceder no funciona correctamente. Además, si el clúster de S3 está abierto para acceso público, los rastreadores de Internet pueden examinarlo. En este caso, los picos de errores reflejarían todos los problemas por discrepancias en los derechos de acceso. No obstante, no es un error crítico para el clúster.
  • Ancho de banda. En este gráfico se muestra la carga total del clúster por solicitudes de los usuarios de S3.
  • PUT latency y GET latency. Estos valores se miden desde el momento en que se recibió el último byte de la solicitud del usuario hasta el momento en que se envió el primer byte de la respuesta.

8.10.1. Supervisión de S3 avanzada mediante Grafana

Para llevar a cabo una supervisión avanzada del clúster de S3, vaya a la pantalla Servicios de almacenamiento > S3 > Información general y, a continuación, haga clic en Panel de control de Grafana. Se abrirá una pestaña de navegación independiente con los paneles de control de Grafana, Para obtener una descripción detallada de cada gráfico, haga clic en el icono i que se encuentra en la esquina izquierda.

Para llevar a cabo una supervisión detallada de los servicios de NS y SO, use los paneles de control Información general sobre el almacenamiento de objetos, Detalles del SO con respecto al almacenamiento de objetos y Detalles del NS con respecto al almacenamiento de objetos. Filtre los datos por nodos y volúmenes para detectar los que presentan un uso del servicio que no sea habitual. Tenga en cuenta el gráfico de retraso de tareas: en él se muestra la proporción de tiempo perdido en esperar a la CPU, la memoria disponible (recuperación), la transferencia de memoria a partir de un intercambio (reemplazo) y la finalización de E/S.

En el panel de control Información general de S3 aparece principalmente información de servicio relacionada con las puertas de enlace de S3. Desde él puede supervisar el almacenamiento de objetos y la interfaz de S3 con los siguientes gráficos:

  • Disponibilidad de las puertas de enlace de S3, Disponibilidad de los servicios de NS y Disponibilidad de los servicios de SO. En estos gráficos se muestra la información de los servicios de S3 correspondientes. Los períodos durante los cuales los servicios no estén disponibles están destacados en rojo.
  • GET latency y PUT latency. En los gráficos aparece la latencia media y la 95.ª y la 99.ª, además de los percentiles de latencia máximos de las solicitudes GET y PUT de S3. Este valor se mide desde el momento en que se recibió el último byte de la solicitud hasta el momento en que se envió el primer byte de la respuesta.
  • Ancho de banda. En este gráfico se muestra la cantidad total de operaciones de lectura y escritura que pasan por las puertas de enlace de S3 por segundo.
  • Tasas de operaciones. En este gráfico aparece el número total de operación GET, PUT, LIST y DELETE de S3 por segundo en todas las puertas de enlace de S3.
../_images/s3_grafana1.png

El panel de control Información general sobre la georreplicación de S3 sirve para supervisar los datos replicados en varios centros de datos distribuidos geográficamente:

  • Tareas de replicación pendientes y Profundidad de la cola de replicación son los gráficos más importantes en este caso. El hecho de que los valores aumenten constantemente quiere decir que la eficiencia de la replicación está fallando. Esto significa que el clúster recibe más datos de los que envía.
  • Tasa de errores de S3 locales y Tasa de errores de S3 remotos ayudan a encontrar problemas de conexión. Es posible que haya un pequeño número de errores si los clústeres se replican por Internet con una latencia inestable.
../_images/s3_grafana2.png