Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Azure Managed Grafana proporciona áreas de trabajo de Grafana hospedadas para crear paneles y visualizaciones. Microsoft administra toda la infraestructura subyacente, incluidas las actualizaciones de proceso, redes, almacenamiento y servicio.
Al usar Azure, relibilidad es una responsabilidad compartida. Microsoft proporciona una variedad de funcionalidades para admitir resistencia y recuperación. Es responsable de comprender cómo funcionan esas funcionalidades dentro de todos los servicios que usa y de seleccionar las funcionalidades que necesita para cumplir los objetivos empresariales y los objetivos de tiempo de actividad.
En este artículo se describe cómo hacer que Azure Managed Grafana sean resistentes a una variedad de posibles interrupciones y problemas, incluidos errores transitorios, interrupciones de zona de disponibilidad y interrupciones de regiones. También se describe cómo puede realizar copias de seguridad y recuperarse de otros tipos de problemas y se resalta cierta información clave sobre el acuerdo de nivel de servicio (SLA) de Azure Managed Grafana.
Recomendaciones de implementación de producción
Para aumentar la confiabilidad de las implementaciones de producción mediante Azure Managed Grafana, se recomienda realizar las siguientes acciones:
- Habilite la redundancia de zona al crear un área de trabajo para proporcionar resiliencia a fallos en zonas de disponibilidad.
- Almacenar paneles y otros recursos de Grafana como código, por ejemplo, exportándolos desde la API de Grafana o la CLI, y almacenándolos en un repositorio de control de código fuente como GitHub. Utilice canalizaciones CI/CD para implementar paneles en Azure Managed Grafana. Este enfoque admite escenarios de recuperación. También permite la implementación en varias instancias de Grafana, incluidas las instancias de diferentes regiones de Azure si es necesario.
Introducción a la arquitectura de confiabilidad
En esta sección se describen algunos de los aspectos importantes de cómo funciona el servicio que es más relevante desde una perspectiva de confiabilidad. En la sección se presenta la arquitectura lógica, que incluye algunos de los recursos y características que se implementan y usan. También se describe la arquitectura física, que proporciona detalles sobre cómo funciona el servicio en segundo plano.
Arquitectura lógica
El recurso Azure principal que implemente es un workspace. Después de implementar el área de trabajo, use el punto de conexión de Grafana del área de trabajo para configurar e interactuar con orígenes de datos, paneles, visualizaciones y otros recursos de Grafana.
Arquitectura física
En segundo plano, al crear un área de trabajo, la plataforma Azure aprovisiona los siguientes componentes:
- Servidores de Grafana: máquinas virtuales dedicadas que ejecutan la aplicación Grafana. De forma predeterminada, se aprovisionan dos servidores para alta disponibilidad y redundancia. Microsoft administra completamente estos servidores. No los ve en su suscripción, no puede acceder a ellos y no es responsable de aplicar actualizaciones, escalarlos ni mantenerlos.
- Equilibrador de carga: equilibrador de carga de red que distribuye las solicitudes de explorador entrantes en los servidores de Grafana. El equilibrador de carga supervisa el estado del servidor y enruta automáticamente el tráfico fuera de cualquier servidor incorrecto.
- Base de datos de back-end: Una base de datos de Azure para PostgreSQL que almacena la configuración del área de trabajo y otros datos persistentes. Esta base de datos se comparte en todos los servidores de Grafana del área de trabajo.
El equilibrador de carga realiza un seguimiento de los servidores de Grafana disponibles. En una configuración de servidor dual, si un servidor se vuelve no operativo, el balanceador de carga envía todas las solicitudes al servidor restante. Ese servidor recoge las sesiones del explorador que ha servido anteriormente la otra, en función de la información guardada en la base de datos compartida. Mientras tanto, el servicio Azure Managed Grafana trabaja para reparar el servidor defectuoso o levantar uno nuevo.
Resistencia a errores transitorios
Los errores transitorios son errores breves e intermitentes en los componentes. Se producen con frecuencia en un entorno distribuido como la nube y son una parte normal de las operaciones. Los errores transitorios se corrigen después de un breve período de tiempo. Es importante que las aplicaciones puedan controlar errores transitorios, normalmente mediante el reintento de solicitudes afectadas.
Todas las aplicaciones hospedadas en la nube deben seguir las instrucciones de control de errores transitorios Azure cuando se comunican con cualquier API, bases de datos y otros componentes hospedados en la nube. Para obtener más información, consulte Recomendaciones para controlar errores transitorios.
Puede compilar aplicaciones cliente para interactuar con el área de trabajo de Grafana a través de la API de Grafana. Asegúrese de que esas aplicaciones sigan las instrucciones de reintento de Azure para las solicitudes fallidas.
Resistencia a errores de zona de disponibilidad
Availability zones son grupos de centros de datos físicamente independientes dentro de una región de Azure. Cuando una zona falla, los servicios pueden transferirse a una de las zonas restantes.
Las áreas de trabajo de Azure Managed Grafana admiten redundancia de zona en las regiones de Azure admitidas. Cuando se habilita la redundancia de zona, los servidores Grafana del área de trabajo se distribuyen entre varias zonas de disponibilidad. Microsoft selecciona las zonas que utiliza tu espacio de trabajo. Otros recursos, como el equilibrador de carga de red, la base de datos y la puerta de enlace compartida, también están configurados para usar varias zonas de disponibilidad.
Si no habilita la redundancia de zona, es no zonal o regional, lo que significa que los servidores y otros componentes pueden colocarse en cualquier zona de disponibilidad dentro de la región o dentro de la misma zona. Si alguna zona de disponibilidad de la región tiene un problema, el área de trabajo podría experimentar tiempo de inactividad.
Requisitos
Compatibilidad con regiones: La compatibilidad con redundancia de zona está disponible en las siguientes regiones:
| Americas | Europa | Asia Pacífico |
|---|---|---|
| East US | Norte de Europa | Australia East |
| Centro-sur de EE. UU. | Este de Asia | |
| Oeste de EE. UU. 3 |
Cost
La habilitación de la redundancia de zona conlleva un costo adicional. Para obtener más información, consulte precios Azure Managed Grafana.
Configurar soporte de zonas de disponibilidad
Crear un área de trabajo con zonas de disponibilidad habilitadas: Habilitar redundancia de zona durante la creación del área de trabajo a través del portal de Azure, la CLI o las plantillas de ARM/Bicep.
Para obtener más información, consulte Habilitar la redundancia de zona en Azure Managed Grafana.
Configuración de la redundancia de zona en un área de trabajo existente: No se puede habilitar ni deshabilitar la redundancia de zona en un área de trabajo existente. En su lugar, debe crear un área de trabajo con la configuración de redundancia de zona deseada, migrar los paneles y la configuración y, a continuación, eliminar el área de trabajo existente.
Comportamiento cuando todas las zonas están en buen estado
En esta sección se describe qué esperar cuando un área de trabajo está configurada para tener redundancia de zona y todas las zonas de disponibilidad están operativas.
Enrutamiento de tráfico entre zonas: El equilibrador de carga con redundancia de zona distribuye automáticamente las solicitudes entrantes entre los servidores de Grafana. Ambos servidores pueden procesar el tráfico.
Replicación de datos entre zonas: Los cambios en los datos del área de trabajo se replican sincrónicamente en varias zonas de disponibilidad. La replicación de datos se realiza mediante Azure Database for PostgreSQL. Para obtener más información, consulte Reliability en Azure Database for PostgreSQL. Azure Managed Grafana no implementa lógica de replicación personalizada adicional más allá de lo que proporciona la plataforma de base de datos.
Comportamiento durante un fallo de zona
En esta sección se describe qué esperar cuando un área de trabajo está configurada para tener redundancia de zona y una zona de disponibilidad deja de estar disponible.
- Detección y respuesta: la plataforma Azure detecta y responde a un error en una zona de disponibilidad. No es necesario iniciar una conmutación por error de zona.
- Notificación: Microsoft no le notifica automáticamente cuando una zona está inactiva. Sin embargo, puede usar Azure Resource Health para supervisar el estado de un recurso individual y puede configurar Resource Health alertas para notificarle problemas. También puede usar Azure Service Health para comprender el estado general del servicio, incluidos los errores de zona, y puede configurar alertas de Service Health para notificarle problemas.
Pérdida de datos esperada: No se espera ninguna pérdida de datos durante una interrupción de la zona de disponibilidad.
Tiempo de inactividad esperado: El área de trabajo puede experimentar una pequeña cantidad de tiempo de inactividad, normalmente limitado a unos segundos, mientras que el tráfico se redirige a servidores en buen estado. Asegúrese de que las aplicaciones cliente controlan correctamente los errores transitorios para minimizar los efectos de cualquier tiempo de inactividad.
Reenrutamiento del tráfico: El tráfico entrante se enruta automáticamente al servidor en la zona correcta. El servicio se ejecuta con una capacidad reducida durante el tiempo de interrupción en la zona. No se aprovisionan servidores de reemplazo en zonas saludables durante la interrupción.
Recuperación de zona
Microsoft administra automáticamente la recuperación de zona, incluida la restauración de la capacidad del servicio cuando la zona afectada vuelve a estar en buen estado.
Prueba de fallos de zona
La plataforma Azure administra el enrutamiento del tráfico, la conmutación por error y la conmutación por recuperación para áreas de trabajo con redundancia de zona. Esta característica está totalmente administrada, por lo que no es necesario iniciar ni validar los procesos de error de zona de disponibilidad.
Resistencia a errores en toda la región
Azure Managed Grafana es un servicio de una sola región. Si la región no está disponible, el área de trabajo tampoco está disponible.
Soluciones personalizadas de varias regiones para la resistencia
Para lograr resistencia a interrupciones regionales, puede implementar varias áreas de trabajo de Grafana en diferentes regiones. En este tipo de solución, es responsable de:
- Replicación de paneles y configuración entre regiones. Por ejemplo, puede aplicar una configuración coherente en varias áreas de trabajo mediante CI/CD y el control de código fuente.
- Implementación del enrutamiento de tráfico y conmutación por error a nivel de aplicación o de cliente.
Copias de seguridad y restauración
Azure Managed Grafana no proporciona funcionalidad integrada de copia de seguridad ni restauración para paneles u otras entidades del plano de datos. Para protegerse contra la eliminación accidental o corrupción:
- Use la API de Grafana o la CLI para exportar paneles y otra configuración de Grafana.
- Almacene paneles exportados en un repositorio de control de código fuente, como GitHub.
- Use la automatización o las canalizaciones de CI/CD para volver a implementar paneles y otra configuración de Grafana.
Para la mayoría de las soluciones, no debe confiar exclusivamente en copias de seguridad. En su lugar, utilice las otras capacidades descritas en esta guía para apoyar los requisitos de resiliencia. Sin embargo, las copias de seguridad protegen contra algunos riesgos que otros enfoques no. Para más información, consulte ¿Qué son la redundancia, la replicación y la copia de seguridad?.
Resistencia al mantenimiento del servicio
Microsoft aplica periódicamente actualizaciones de servicio y realiza otro mantenimiento. La plataforma Azure controla estas actividades automáticamente, lo que garantiza que el mantenimiento sea transparente y sin problemas. Durante las operaciones de mantenimiento, es posible que observe breves interrupciones. Normalmente, estas interrupciones duran unos segundos. Asegúrese de que las aplicaciones cliente están configuradas para controlar errores transitorios para que sean resistentes a interrupciones breves.
Acuerdo de nivel de servicio
El acuerdo de nivel de servicio (SLA) para Azure servicios describe la disponibilidad esperada de cada servicio y las condiciones que la solución debe cumplir para lograr esa expectativa de disponibilidad. Para obtener más información, vea SLAs for servicios en línea.
Contenido relacionado
- Confiabilidad en Azure
- Información general sobre Azure Managed Grafana