Compartilhar via


Confiabilidade no Espaço Gerenciado do Azure para Grafana

Espaço Gerenciado do Azure para Grafana oferece workspaces hospedados do Grafana para a criação de dashboards e visualizações. A Microsoft gerencia toda a infraestrutura subjacente, incluindo computação, rede, armazenamento e atualizações de serviço.

Quando você usa o Azure, a confiabilidade é uma responsabilidade compartilhada. A Microsoft fornece uma variedade de recursos para dar suporte à resiliência e recuperação. Você é responsável por entender como esses recursos funcionam em todos os serviços que você usa e selecionar os recursos necessários para atender aos seus objetivos de negócios e metas de tempo de atividade.

Este artigo descreve como tornar os Espaço Gerenciado do Azure para Grafana resilientes a uma variedade de possíveis interrupções e problemas, incluindo falhas transitórias, interrupções de zona de disponibilidade e interrupções de região. Ele também descreve como você pode fazer backup e se recuperar de outros tipos de problemas e realça algumas informações importantes sobre o SLA (contrato de nível de serviço) Espaço Gerenciado do Azure para Grafana.

Recomendações de implantação de produção

Para aumentar a confiabilidade das implantações de produção usando Espaço Gerenciado do Azure para Grafana, recomendamos que você execute as seguintes ações:

  • Habilite a redundância de zona ao criar um espaço de trabalho para fornecer resiliência a falhas de zona de disponibilidade.
  • Store dashboards e outros recursos do Grafana como código, por exemplo, exportando-os da API ou da CLI do Grafana e armazenando-os em um repositório de controle do código-fonte como GitHub. Use pipelines de CI/CD para implantar dashboards em Espaço Gerenciado do Azure para Grafana. Essa abordagem dá suporte a cenários de recuperação. Ele também habilita a implantação em várias instâncias do Grafana, incluindo instâncias em regiões de Azure diferentes, se necessário.

Visão geral da arquitetura de confiabilidade

Esta seção descreve alguns dos aspectos importantes de como o serviço funciona que são mais relevantes do ponto de vista da confiabilidade. A seção apresenta a arquitetura lógica, que inclui alguns dos recursos e recursos que você implanta e usa. Também discute a arquitetura física, que fornece detalhes sobre como o serviço funciona nos bastidores.

Arquitetura lógica

O recurso de Azure primário que você implanta é um workspace. Depois de implantar seu workspace, use o ponto de extremidade do Grafana do workspace para configurar e interagir com fontes de dados, dashboards, visualizações e outros recursos do Grafana.

Arquitetura física

Nos bastidores, quando você cria um workspace, a plataforma Azure provisiona os seguintes componentes:

  • Servidores Grafana: máquinas virtuais dedicadas que executam o aplicativo Grafana. Por padrão, dois servidores são provisionados para alta disponibilidade e redundância. Esses servidores são totalmente gerenciados pela Microsoft. Você não os vê em sua assinatura, não pode acessá-los e não é responsável pela aplicação de patches, escalabilidade ou manutenção.
  • Balanceador de carga: um balanceador de carga de rede que distribui solicitações de navegador de entrada entre os servidores Grafana. O balanceador de carga monitora a integridade do servidor e encaminha automaticamente o tráfego para longe de qualquer servidor não íntegro.
  • Banco de dados Backend: um banco de dados do Banco de Dados do Azure para PostgreSQL que armazena a configuração do espaço de trabalho e outros dados persistentes. Esse banco de dados é compartilhado em todos os servidores Grafana no workspace.

O balanceador de carga rastreia quais dos servidores Grafana estão disponíveis. Em uma configuração de servidor duplo, se um servidor ficar indisponível, o balanceador de carga enviará todas as solicitações para o servidor restante. Esse servidor pega as sessões do navegador previamente atendidas pela outra, com base nas informações salvas no banco de dados compartilhado. Enquanto isso, o serviço Espaço Gerenciado do Azure para Grafana trabalha para reparar o servidor com problema ou criar um novo.

Diagrama que mostra um workspace Espaço Gerenciado do Azure para Grafana que consiste em duas máquinas virtuais e um balanceador de carga implantado pelo service.

Resiliência a falhas transitórias

Falhas transitórias são falhas curtas e intermitentes nos componentes. Elas ocorrem com frequência em um ambiente distribuído, como a nuvem, e são uma parte normal das operações. Falhas transitórias se corrigem após um curto período de tempo. É importante que seus aplicativos possam lidar com falhas transitórias, geralmente repetindo solicitações afetadas.

Todos os aplicativos hospedados na nuvem devem seguir as diretrizes transitórias de tratamento de falhas Azure quando se comunicam com apis, bancos de dados e outros componentes hospedados na nuvem. Para obter mais informações, confira Recomendações para tratamento de falhas transitórias.

Você pode criar aplicativos cliente para interagir com seu workspace do Grafana por meio da API do Grafana. Verifique se esses aplicativos seguem as diretrizes de repetição do Azure para solicitações com falha.

Resiliência a falhas de zona de disponibilidade

as zonas Availability são grupos fisicamente separados de datacenters em uma região Azure. Quando uma zona falha, os serviços podem fazer o failover de uma das zonas restantes.

Espaço Gerenciado do Azure para Grafana workspaces dão suporte à redundância de zona em regiões da Azure com suporte. Quando a redundância de zona está habilitada, os servidores Grafana do workspace são distribuídos entre várias zonas de disponibilidade. A Microsoft seleciona as zonas que seu espaço de trabalho usa. Outros recursos, como o balanceador de carga de rede, o banco de dados e o gateway compartilhado, também são configurados para usar várias zonas de disponibilidade.

Diagrama que mostra um workspace Espaço Gerenciado do Azure para Grafana com duas instâncias, cada uma em uma zona de disponibilidade separada e um balanceador de carga com redundância de zona.

Se você não habilitar a redundância de zona, ela será nonzonal ou regional, o que significa que os servidores e outros componentes podem ser colocados em qualquer zona de disponibilidade dentro da região ou dentro da mesma zona. Se qualquer zona de disponibilidade na região tiver um problema, seu ambiente de trabalho poderá sofrer tempo de inatividade.

Requirements

Suporte à região: O suporte à redundância de zona está disponível nas seguintes regiões:

Américas Europa Pacífico Asiático
Leste dos EUA Europa Setentrional Leste da Austrália
Centro-Sul dos EUA Ásia Oriental
Oeste dos EUA 3

Custo

Habilitar a redundância de zona tem um custo extra. Para obter mais informações, consulte Espaço Gerenciado do Azure para Grafana preços.

Configurar o suporte à zona de disponibilidade

  • Criar um novo workspace com zonas de disponibilidade habilitadas: Habilitar a redundância de zona durante a criação do workspace por meio dos modelos do portal Azure, da CLI ou do ARM/Bicep.

    Para obter mais informações, consulte Habilitar redundância de zona no Espaço Gerenciado do Azure para Grafana.

  • Configurar a redundância de zona em um workspace existente: Você não pode habilitar ou desabilitar a redundância de zona em um workspace existente. Em vez disso, você precisa criar um novo workspace com a configuração de redundância de zona desejada, migrar seus painéis e configuração e, em seguida, excluir o workspace existente.

Comportamento quando todas as zonas estão saudáveis

Esta seção descreve o que esperar quando um espaço de trabalho é configurado para redundância de zona e todas as zonas de disponibilidade estão operacionais.

  • Roteamento de tráfego entre zonas: O balanceador de carga com redundância de zona distribui automaticamente as solicitações de entrada entre os servidores Grafana. Ambos os servidores podem processar o tráfego.

  • Replicação de dados entre zonas: As alterações nos dados do workspace são replicadas de forma síncrona em várias zonas de disponibilidade. A replicação de dados é executada por Banco de Dados do Azure para PostgreSQL. Para obter mais informações, consulte Reliability no Banco de Dados do Azure para PostgreSQL. Espaço Gerenciado do Azure para Grafana não implementa lógica de replicação personalizada adicional além do que a plataforma de banco de dados fornece.

Comportamento durante uma falha de zona

Esta seção descreve o que esperar quando um espaço de trabalho é configurado para redundância de zona e a zona de disponibilidade fica indisponível.

  • Detection and response: a plataforma Azure detecta e responde a uma falha em uma zona de disponibilidade. Você não precisa iniciar um failover de zona.
  • Notificação: a Microsoft não notifica você automaticamente quando uma zona está inativa. No entanto, você pode usar Azure Resource Health para monitorar a integridade de um recurso individual e pode configurar alertas Resource Health para notificar você sobre problemas. Você também pode usar Integridade do Serviço do Azure para entender a integridade geral do serviço, incluindo quaisquer falhas de zona, e você pode configurar alertas Service Health para notificar você sobre problemas.
  • Perda de dados esperada: Nenhuma perda de dados é esperada durante uma interrupção da zona de disponibilidade.

  • Tempo de inatividade esperado: Seu workspace pode passar por um curto período de inatividade, normalmente limitado a alguns segundos, enquanto o tráfego é redirecionado para servidores funcionando corretamente. Verifique se todos os aplicativos cliente lidam com falhas transitórias adequadamente para minimizar os efeitos de qualquer tempo de inatividade.

  • Redirecionamento de tráfego: O tráfego de entrada é automaticamente roteado para o servidor na zona saudável. O serviço é executado com capacidade reduzida durante a interrupção da zona. Os servidores de substituição não são provisionados em zonas íntegras durante a interrupção.

Recuperação de zona

A Microsoft gerencia a recuperação de zona automaticamente, incluindo a restauração da capacidade do serviço quando a zona afetada se torna íntegra novamente.

Testar falhas em zonas

A plataforma Azure gerencia o roteamento de tráfego, o failover e o failback para workspaces com redundância de zona. Esse recurso é totalmente gerenciado, então você não precisa iniciar ou validar processos de falha de zona de disponibilidade.

Resiliência a falhas em toda a região

Espaço Gerenciado do Azure para Grafana é um serviço de região única. Se a região não estiver disponível, seu workspace também estará indisponível.

Soluções personalizadas de várias regiões para resiliência

Para obter resiliência a interrupções regionais, você pode implantar vários workspaces do Grafana em regiões diferentes. Neste tipo de solução, você é responsável por:

  • Replicação de dashboards e configuração entre regiões. Por exemplo, você pode aplicar uma configuração consistente em vários workspaces usando CI/CD e controle do código-fonte.
  • Implementando o roteamento de tráfego e o failover no nível do aplicativo ou do cliente.

Backup e restauração

Espaço Gerenciado do Azure para Grafana não fornece funcionalidade interna de backup ou restauração para dashboards ou outras entidades do plano de dados. Para proteger contra exclusão acidental ou corrupção:

  • Use a API ou a CLI do Grafana para exportar dashboards e outras configurações do Grafana.
  • Armazene painéis exportados em um repositório de controle do código-fonte, como GitHub.
  • Utilize pipelines de CI/CD ou automação para reimplantar dashboards e configurações do Grafana.

Para a maioria das soluções, você não deve depender exclusivamente de backups. Em vez disso, use as outras funcionalidades descritas neste guia para dar suporte aos seus requisitos de resiliência. No entanto, os backups protegem contra alguns riscos que outras abordagens não protegem. Para obter mais informações, consulte O que são redundância, replicação e backup?.

Resiliência à manutenção do serviço

A Microsoft aplica regularmente as atualizações de serviço e executa outras manutenções. A plataforma Azure manipula essas atividades automaticamente, garantindo que a manutenção seja perfeita e transparente para você. Durante as operações de manutenção, você pode observar breves interrupções. Normalmente, essas interrupções duram alguns segundos. Verifique se os aplicativos cliente estão configurados para lidar com falhas transitórias para que sejam resilientes a breves interrupções.

Contrato de nível de serviço

O SLA (contrato de nível de serviço) para serviços de Azure descreve a disponibilidade esperada de cada serviço e as condições que sua solução deve atender para atingir essa expectativa de disponibilidade. Para obter mais informações, consulte SLAs para serviços online.