Partilhar via


Confiabilidade no Azure Managed Grafana

Azure Managed Grafana disponibiliza espaços de trabalho Grafana alojados para construir dashboards e visualizações. A Microsoft gere toda a infraestrutura subjacente, incluindo computação, redes, armazenamento e atualizações de serviço.

Quando se usa Azure, fiabilidade é uma responsabilidade partilhada. A Microsoft fornece uma variedade de recursos para oferecer suporte à resiliência e à recuperação. Você é responsável por entender como esses recursos funcionam em todos os serviços que você usa e selecionar os recursos necessários para atender aos seus objetivos de negócios e metas de tempo de atividade.

Este artigo descreve como tornar o Azure Managed Grafana resiliente a uma variedade de potenciais interrupções e problemas, incluindo falhas transitórias, interrupções em zonas de disponibilidade e interrupções regionais. Descreve também como pode fazer backup e recuperar de outros tipos de problemas, e destaca algumas informações chave sobre o acordo de nível de serviço (SLA) Azure Managed Grafana.

Recomendações de implantação de produção

Para aumentar a fiabilidade das implementações em produção usando o Azure Managed Grafana, recomendamos que tome as seguintes ações:

  • Ative a redundância de zonas ao criar um espaço de trabalho para proporcionar resiliência a falhas nas zonas de disponibilidade.
  • Armazena dashboards e outros recursos do Grafana como código, por exemplo, exportando-os da API ou CLI do Grafana, e armazenando-os num repositório de controlo de versões como o GitHub. Utilize pipelines de CI/CD para implementar dashboards no Azure Managed Grafana. Esta abordagem apoia cenários de recuperação. Também permite a implantação em múltiplas instâncias do Grafana, incluindo instâncias em diferentes regiões do Azure, se necessário.

Visão geral da arquitetura de confiabilidade

Esta secção descreve alguns dos aspetos importantes do funcionamento do serviço que são mais relevantes do ponto de vista da fiabilidade. A secção apresenta a arquitetura lógica, que inclui alguns dos recursos e funcionalidades que implementa e utiliza. Também discute a arquitetura física, detalhando como o serviço funciona nos bastidores.

Arquitetura lógica

O principal recurso Azure que implementas é um workspace. Depois de implementar o seu espaço de trabalho, utiliza o endpoint Grafana do workspace para configurar e interagir com fontes de dados, painéis, visualizações e outros recursos do Grafana.

Arquitetura física

Nos bastidores, quando cria um espaço de trabalho, a plataforma Azure fornece os seguintes componentes:

  • Servidores Grafana: Máquinas virtuais dedicadas que executam a aplicação Grafana. Por defeito, dois servidores são provisionados para alta disponibilidade e redundância. Estes servidores são totalmente geridos pela Microsoft. Não os vês na tua subscrição, não podes aceder a eles e não és responsável por os atualizar, escalar ou manter.
  • Balanceador de carga: Um balanceador de carga de rede que distribui os pedidos recebidos do navegador pelos servidores Grafana. O balanceador de carga monitoriza a saúde do servidor e encaminha automaticamente o tráfego para longe de qualquer servidor insalubre.
  • Backend database: Uma base de dados Base de Dados do Azure para PostgreSQL que armazena a configuração do espaço de trabalho e outros dados persistentes. Esta base de dados é partilhada por todos os servidores Grafana no espaço de trabalho.

O balanceador de carga acompanha quais dos servidores Grafana estão disponíveis. Numa configuração de dois servidores, se um servidor ficar insalubre, o balanceador de carga envia todos os pedidos para o servidor restante. Esse servidor capta as sessões do navegador anteriormente servidas pelo outro, com base nas informações guardadas na base de dados partilhada. Entretanto, o serviço Azure Managed Grafana trabalha para reparar o servidor insalubre ou ativar um novo.

Diagrama que mostra um espaço de trabalho Azure Managed Grafana composto por duas máquinas virtuais e um balanceador de carga implementado pelo serviço.

Resiliência a falhas transitórias

Falhas transitórias são falhas curtas e intermitentes em componentes. Eles ocorrem com frequência em um ambiente distribuído, como a nuvem, e são uma parte normal das operações. As falhas transitórias corrigem-se após um curto período de tempo. É importante que seus aplicativos possam lidar com falhas transitórias, geralmente tentando novamente as solicitações afetadas.

Todas as aplicações alojadas na cloud devem seguir as orientações de tratamento de falhas transitórias do Azure quando comunicarem com quaisquer APIs, bases de dados e outros componentes alojados na cloud. Para obter mais informações, consulte Recomendações para o tratamento de falhas transitórias.

Pode construir aplicações cliente para interagir com o seu espaço de trabalho Grafana através da API Grafana. Certifique-se de que essas aplicações seguem as orientações de tentativa novamente do Azure para pedidos falhados.

Resiliência a falhas na zona de disponibilidade

Zonas de disponibilidade são grupos fisicamente separados de centros de dados dentro de uma região Azure. Quando uma zona falha, os serviços podem ser transferidos para uma das zonas restantes.

Os workspaces Azure Managed Grafana suportam redundância de zonas em regiões Azure suportadas. Quando a redundância de zonas está ativada, os servidores Grafana do espaço de trabalho são distribuídos por múltiplas zonas de disponibilidade. A Microsoft seleciona as zonas que o seu espaço de trabalho utiliza. Outros recursos, como o balanceador de carga de rede, a base de dados e o gateway partilhado, também estão configurados para usar múltiplas zonas de disponibilidade.

Diagrama que mostra um espaço de trabalho Azure Managed Grafana com duas instâncias, cada uma numa zona de disponibilidade separada, e um balanceador de carga redundante por zona.

Se não ativares a redundância por zona, é não zonal ou regional, o que significa que os servidores e outros componentes podem ser colocados em qualquer zona de disponibilidade dentro da região ou dentro da mesma zona. Se alguma zona de disponibilidade na região tiver um problema, o seu espaço de trabalho poderá enfrentar tempos de inatividade.

Requerimentos

Apoio regional: O suporte para redundância de zonas está disponível nas seguintes regiões:

Américas Europa Ásia-Pacífico
E.U.A. Leste Europa do Norte Leste da Austrália
E.U.A. Centro-Sul Ásia Leste
E.U.A. Oeste 3

Custo

Ativar a redundância de zonas tem um custo adicional. Para mais informações, consulte Azure Managed Grafana preços.

Configurar o suporte à zona de disponibilidade

  • Criar um novo espaço de trabalho com zonas de disponibilidade ativadas: Ativar a redundância de zonas durante a criação do espaço de trabalho através do portal Azure, CLI ou modelos ARM/Bicep.

    Para mais informações, veja Ativar redundância de zonas em Azure Managed Grafana.

  • Configurar redundância de zonas num espaço de trabalho existente: Não podes ativar ou desativar a redundância de zonas num espaço de trabalho existente. Em vez disso, precisa de criar um novo espaço de trabalho com a configuração de redundância de zonas desejada, migrar os seus painéis e configuração, e depois eliminar o espaço de trabalho existente.

Comportamento quando todas as zonas estão íntegras

Esta secção descreve o que esperar quando um espaço de trabalho é configurado para ser redundante por zona, e todas as zonas de disponibilidade estão operacionais.

  • Encaminhamento do tráfego entre zonas: O balanceador de carga redundante por zonas distribui automaticamente os pedidos recebidos entre os servidores Grafana. Ambos os servidores podem processar tráfego.

  • Replicação de dados entre zonas: As alterações aos dados do espaço de trabalho são replicadas de forma síncrona através de múltiplas zonas de disponibilidade. A replicação de dados é realizada pelo Base de Dados do Azure para PostgreSQL. Para mais informações, consulte Fiabilidade em Base de Dados do Azure para PostgreSQL. O Azure Managed Grafana não implementa lógica de replicação personalizada adicional para além da que a plataforma de base de dados fornece.

Comportamento durante uma falha de zona

Esta secção descreve o que esperar quando um espaço de trabalho é configurado para ser redundante em zona e uma zona de disponibilidade se torna indisponível.

  • Deteção e resposta: a plataforma Azure deteta e responde a uma falha numa zona de disponibilidade. Não é necessário iniciar um failover de zona.
  • Notificação: a Microsoft não o notifica automaticamente quando uma zona está inativa. No entanto, pode usar Azure Resource Health para monitorizar a saúde de um recurso individual, e pode configurar alertas Resource Health para o notificar de problemas. Também pode usar Azure Service Health para compreender o estado geral do serviço, incluindo quaisquer falhas de zona, e pode configurar alertas Saúde do Serviço para o notificar de problemas.
  • Perda de dados esperada: Não se espera perda de dados durante uma interrupção na zona de disponibilidade.

  • Tempo de inatividade previsto: O seu espaço de trabalho pode experienciar um pequeno período de inatividade, normalmente limitado a alguns segundos, enquanto o tráfego é redirecionado para servidores saudáveis. Garantir que qualquer aplicação cliente gere as falhas transitórias de forma adequada para minimizar os efeitos de qualquer interrupção.

  • Redirecionamento de tráfego: O tráfego recebido é automaticamente encaminhado para o servidor na zona saudável. O serviço funciona com capacidade reduzida durante toda a duração da interrupção da zona. Os servidores de substituição não são provisionados em zonas saudáveis durante a interrupção.

Recuperação de zona

A Microsoft gere automaticamente a recuperação da zona, incluindo a restauração da capacidade de serviço quando a zona afetada volta a estar saudável.

Teste de falhas de zona

A plataforma Azure gere o encaminhamento de tráfego, o mecanismo de redundância e o processo de recuperação para espaços de trabalho redundantes a nível de zona. Esse recurso é totalmente gerenciado, portanto, você não precisa iniciar ou validar processos de falha na zona de disponibilidade.

Resiliência a falhas em toda a região

Azure Managed Grafana é um serviço de região única. Se a região não estiver disponível, o seu espaço de trabalho também está indisponível.

Soluções personalizadas de várias regiões para resiliência

Para alcançar resiliência face a interrupções regionais, pode implementar múltiplos espaços de trabalho Grafana em diferentes regiões. Neste tipo de solução, é responsável por:

  • Replicação de dashboards e configuração entre regiões. Por exemplo, pode aplicar uma configuração consistente em múltiplos espaços de trabalho usando CI/CD e controlo de versão.
  • Implementar o encaminhamento de tráfego e o failover ao nível da aplicação ou do cliente.

Backup e restauração

O Azure Managed Grafana não fornece funcionalidades de backup ou restauro incorporadas para dashboards ou outras entidades do plano de dados. Para proteger contra eliminação ou corrupção acidental:

  • Use a API ou CLI do Grafana para exportar dashboards e outras configurações do Grafana.
  • Armazene os painéis exportados num repositório de controlo de versão, como o GitHub.
  • Utilize automação ou pipelines de CI/CD para reimplementar dashboards e outras configurações do Grafana.

Para a maioria das soluções, você não deve confiar exclusivamente em backups. Em vez disso, use os outros recursos descritos neste guia para dar suporte aos seus requisitos de resiliência. No entanto, os backups protegem contra alguns riscos que outras abordagens não oferecem. Para obter mais informações, consulte O que são redundância, replicação e backup?.

Resiliência à manutenção de serviços

A Microsoft aplica regularmente atualizações de serviço e realiza outras manutenções. A plataforma Azure gere estas atividades automaticamente, garantindo que a manutenção é fluida e transparente para si. Durante as operações de manutenção, pode observar breves interrupções. Normalmente, estas interrupções duram alguns segundos. Garantir que as aplicações cliente estão configuradas para lidar com falhas transitórias , de modo a serem resilientes a interrupções breves.

Contrato de nível de serviço

O acordo de nível de serviço (SLA) para serviços Azure descreve a disponibilidade esperada de cada serviço e as condições que a sua solução deve cumprir para atingir essa expectativa de disponibilidade. Para mais informações, consulte SLAs para serviços online.