Partilhar via


Confiabilidade na Solução Azure VMware

O Azure VMware Solution fornece clouds privadas que contêm clusters VMware vSphere construídos a partir de infraestrutura Azure dedicada bare-metal. Pode migrar cargas de trabalho dos seus ambientes on-premises, implementar novas máquinas virtuais (VMs) e consumir serviços Azure a partir das suas clouds privadas. Pode usar uma combinação de capacidades VMware e Azure-native para permitir alta disponibilidade e resiliência das suas cargas de trabalho.

Quando você usa o Azure, a confiabilidade é uma responsabilidade compartilhada. A Microsoft fornece uma variedade de recursos para oferecer suporte à resiliência e à recuperação. Você é responsável por entender como esses recursos funcionam em todos os serviços que você usa e selecionar os recursos necessários para atender aos seus objetivos de negócios e metas de tempo de atividade.

Este artigo descreve como tornar o Azure VMware Solution resiliente a potenciais interrupções e problemas, incluindo falhas transitórias, interrupções em zonas de disponibilidade e interrupções regionais. Descreve também como pode usar backups para recuperar de outros tipos de problemas e destaca algumas informações chave sobre o acordo de nível de serviço (SLA) Azure VMware Solution.

Recomendações de implantação de produção

As implementações de soluções Azure VMware requerem um planeamento cuidadoso em várias áreas e frequentemente requerem múltiplos serviços Azure. Para orientações detalhadas, consulte as cargas de trabalho Azure VMware Solution no Well-Architected Framework.

Visão geral da arquitetura de confiabilidade

O Azure VMware Solution utiliza uma infraestrutura hiperconvergente com clusters VMware vSphere.

Quando implementas o Azure VMware Solution, implementas uma cloud privada, que tem um ou mais clusters. Cada cluster contém hosts ESXi que fornecem computação, armazenamento através de vSAN e redes através do VMware NSX. Existem duas gerações do Azure VMware Solution:

  • A Gen 1 utiliza hardware bare-metal especializado para os nós e adota abordagens de rede dedicadas. Para mais informações sobre os conceitos-chave, consulte Azure VMware Solution private cloud e conceitos de cluster.
  • A Gen 2 utiliza tipos padrão de máquinas virtuais Azure e redes virtuais Azure. Esta arquitetura simplifica a arquitetura de rede, aumenta as velocidades de transferência de dados, reduz a latência para cargas de trabalho e melhora o desempenho ao aceder a outros serviços Azure.

Tolerância a falhas

O Azure VMware Solution fornece vários mecanismos para lidar com falhas tanto ao nível da infraestrutura como da aplicação:

  • vSphere High Availability (HA): o vSphere HA monitoriza hosts e VMs ESXi. Se um host falhar, reinicia automaticamente as VMs afetadas em hosts saudáveis. O vSphere HA está ativado por padrão e reserva capacidade de computação e memória para uma falha de um único nó.

  • Tolerância a falhas vSAN: as políticas de armazenamento vSAN protegem contra falhas transitórias ao nível de armazenamento, mantendo múltiplas cópias de dados entre hosts. Se um caminho de armazenamento ou disco apresentar problemas transitórios, o vSAN gere automaticamente o failover para caminhos de armazenamento saudáveis.

  • Redundância de rede: O Azure VMware Solution fornece caminhos de rede redundantes e múltiplos adaptadores de rede VMkernel para lidar com falhas transitórias ao nível da rede.

Resiliência a falhas transitórias

Falhas transitórias são falhas curtas e intermitentes em componentes. Eles ocorrem com frequência em um ambiente distribuído, como a nuvem, e são uma parte normal das operações. As falhas transitórias corrigem-se após um curto período de tempo. É importante que seus aplicativos possam lidar com falhas transitórias, geralmente tentando novamente as solicitações afetadas.

Todos os aplicativos hospedados na nuvem devem seguir as diretrizes de tratamento de falhas transitórias do Azure quando se comunicam com quaisquer APIs, bancos de dados e outros componentes hospedados na nuvem. Para obter mais informações, consulte Recomendações para o tratamento de falhas transitórias.

Para aplicações a correr em VMs Azure VMware Solution, implemente práticas padrão de tratamento de falhas transitorias:

  • Configure políticas de retentativas apropriadas com recuo exponencial
  • Utilizar padrões de disjuntores para chamadas de serviço externas
  • Monitorizar a saúde de aplicações e implementar degradação gradual
  • Projetar aplicações sem estado sempre que possível para reduzir o impacto dos reinícios das VMs

Resiliência a falhas na zona de disponibilidade

As zonas de disponibilidade são grupos fisicamente separados de centros de dados dentro de uma região Azure. Quando uma zona falha, os serviços podem ser transferidos para uma das zonas restantes.

A Solução Azure VMware Gen 1 suporta zonas de disponibilidade através de clusters estendidos, que distribuem os hosts ESXi entre duas zonas de disponibilidade dentro de uma região. A Microsoft seleciona as zonas a utilizar. O teu cluster corre numa configuração ativo-ativo nas duas zonas, e o vSAN também abrange várias zonas. Pode indicar se cada carga de trabalho está distribuída em uma ou duas zonas.

Um nó testemunha é automaticamente implantado numa terceira zona de disponibilidade para garantir quórum em cenários de cérebro dividido. A Microsoft gere automaticamente o nó testemunho.

O diagrama mostra um cluster estendido de vSAN gerenciado criado em uma terceira zona de disponibilidade com os dados sendo copiados para todos os três.

Um cluster padrão é aquele que não se estende por várias zonas. Num cluster padrão, o cluster e todos os seus hospedeiros ESXi são considerados não zonais ou regionais. Clusters não zonais podem ser colocados em qualquer zona de disponibilidade dentro da região e a Microsoft seleciona essa zona. Se uma zona de disponibilidade na região sofrer uma falha, agrupamentos e hospedeiros não zonais podem estar na zona afetada e podem sofrer tempo de inatividade.

O Azure VMware Solution Gen 2 suporta implementações zonais de clouds privadas. Quando configuras uma cloud privada zonal, cada um dos seus clusters e todos os seus hosts ESXi são implementados numa única zona de disponibilidade que selecionas.

Uma cloud privada zonal não protege contra falhas nas zonas de disponibilidade. Pode implementar várias clouds privadas em zonas de disponibilidade separadas para maior resiliência, mas é responsável por implementar e configurar cada cloud privada de forma independente.

Se não selecionares uma zona de disponibilidade, a tua cloud privada, os seus clusters e todos os seus hosts ESXi são considerados não zonais ou regionais. Clusters não zonais podem ser colocados em qualquer zona de disponibilidade dentro da região e a Microsoft seleciona essa zona. Se uma zona de disponibilidade na região sofrer uma interrupção, agrupamentos não zonais podem estar na zona afetada e sofrer períodos de inatividade.

Para ver informações sobre o suporte de zonas de disponibilidade para outras gerações, selecione a geração apropriada no início desta página.

Requerimentos

  • Apoio regional: Clusters esticados estão disponíveis em regiões Azure selecionadas que suportam a configuração de clusters alongados. Verifique a tabela de mapeamento de zonas de disponibilidade de regiões Azure para o tipo de host para o suporte atual de região.

  • Número mínimo de anfitriões: Implante um mínimo de seis hosts em duas zonas de disponibilidade (três hosts por zona) para permitir uma configuração de cluster estendida. Quando se escala para dentro ou para fora, tem de escalar em pares para que o número de anfitriões seja igual em cada zona.

  • SKUs de host: Clusters esticados são suportados com tipos de host AV36, AV36P e AV52. O SKU AV64 não é suportado com clusters estendidos.

Apoio regional: Pode implementar clouds privadas zonais em regiões que suportem Azure VMware Solution Gen 2 e também zonas de disponibilidade.

Considerações

Cada zona de disponibilidade numa região pode suportar tipos específicos de hospedeiros. Para uma lista detalhada dos tipos de hosts disponíveis em cada zona, consulte a tabela de mapeamento de zonas de disponibilidade de região para tipos de host Azure.

Custo

Incorre em custos para cada nó do cluster, independentemente da configuração da zona de disponibilidade do cluster. Para informações detalhadas sobre preços, consulte Azure VMware Solution pricing.

Configurar o suporte à zona de disponibilidade

  • Implementar um novo cluster: Quando cria uma nova cloud privada Azure VMware Solution numa região suportada, pode configurá-la como um cluster estendido durante a implementação. Esta configuração distribui os hosts automaticamente entre duas zonas de disponibilidade. Para obter mais informações, consulte Implementar clusters expandidos vSAN.

  • Clusters existentes: Não se pode converter um cluster padrão num cluster alongado, nem se pode converter um cluster alongado num cluster padrão. Em vez disso, precisa de implementar um novo cluster e migrar as suas cargas de trabalho.

  • Implementar um novo cluster: Quando cria uma nova cloud privada Azure VMware Solution numa região suportada, pode selecionar a sua zona de disponibilidade.

  • Clusters existentes: Não podes alterar a configuração da zona de disponibilidade de um cluster existente. Em vez disso, precisa de implementar um novo cluster e migrar as suas cargas de trabalho.

Comportamento quando todas as zonas estão íntegras

Esta secção descreve o que esperar quando o seu cluster está sobrecarregado e todas as zonas de disponibilidade estão operacionais.

  • Operação entre regiões: As VMs podem funcionar em hosts em qualquer uma das zonas de disponibilidade. A colocação das VMs pode ser controlada usando regras de afinidade e anti-afinidade do vSphere DRS para otimizar requisitos de desempenho ou disponibilidade.

  • Replicação de dados entre regiões: o vSAN replica os dados de forma síncrona entre zonas de disponibilidade. Cada operação de escrita é confirmada por ambas as zonas antes da conclusão, garantindo uma integridade consistente dos dados.

Esta secção descreve o que esperar quando o seu cluster é implementado numa nuvem privada zonal e todas as zonas de disponibilidade estão operacionais.

  • Operação entre regiões: As VMs funcionam em hosts dentro da zona de disponibilidade do cluster.

  • Replicação de dados entre regiões: Nenhum dado é replicado para outra zona.

Comportamento durante uma falha de zona

Esta secção descreve o que esperar quando o seu cluster está sobrecarregado e ocorre uma falha na zona de disponibilidade.

  • Deteção e resposta: O Azure VMware Solution gere a resposta ao nível da infraestrutura a falhas de zona. O vSphere HA deteta automaticamente falhas de zona e inicia procedimentos de reinício da VM, se necessário.
  • Pedidos ativos: Todas as VMs em execução na zona de disponibilidade interrompida são reiniciadas em hosts na zona de disponibilidade sobrevivente. Os pedidos ativos e as ligações às VMs afetadas são terminados, e os clientes são responsáveis por os tentar novamente.

  • Tempo de inatividade previsto: O tempo para reiniciar VMs falhadas na zona saudável é normalmente de alguns minutos, dependendo da configuração da VM e dos procedimentos de arranque. O conjunto esticado mantém-se operacional com capacidade reduzida.

    Se a zona de disponibilidade falhada contiver o nó testemunha, a testemunha torna-se inacessível. Enquanto houver réplicas de dados suficientes disponíveis, os anfitriões de dados e cargas de trabalho em execução continuam a operar sem perda imediata de dados. No entanto, o vSAN perde a consciência do quórum neste estado, o que o impede de tomar decisões seguras de colocação e recuperação, fazendo com que certas operações sejam bloqueadas, como a ligação da VM após falhas, o reequilíbrio e as reparações.

  • Perda de dados esperada: Como o vSAN utiliza replicação síncrona entre zonas, não se espera perda de dados durante uma falha de zona.

  • Redistribuição: o vSphere DRS redistribui automaticamente as cargas de trabalho das VMs para a zona de disponibilidade sobrevivente. O encaminhamento do tráfego de rede através do VMware NSX adapta-se automaticamente à nova posição da VM.

Esta secção descreve o que esperar quando o seu cluster é implementado numa nuvem privada zonal e ocorre uma falha na zona de disponibilidade.

  • Deteção e resposta: É preciso detetar a perda de uma zona de disponibilidade. Se necessário, pode iniciar um failover para um cluster secundário que precriou noutra zona de disponibilidade.
  • Pedidos ativos: Os pedidos ativos e as ligações às VMs afetadas são terminados, e os clientes são responsáveis por os tentar novamente.

  • Tempo de inatividade previsto: Quando uma zona está indisponível, o seu cluster e as suas cargas de trabalho ficam indisponíveis até que a zona de disponibilidade recupere.

  • Perda de dados esperada: Os dados na zona afetada não estão disponíveis até que a zona recupere.

  • Redistribuição: És responsável por transferir o tráfego para outros clusters em zonas saudáveis, se necessário.

Recuperação de zona

Quando a zona de disponibilidade recupera, o vSphere DRS pode opcionalmente redistribuir VMs de volta para a zona recuperada com base nas regras de configuração e afinidade do seu DRS. Também pode controlar manualmente a colocação da VM usando operações vMotion.

Quando a zona de disponibilidade recupera, os clusters e anfitriões dessa zona ficam novamente disponíveis. Você é responsável por todos os procedimentos de recuperação de zona e sincronização de dados que suas cargas de trabalho exigem.

Teste de falhas de zona

Pode simular falhas de zona através de:

  • Usar vSphere para colocar os hosts em modo de manutenção para simular falhas ao nível da zona.

  • Validar que os sistemas de backup e monitorização continuam a funcionar durante falhas simuladas.

  • Testar a resiliência das aplicações a reinicializações de VMs e alterações no caminho da rede, especialmente quando tens clusters esticados ou implementas aplicações em clusters separados em zonas diferentes.

Como o Azure VMware Solution gere a resposta da infraestrutura a falhas de zona, precisa principalmente de testar a resposta da sua aplicação aos reinícios da VM.

És responsável por qualquer resposta de infraestrutura a falhas de zona, como failover para outro cluster numa zona ou região diferente. Certifique-se de testar cuidadosamente os seus processos de resposta.

Resiliência a falhas em toda a região

Cada cluster Azure VMware Solution é implementado numa única região Azure. Se a região ficar indisponível, a sua nuvem privada e todos os recursos dentro dela tornam-se indisponíveis.

No entanto, também pode conceber soluções personalizadas multi-região que combinem diferentes abordagens ou se integrem com a sua infraestrutura existente para satisfazer os requisitos específicos do seu negócio e objetivos de recuperação.

Soluções personalizadas de várias regiões para resiliência

Para alcançar resiliência multi-região com o Azure VMware Solution, é necessário implementar clouds privadas separadas em várias regiões e implementar soluções de failover e outras soluções de recuperação de desastres.

Existem várias opções que suportam diferentes requisitos. Para mais informações, consulte Soluções de backup e recuperação de desastres de terceiros para Azure VMware: Limitações, compatibilidade e problemas conhecidos.

Backup e restauração

O Azure VMware Solution faz backup automático dos componentes de gestão (vCenter Server, NSX Manager e HCX Manager se ativado). Para restaurar a partir destes backups de gestão, crie um pedido de suporte Azure.

Para as suas cargas de trabalho VM, o Azure VMware Solution suporta múltiplas abordagens de backup. Para informações detalhadas, consulte Soluções de Backup para VMs do Azure VMware Solution.

Resiliência à manutenção de serviços

O Azure realiza manutenção automática da plataforma para aplicar atualizações de segurança, implementar novas funcionalidades e melhorar a fiabilidade do serviço.

Para saber mais sobre o efeito que a manutenção pode ter nos componentes do Azure VMware Solution, e para compreender os componentes que é responsável pela manutenção e aqueles que a Microsoft mantém, consulte as melhores práticas de manutenção na cloud privada do Azure VMware Solution.

Pode configurar as janelas de manutenção do seu cluster para reduzir a probabilidade de a manutenção afetar as suas cargas de trabalho de produção. Para mais informações, consulte o Planeamento de auto-serviço para a Azure VMware Solution (versão prévia pública).

Contrato de nível de serviço

O contrato de nível de serviço (SLA) para serviços do Azure descreve a disponibilidade esperada de cada serviço e as condições que sua solução deve atender para atingir essa expectativa de disponibilidade. Para obter mais informações, consulte Acordos de Nível de Serviço (SLAs) para serviços online.

O Azure VMware Solution fornece diferentes SLAs de disponibilidade para infraestrutura de carga de trabalho e para operações de gestão.

Clusters configurados como clusters esticados têm um SLA de infraestrutura de disponibilidade de carga de trabalho mais elevado.

No entanto, para se qualificar para os SLAs de disponibilidade, deve configurar o seu cluster de formas específicas. Consulte o texto do SLA para informações detalhadas.