Partilhar via


Fiabilidade no Azure Key Vault

Azure Key Vault é um serviço na cloud que fornece um armazenamento seguro para segredos, como chaves, palavras-passe, certificados e outras informações sensíveis. O Key Vault oferece uma série de funcionalidades de fiabilidade integradas para ajudar a garantir que os seus segredos permanecem disponíveis.

Quando se usa Azure, fiabilidade é uma responsabilidade partilhada. A Microsoft fornece uma variedade de recursos para oferecer suporte à resiliência e à recuperação. Você é responsável por entender como esses recursos funcionam em todos os serviços que você usa e selecionar os recursos necessários para atender aos seus objetivos de negócios e metas de tempo de atividade.

Este artigo descreve que a Key Vault é resiliente a uma variedade de potenciais interrupções e problemas, incluindo falhas transitórias, interrupções em zonas de disponibilidade e interrupções regionais. Descreve também como pode usar backups para recuperar de outros tipos de problemas, funcionalidades de recuperação para evitar eliminações acidentais e destaca algumas informações chave sobre o acordo de nível de serviço (SLA) da Key Vault.

Recomendações de implantação de produção para confiabilidade

Para cargas de trabalho de produção, recomendamos que:

  • Use cofres de chaves das camadas Standard ou Premium.
  • Habilite a proteção contra exclusão suave e limpeza para evitar exclusão acidental ou maliciosa.
  • Para cargas de trabalho críticas, considere a implementação de estratégias de várias regiões descritas neste guia.

Visão geral da arquitetura de confiabilidade

Para garantir elevada durabilidade e disponibilidade das suas chaves, segredos e certificados caso ocorra uma falha de hardware ou falha de rede, o Key Vault fornece múltiplas camadas de redundância para manter a disponibilidade durante os seguintes eventos:

  • Falhas de hardware
  • Interrupções na rede
  • Desastres localizados
  • Atividades de manutenção

Por padrão, o Cofre de Chaves alcança a redundância ao replicar o seu cofre e o seu conteúdo dentro da região.

Se a região tiver uma região emparelhada e essa região emparelhada estiver na mesma geografia que a região primária, o conteúdo também será replicado para a região emparelhada. Essa abordagem garante alta durabilidade de suas chaves e segredos, o que protege contra falhas de hardware, interrupções de rede ou desastres localizados.

Resiliência a falhas transitórias

Falhas transitórias são falhas curtas e intermitentes em componentes. Eles ocorrem com frequência em um ambiente distribuído, como a nuvem, e são uma parte normal das operações. As falhas transitórias corrigem-se após um curto período de tempo. É importante que seus aplicativos possam lidar com falhas transitórias, geralmente tentando novamente as solicitações afetadas.

Todas as aplicações alojadas na cloud devem seguir as orientações de tratamento de falhas transitórias do Azure quando comunicarem com quaisquer APIs, bases de dados e outros componentes alojados na cloud. Para obter mais informações, consulte Recomendações para o tratamento de falhas transitórias.

Para lidar com qualquer falha transitória que possa ocorrer, as suas aplicações cliente devem implementar lógica de tentativa de repetição quando interagirem com o Key Vault. Considere as seguintes práticas recomendadas:

  • Use os SDKs do Azure, que normalmente incluem mecanismos de retentativa incorporados.

  • Implemente políticas de retransmissão exponencial com backoff se os seus clientes se conectarem diretamente ao Key Vault.

  • Cache segredos na memória sempre que possível para reduzir pedidos diretos ao Key Vault.

  • Monitorize erros de limitação porque exceder os limites de serviço do Key Vault causa limitação.

Se utilizar o Key Vault em cenários de alta produtividade, considere distribuir as suas operações por vários cofres de chaves para evitar restrições de taxa. Considere as orientações específicas do Key Vault para os seguintes cenários:

  • Um cenário de alto débito é aquele que se aproxima ou ultrapassa os limites de serviço para as operações no Key Vault, como 200 operações por segundo para chaves protegidas por software.

  • Para cargas de trabalho de alto rendimento, divida o tráfego do Key Vault entre vários cofres e diferentes regiões.

  • Um limite de toda a assinatura para todos os tipos de transação é cinco vezes o limite individual do cofre de chaves.

  • Utilize um cofre separado para cada domínio de segurança ou disponibilidade. Por exemplo, se você tiver cinco aplicativos em duas regiões, considere usar 10 cofres.

  • Para operações de chave pública, como criptografia, encapsulamento e verificação, execute essas operações localmente armazenando em cache o material de chave pública.

Para mais informação, consulte orientação sobre o controlo do Key Vault.

Resiliência a falhas na zona de disponibilidade

Zonas de disponibilidade são grupos fisicamente separados de centros de dados dentro de uma região Azure. Quando uma zona falha, os serviços podem ser transferidos para uma das zonas restantes.

Key Vault fornece automaticamente redundância de zonas em regiões que suportam zonas de disponibilidade. Essa redundância fornece alta disponibilidade dentro de uma região sem exigir nenhuma configuração específica.

Quando uma zona de disponibilidade se torna indisponível, o Key Vault redireciona automaticamente os seus pedidos para outras zonas de disponibilidade saudáveis para garantir uma alta disponibilidade.

Requerimentos

  • Suporte de regiões: O Key Vault ativa por omissão a redundância de zonas em todas as regiões do Azure que suportam zonas de disponibilidade.
  • Todos os SKUs Key Vault, Standard e Premium, suportam o mesmo nível de disponibilidade e resiliência. Não há requisitos específicos de nível para alcançar a resiliência da zona.

Custo

Não existem custos adicionais associados à redundância de zonas em Key Vault. O preço é baseado no SKU, Standard ou Premium, e no número de operações realizadas.

Comportamento quando todas as zonas estão íntegras

Esta secção descreve o que esperar quando os cofres de chaves estão numa região que possui zonas de disponibilidade e todas as zonas de disponibilidade estão operacionais.

  • Encaminhamento de tráfego entre zonas: Key Vault gere automaticamente o encaminhamento de tráfego entre zonas de disponibilidade. Durante as operações normais, as solicitações são distribuídas entre as zonas de forma transparente.

  • Replicação de dados entre zonas: Os dados do Key Vault são replicados de forma síncrona através das zonas de disponibilidade em regiões que suportam zonas. Essa replicação garante que suas chaves, segredos e certificados permaneçam consistentes e disponíveis mesmo se uma zona ficar indisponível.

Comportamento durante uma falha de zona

A seção a seguir descreve o que esperar quando os cofres de chaves estão em uma região que tem zonas de disponibilidade e uma ou mais zonas de disponibilidade não estão disponíveis:

  • Deteção e resposta: O serviço Key Vault é responsável por detetar falhas de zona e responder automaticamente a elas. Você não precisa tomar nenhuma medida durante uma falha de zona.
  • Notificação: a Microsoft não o notifica automaticamente quando uma zona está inativa. No entanto, pode usar Azure Resource Health para monitorizar a saúde de um recurso individual, e pode configurar alertas Resource Health para o notificar de problemas. Também pode usar Azure Service Health para compreender o estado geral do serviço, incluindo quaisquer falhas de zona, e pode configurar alertas Saúde do Serviço para o notificar de problemas.
  • Solicitações ativas: Durante uma falha de zona, a zona afetada pode falhar ao lidar com solicitações em voo, o que exige que os aplicativos cliente as tentem novamente. Os aplicativos cliente devem seguir práticas transitórias de tratamento de falhas para garantir que possam repetir solicitações se ocorrer uma falha de zona.

  • Perda de dados esperada: Nenhuma perda de dados é esperada durante uma falha de zona devido à replicação síncrona entre zonas.

  • Tempo de inatividade esperado: Para operações de leitura, deve haver tempo de inatividade mínimo ou nulo durante uma falha de zona. As operações de gravação podem enfrentar indisponibilidade temporária enquanto o serviço se ajusta à falha na zona. Espera-se que as operações de leitura permaneçam disponíveis durante falhas de zona.

  • Redirecionamento de tráfego: Key Vault redireciona automaticamente o tráfego para fora da zona afetada para zonas saudáveis sem necessidade de intervenção do cliente.

Recuperação de zona

Quando a zona de disponibilidade afetada recupera, o Key Vault restaura automaticamente as operações nessa zona. A plataforma Azure gere totalmente este processo e não requer qualquer intervenção do cliente.

Resiliência a falhas em toda a região

Os recursos do Key Vault são implementados numa única região Azure. Se a região ficar indisponível, o cofre de chaves também ficará indisponível. No entanto, há abordagens que você pode usar para ajudar a garantir resiliência a interrupções na região. Essas abordagens dependem se o Key Vault está numa região emparelhada ou não emparelhada, e dos seus requisitos e configuração específicos.

Failover gerenciado pela Microsoft para uma região emparelhada

O Key Vault suporta replicação e failover geridos pela Microsoft para cofres de chaves na maioria das regiões emparelhadas. O conteúdo do cofre de chaves é replicado automaticamente dentro da região e, de forma assíncrona, para a região emparelhada. Esta abordagem garante uma elevada durabilidade das suas chaves e segredos. No caso improvável de uma falha prolongada de uma região, a Microsoft pode iniciar um failover regional do seu cofre de chaves.

As seguintes regiões não oferecem suporte à replicação gerenciada pela Microsoft ou ao failover entre regiões:

  • Sul do Brasil
  • Brasil Sudeste
  • E.U.A. Oeste 3
  • Qualquer região que não possua uma região correspondente.

Importante

A Microsoft aciona o failover gerenciado pela Microsoft. É provável que ocorra após um atraso significativo e seja feito com o melhor esforço possível. Existem também algumas exceções a este processo. O failover dos cofres de chaves pode ocorrer num momento diferente do tempo de failover de outros serviços do Azure.

Se você precisar ser resiliente a interrupções de região, considere usar uma das soluções personalizadas de várias regiões para resiliência.

Você também pode utilizar a funcionalidade de backup e restauração para replicar o conteúdo do seu cofre para outra região à sua escolha.

Considerações

  • Tempo de inatividade: Enquanto o failover estiver em andamento, seu cofre de chaves pode ficar indisponível por alguns minutos.

  • Somente leitura após failover: Após o failover, o cofre de chaves torna-se somente leitura e suporta apenas ações limitadas. Não é possível alterar as propriedades do cofre de chaves enquanto estiver operando na região secundária, e as configurações de firewall e política de acesso não podem ser modificadas durante a operação na região secundária.

    Quando o cofre de chaves está somente no modo de leitura, apenas as seguintes operações são suportadas:

    • Listar certificados
    • Obter certificados
    • Listar segredos
    • Obtenha segredos
    • Listar chaves
    • Obter (propriedades de) chaves
    • Criptografar
    • Desencriptar
    • Embrulho
    • Desembrulhar
    • Verify
    • Assinar
    • Backup

Custo

Não existem custos adicionais para as capacidades integradas de replicação multi-região do Key Vault.

Comportamento quando todas as regiões estão saudáveis

A seção a seguir descreve o que esperar quando o cofre de chaves se encontra numa região que oferece suporte a replicação e recuperação de falhas geridas pela Microsoft e a região primária está operacional:

  • Roteamento de tráfego entre regiões: Durante as operações normais, todas as solicitações são roteadas para a região primária onde o cofre de chaves está implantado.

  • Replicação de dados entre regiões: Key Vault replica os dados de forma assíncrona para a região emparelhada. Quando você faz alterações no conteúdo do cofre de chaves, essas alterações são primeiro confirmadas na região primária e, em seguida, replicadas para a região secundária.

Comportamento durante uma interrupção regional

A seção a seguir descreve o que esperar quando um cofre de chaves está localizado numa região que suporta replicação e failover geridos pela Microsoft e ocorre uma interrupção na região principal:

  • Deteção e resposta: A Microsoft pode decidir executar um failover se a região primária for perdida. Esse processo pode levar várias horas após a perda da região primária, ou mais tempo em alguns cenários. O failover dos cofres de chaves pode não ocorrer ao mesmo tempo que outros serviços do Azure.
  • Notificação: a Microsoft não o notifica automaticamente quando uma zona está inativa. No entanto, pode usar Azure Resource Health para monitorizar a saúde de um recurso individual, e pode configurar alertas Resource Health para o notificar de problemas. Também pode usar Azure Service Health para compreender o estado geral do serviço, incluindo quaisquer falhas de zona, e pode configurar alertas Saúde do Serviço para o notificar de problemas.
  • Solicitações ativas: Durante o failover de uma região, as solicitações ativas podem falhar e os aplicativos cliente precisam repeti-las após a conclusão do failover.

  • Perda de dados esperada: Pode haver alguma perda de dados se as alterações não forem replicadas para a região secundária antes que a região primária falhe.

  • Tempo de inatividade esperado: Durante uma grande interrupção na região primária, o cofre de chaves pode ficar indisponível por várias horas ou até que a Microsoft inicie a transferência para a região secundária.

    Se usar o Private Link para se ligar ao seu cofre de chaves, pode demorar até 20 minutos até a ligação ser restabelecida após o failover regional.

  • Reencaminhamento do tráfego: Após a conclusão de um failover de região, as solicitações são automaticamente roteadas para a região emparelhada sem exigir qualquer intervenção do cliente.

Soluções personalizadas de várias regiões para resiliência

Existem cenários em que as capacidades de failover multi-região geridas pela Microsoft do Key Vault não são adequadas:

  • Seu cofre de chaves está em uma região não emparelhada.

  • O seu Key Vault está numa região emparelhada que não suporta a replicação e o failover por parte da Microsoft entre regiões no Brasil Sul, Brasil Sudeste e Oeste dos EUA 3.

  • Os seus objetivos de disponibilidade do sistema empresarial não são satisfeitos pelo tempo de recuperação ou pela perda de dados que o failover gerido pela Microsoft proporciona entre regiões.

  • Você precisa fazer failover para uma região que não seja o par da sua região principal.

Você pode projetar uma solução personalizada de failover entre regiões executando as seguintes etapas:

  1. Crie cofres de chaves separados em regiões diferentes.

  2. Use a funcionalidade de backup e restauração para manter segredos consistentes entre as regiões.

  3. Implemente a lógica ao nível da aplicação para a comutação automática entre os cofres de chaves.

Backup e restauração

O Key Vault pode fazer backup e restaurar segredos, chaves e certificados individuais. As cópias de segurança destinam-se a fornecer-lhe uma cópia offline dos seus segredos no caso improvável de perder o acesso ao cofre de chaves.

Considere os seguintes fatores-chave relacionados à funcionalidade de backup:

  • Os backups criam blobs encriptados que não podem ser desencriptados fora do Azure.

  • As cópias de segurança apenas podem ser restauradas num cofre de chaves dentro da mesma subscrição e geografia do Azure.

  • Há uma limitação de fazer backup de no máximo 500 versões anteriores de um objeto de chave, segredo ou certificado.

  • Os backups são instantâneos que capturam o momento exato e não são atualizados automaticamente quando as informações confidenciais mudam.

Para a maioria das soluções, você não deve confiar exclusivamente em backups. Em vez disso, use os outros recursos descritos neste guia para dar suporte aos seus requisitos de resiliência. No entanto, os backups protegem contra alguns riscos que outras abordagens não oferecem, como a exclusão acidental de segredos específicos. Para mais informações, veja Key Vault backup.

Recursos de recuperação

O Key Vault oferece duas funcionalidades de recuperação chave para evitar eliminações acidentais ou maliciosas:

  • Exclusão suave: Quando ativada, a exclusão suave permite recuperar cofres e objetos excluídos durante um período de retenção configurável. Este prazo é um padrão de 90 dias. Pense na exclusão suave como uma lixeira para os recursos do cofre de chaves.

  • Proteção contra purga: Quando ativada, a proteção contra purga evita a eliminação permanente do cofre de chaves e seus objetos até que o periodo de retenção expire. Essa proteção impede que atores mal-intencionados destruam permanentemente seus segredos.

Recomendamos vivamente ambas as funcionalidades para ambientes de produção. Para mais informações, consulte Soft-delete and purge protection na documentação de gestão de recuperação do Key Vault.

Contrato de nível de serviço

O acordo de nível de serviço (SLA) para serviços Azure descreve a disponibilidade esperada de cada serviço e as condições que a sua solução deve cumprir para atingir essa expectativa de disponibilidade. Para mais informações, consulte SLAs para serviços online.