Partilhar via


O que é a documentação de fiabilidade do Azure?

O Azure oferece um conjunto abrangente de capacidades de fiabilidade para o ajudar a cumprir os requisitos da sua carga de trabalho. A documentação de fiabilidade do Azure fornece guias específicos do serviço sobre como cada serviço Azure suporta essas capacidades de fiabilidade da plataforma, como o tratamento de falhas transitórias, zonas de disponibilidade, suporte multi-região e suporte de backup. Para ver a lista atual de guias de serviço de confiabilidade, consulte Guias de confiabilidade por serviço.

Para além dos guias de serviço de fiabilidade, a documentação de fiabilidade do Azure inclui também informações gerais, tais como:

  • Regiões do Azure: Informação sobre regiões do Azure, regiões pares e ímpares, e diferentes configurações de regiões.
  • Azure zonas de disponibilidade: Informação sobre zonas de disponibilidade, incluindo como suportam a alta disponibilidade e a recuperação após desastres. Esta secção inclui também listas de serviços e regiões do Azure que suportam zonas de disponibilidade.
  • Conceitos de fiabilidade: Conceitos fundamentais de fiabilidade, tais como:
    • Continuidade de negócios, alta disponibilidade e recuperação de desastres.
    • Redundância, replicação e backup.
    • Mudança automática para backup e retorno ao original.
    • Responsabilidade partilhada entre si e a Microsoft.

O que é fiabilidade?

Confiabilidade refere-se à capacidade de uma carga de trabalho de executar consistentemente em um nível de serviço aceitável e de acordo com os requisitos de continuidade de negócios. A confiabilidade é um conceito-chave na computação em nuvem. No Azure, a fiabilidade é alcançada através de uma combinação de fatores, incluindo o design da própria plataforma, os seus serviços, a arquitetura das suas aplicações e a implementação das melhores práticas.

Duas abordagens principais para alcançar a confiabilidade em uma carga de trabalho são:

  • Resiliência: a capacidade de suportar e continuar operando quando algo dá errado, como erros temporários, interrupções de infraestrutura ou picos inesperados na demanda. A resiliência ajuda-o a evitar interrupções.

  • Capacidade de recuperação: a capacidade de restaurar as operações normais após uma interrupção. Se ocorrer uma interrupção, a capacidade de recuperação ajuda-o a restaurar para um estado fiável.

A plataforma e os serviços do Azure oferecem várias funcionalidades de fiabilidade, como zonas de disponibilidade, suporte multi-região, replicação de dados e backup e restauro. Esses recursos devem ser considerados ao projetar uma carga de trabalho para atender aos seus requisitos de continuidade de negócios.

Sugestão

A confiabilidade também incorpora outros elementos do design da solução, incluindo como você implanta alterações com segurança, como gerencia o desempenho para evitar tempo de inatividade devido à alta carga e como testa e valida cada parte da solução. Para saber mais, consulte o Framework Azure Well-Architected.

Guias de fiabilidade para serviços Azure

O Azure oferece um conjunto abrangente de capacidades de fiabilidade para o ajudar a cumprir os requisitos da sua carga de trabalho. Guias de fiabilidade para serviços Azure são guias específicos de cada serviço sobre como cada serviço Azure suporta essas capacidades de fiabilidade da plataforma, como gestão de falhas transitórias, resiliência a zonas de disponibilidade e interrupções regionais, e backup e restauração. Para ver a lista atual de guias de serviço de fiabilidade, consulte Guias de fiabilidade para serviços Azure.

Regiões Azure

O Azure disponibiliza mais de 60 regiões globalmente, localizadas em várias geografias diferentes. Cada região é um conjunto de instalações físicas que incluem datacenters e infraestrutura de rede. Todas as regiões podem ser divididas em áreas geográficas chamadas geografias. Cada geografia é um limite de residência de dados e pode conter uma ou mais regiões.

Azure regiones oferecem certos tipos de opções de resiliência. Muitas regiões fornecem zonas de disponibilidade, e algumas têm uma região emparelhada, enquanto outras regiões não são pareadas. Ao escolher uma região para seus serviços, é importante prestar atenção às opções de resiliência disponíveis nessa região.

Zonas de disponibilidade do Azure

Muitas regiões do Azure fornecem zonas de disponibilidade, que são grupos separados de centros de dados dentro de uma região. As zonas de disponibilidade são uma forma importante de alcançar fiabilidade na plataforma Azure porque proporcionam algum nível de isolamento físico dentro de uma região.

As zonas de disponibilidade são próximas o suficiente para ter conexões de baixa latência com outras zonas de disponibilidade, mas estão distantes o suficiente para reduzir a probabilidade de que mais de uma seja afetada por interrupções locais ou pelo clima. As zonas de disponibilidade têm infraestruturas independentes de energia, refrigeração e rede. Eles são projetados para que, se uma zona sofrer uma interrupção, os serviços regionais, a capacidade e a alta disponibilidade sejam suportados pelas zonas restantes.

  • Para obter mais informações sobre zonas de disponibilidade, consulte O que são zonas de disponibilidade?.
  • Para ver quais as regiões que suportam zonas de disponibilidade, consulte Lista de Azure regiões.

Conceitos de fiabilidade

A secção de conceitos de fiabilidade oferece uma visão geral de alguns dos conceitos e princípios-chave que sustentam a fiabilidade no Azure.

Continuidade de negócios, alta disponibilidade e recuperação de desastres

O planejamento de continuidade de negócios pode ser entendido como o processo contínuo de gerenciamento de riscos por meio de alta disponibilidade e design de recuperação de desastres.

Ao considerar a continuidade de negócios, é importante entender os seguintes termos:

  • A continuidade de negócios é o estado no qual uma empresa pode continuar as operações durante falhas, interrupções ou desastres. A continuidade dos negócios requer planejamento, preparação e implementação proativos de sistemas e processos resilientes.

  • Alta disponibilidade consiste em projetar uma solução para atender às necessidades de disponibilidade dos negócios e ser resiliente a problemas do dia a dia que podem afetar os requisitos de tempo de atividade.

  • A recuperação de desastres consiste em planejar como lidar com riscos incomuns e interrupções catastróficas que podem resultar.

Para obter informações sobre continuidade de negócios e planejamento de continuidade de negócios por meio de design de alta disponibilidade e recuperação de desastres, consulte O que são continuidade de negócios, alta disponibilidade e recuperação de desastres?.

Redundância, replicação e backup

Muitas vezes pensamos na nuvem como um sistema globalmente distribuído e ubíquo. No entanto, na realidade, a nuvem é composta por hardware executado em datacenters. A resiliência requer que você leve em conta alguns dos riscos associados aos locais físicos nos quais seus componentes hospedados na nuvem são executados.

Redundância é a capacidade de manter várias cópias idênticas de um componente de serviço e usar essas cópias de forma a evitar que qualquer componente se torne um único ponto de falha.

Replicação ou redundância de dados é a capacidade de manter várias cópias de dados, chamadas réplicas.

Backup é a capacidade de manter uma cópia datada que pode ser usada para restaurar dados perdidos.

Para obter uma introdução à redundância, replicação e backup, consulte O que é redundância, replicação e backup?.

Alternância e reversão

Um motivo comum para manter cópias redundantes de aplicativos e réplicas de dados é ser capaz de executar um failover. Com o failover, pode-se redirecionar o tráfego e as solicitações de instâncias com problemas para instâncias saudáveis. Em seguida, quando as instâncias originais se tornarem íntegras novamente, você poderá executar um failback para retornar à configuração original.

Para obter mais informações sobre relevo automático e retorno pós-falha, consulte O que é relevo automático e retorno pós-falha?.

Responsabilidade partilhada

Os serviços do Azure são construídos para serem resilientes a muitas falhas comuns, e cada produto fornece um acordo de nível de serviço (SLA) que descreve o tempo de atividade que pode esperar. No entanto, a confiabilidade geral de sua carga de trabalho depende de como você projetou sua solução para atender às suas necessidades de negócios. Alguns planos de continuidade de negócios podem considerar certos riscos de falha como sem importância, enquanto outros podem considerá-los críticos.

Na plataforma de cloud pública Azure, a fiabilidade é uma responsabilidade partilhada entre a Microsoft e você. Como há diferentes níveis de confiabilidade em cada carga de trabalho que você projeta e implanta, é importante que você entenda quem é o principal responsável por cada um desses níveis de uma perspetiva de confiabilidade. Para entender melhor como funciona a responsabilidade compartilhada, especialmente quando confrontado com uma interrupção ou desastre, consulte Responsabilidade compartilhada pela confiabilidade.

  • Disponibilidade do serviço por categoria
  • Criar soluções para elevada disponibilidade utilizando zonas de disponibilidade
  • Treinamento: descrever estratégias de alta disponibilidade e recuperação de desastres