Compartir a través de


Confiabilidad en Azure Site Recovery

Azure Site Recovery es un servicio de replicación y conmutación por error administrados para máquinas virtuales, diseñados para mantener las cargas de trabajo disponibles durante las interrupciones. Replica continuamente las cargas de trabajo de los sitios primarios a las ubicaciones secundarias, lo que garantiza una pérdida mínima de datos y de inactividad. En caso de mantenimiento planeado o interrupciones inesperadas, coordina los procesos de conmutación por error y conmutación por recuperación. Este servicio admite la recuperación ante desastres para entornos locales y máquinas virtuales Azure, lo que ayuda a las organizaciones a mantener la continuidad empresarial.

Al usar Azure, relibilidad es una responsabilidad compartida. Microsoft proporciona una variedad de funcionalidades para admitir resistencia y recuperación. Es responsable de comprender cómo funcionan esas funcionalidades dentro de todos los servicios que usa y de seleccionar las funcionalidades que necesita para cumplir los objetivos empresariales y los objetivos de tiempo de actividad.

En este artículo se describe cómo hacer que Azure Site Recovery sean resistentes a una variedad de posibles interrupciones y problemas, incluidos errores transitorios, interrupciones de zona de disponibilidad y interrupciones de regiones. También resalta cierta información clave sobre el acuerdo de nivel de servicio (SLA) de Azure Site Recovery.

Nota:

En este documento se describe cómo el propio servicio de Azure Site Recovery es resistente o también se puede hacer resistente a varios problemas. No explica cómo usar Azure Site Recovery para proteger las máquinas virtuales u otros recursos. Para obtener información sobre cómo usar Azure Site Recovery, consulte About Site Recovery.

Recomendaciones de implementación de producción para la confiabilidad

Al usar Site Recovery con cargas de trabajo de producción, se recomienda realizar estas acciones:

  • Implemente la bóveda de Recovery Services en la región de destino para replicación.
  • Para la recuperación ante desastres de Azure a Azure, use High Churn para las máquinas virtuales que tienen una tasa alta de cambio de datos. La compatibilidad con alta rotación mejora tu objetivo de punto de recuperación (RPO) y facilita la replicación para muchas cargas de trabajo de bases de datos a gran escala.
  • Para la recuperación ante desastres de Azure a Azure, configure la cuenta de almacenamiento en caché para usar almacenamiento con redundancia de zona (ZRS).
  • Realice pruebas de conmutación por error de manera periódica como parte de los simulacros de recuperación ante desastres (DR). Los simulacros de recuperación ante desastres deben ejecutarse cada trimestre o semestralmente para comprobar que los procesos de replicación y conmutación por error están en buen estado.
  • Use Reservas de Capacidad a Demanda para asegurarse de que los recursos informáticos están disponibles en la región de destino para la conmutación por error.
  • Habilite las actualizaciones automáticas para agentes de movilidad.
  • Supervise el estado de la replicación y configure alertas para que se le notifique si se produce un problema.

Introducción a la arquitectura de confiabilidad

Al usar Azure Site Recovery, se define un source y target, que representan las máquinas virtuales que se replican:

  • El source puede ser una máquina virtual de Azure o una máquina virtual o servidor de otro origen compatible, incluidos servidores físicos locales, máquinas virtuales de VMware y máquinas virtuales de Hyper-V.
  • El target siempre es una máquina virtual de Azure. Para la replicación de máquinas virtuales de Azure a Azure, el destino puede ser una región o zona de disponibilidad diferente de la máquina virtual de origen.

Es responsable de implementar y configurar otros recursos, incluidos los siguientes:

  • Recovery Services vault, que Site Recovery usa para almacenar las opciones de configuración de replicación. La bóveda no guarda tus datos replicados. La configuración de redundancia del almacén no es importante para Site Recovery, pero es importante si usa el mismo almacén para Azure Backup.

    Una bóveda puede incluir configuración adicional, como:

    • Directiva de replicación, que configura la frecuencia de las instantáneas y la duración de conservación.
    • Plan de recuperación, que coordina el orden en el que las máquinas conmutan tras un fallo e incluye scripts y acciones manuales. Los planes de recuperación son especialmente útiles para cargas de trabajo con múltiples niveles, como los niveles de aplicación y base de datos, que necesitan hacer la conmutación de forma coordinada.
  • Para la replicación de Azure a Azure, una cuenta de almacenamiento cache que almacena una copia de los datos de origen en su región antes de que se replique en el destino. La configuración de redundancia de la cuenta de almacenamiento en caché puede afectar a la confiabilidad durante una interrupción de la zona de disponibilidad.

Nota:

Esta guía se centra en la confiabilidad de los componentes basados en Azure de Azure Site Recovery y la relación de replicación. Si replica datos o máquinas virtuales desde un entorno local u otro proveedor de nube, también debe tener en cuenta la confiabilidad de los componentes fuera de Azure.

Para obtener más información sobre los componentes que implemente, consulte:

El servicio principal Site Recovery se ejecuta en la infraestructura que Administra Microsoft. Este documento hace referencia a estos componentes colectivamente como el core Site Recovery service.

Resistencia a errores transitorios

Los errores transitorios son errores breves e intermitentes en los componentes. Se producen con frecuencia en un entorno distribuido como la nube y son una parte normal de las operaciones. Los errores transitorios se corrigen después de un breve período de tiempo.

Site Recovery controla automáticamente los errores transitorios que se producen durante el proceso de replicación mediante el reintento de sus operaciones. No es necesario configurar el control de errores transitorios para Azure Site Recovery.

Resistencia a errores de zona de disponibilidad

Availability zones son grupos de centros de datos físicamente independientes dentro de una región de Azure. Cuando una zona falla, los servicios pueden transferirse a una de las zonas restantes.

Para comprender cómo se comporta la replicación de Azure Site Recovery durante los fallos de zona de disponibilidad, es necesario considerar los siguientes componentes del servicio:

  • Core Site Recovery service: El servicio Site Recovery está diseñado para ser resistente a errores de zona de disponibilidad en regiones admitidas. Los componentes internos del servicio apoyan automáticamente la redundancia de zona sin necesidad de configuración por parte del cliente.

  • Bóveda de Recovery Services: La bóveda guarda los datos de configuración. En las regiones donde Site Recovery soporta la resiliencia de zona, los datos de configuración del almacén son también resilientes a la zona.

  • Cache storage account: Para la replicación de Azure a Azure, eres responsable de garantizar que el caché de la cuenta de almacenamiento sea redundante a nivel de zona al desplegarlo utilizando el nivel ZRS.

    Si usa Azure Storage con redundancia local (LRS) en el nivel de replicación para el almacenamiento de la cuenta de caché, si se produce un error en una zona, es posible que Site Recovery no pueda replicar los datos modificados recientemente al destino.

Nota:

Azure Site Recovery puede ayudarle a realizar una conmutación automática entre máquinas virtuales en diferentes zonas de disponibilidad. Para más información, consulte Habilitar recuperación ante desastres de máquinas virtuales de Azure entre zonas de disponibilidad.

Requisitos

Compatibilidad con regiones:

  • Servicio central de recuperación de sitios y bóvedas de Recovery Services: Azure Site Recovery es resistente a zonas en las siguientes regiones:

    Americas Europa Oriente Medio Asia Pacífico
    Centro de Chile Este de Austria Israel Central Centro de Indonesia
    Centro de México Norte de Italia Japón Occidental
    Oeste de EE. UU. 3 Centro de Polonia Oeste de Malasia
    Centro de España Norte de Nueva Zelanda

    Azure Site Recovery está implementando actualmente compatibilidad con zonas de disponibilidad en todas las regiones con zonas de disponibilidad habilitadas. En las regiones que aún no son resilientes a zonas, los fallos de zona pueden afectar a las operaciones.

  • Cuenta de almacenamiento en caché: Puede implementar una cuenta de almacenamiento de ZRS en todas las regiones habilitadas para zonas de disponibilidad.

Cost

Site Recovery se factura en función del número de instancias de máquina virtual protegidas, independientemente de su configuración de zona de disponibilidad. Para obtener más información, consulte precios Azure Site Recovery.

Configurar soporte de zonas de disponibilidad

  • Core Site Recovery service: No se configura la resistencia de zona en el servicio principal Site Recovery. Microsoft proporciona resiliencia de zona en las regiones compatibles.

    Si Microsoft habilita la resistencia de zona en una región más adelante, los recursos de Site Recovery se benefician automáticamente de la resistencia de la zona. No es necesario realizar ninguna acción.

  • Almacén de Servicios de Recuperación: Aunque los almacenes de Servicios de Recuperación permiten configurar un nivel de redundancia, esta configuración no se utiliza para Site Recovery. No es necesario configurar la bóveda para la redundancia de zona cuando usas Site Recovery.

  • Cache storage account: Cuando se usa la replicación de Azure a Azure, es responsable de crear la cuenta de almacenamiento de caché y de configurarla con el nivel adecuado de redundancia. Para que sea con redundancia de zona, configúrelo para el tipo de replicación ZRS. Para obtener más información, consulte Reliability en Azure Blob Storage.

Comportamiento cuando todas las zonas están en buen estado

En esta sección se describe qué esperar cuando se usa Site Recovery en una región con compatibilidad con zona de disponibilidad para el servicio principal, la cuenta de almacenamiento en caché está configurada para usar ZRS y todas las zonas de disponibilidad están operativas.

  • Operación entre zonas: El proceso de replicación puede usar la infraestructura en varias zonas de disponibilidad para desencadenar y ejecutar trabajos de replicación. El servicio administra esta infraestructura de forma transparente.

  • Replicación de datos entre zonas: Site Recovery y Azure Storage manejan la replicación de datos de zona de la siguiente manera:

    • Configuración de Site Recovery: Site Recovery replica los datos de configuración entre zonas incluso si la bóveda está configurada para usar LRS.

    • Cache storage account: Si la cuenta de almacenamiento en caché está configurada para usar ZRS, Azure Storage replica sincrónicamente los datos almacenados en caché entre zonas.

Comportamiento durante un fallo de zona

En esta sección se describe qué esperar cuando se usa Site Recovery en una región con compatibilidad con la zona de disponibilidad para el servicio principal, la cuenta de almacenamiento en caché está configurada para usar ZRS y se produce una interrupción de zona de disponibilidad.

Nota:

Si la zona con errores contiene la máquina virtual de origen, usted es responsable de iniciar la conmutación por error al destino. Para obtener más información, consulte:

  • Detección y respuesta: La plataforma Site Recovery detecta automáticamente errores en una zona de disponibilidad e inicia una respuesta. No es necesario realizar ninguna intervención manual para iniciar una conmutación por error de zona para el propio servicio Site Recovery. Sin embargo, si la interrupción de zona afecta a la máquina virtual de origen, es posible que tenga que iniciar la conmutación por error de la máquina virtual.
  • Notificación: Microsoft no le notifica automáticamente cuando una zona está inactiva. Sin embargo, puede usar Azure Service Health para comprender el estado general del servicio, incluidos los errores de zona, y puede configurar alertas de Service Health para notificarle problemas.
  • Solicitudes activas: El efecto en los trabajos de replicación activa depende del tipo de replicación:

    • Replicación de zona a zona y región a región de máquinas virtuales de Azure: Si la instancia de origen o de destino está en la zona con errores, la replicación se detiene hasta que ambas instancias estén disponibles de nuevo.

      Si la zona con errores no contiene la máquina virtual de origen o de destino, y la cuenta de almacenamiento en caché está configurada para usar ZRS, la replicación continúa ejecutándose.

    • On-premises para Azure: Si la instancia de destino está en la zona con errores, la replicación se detiene hasta que la instancia esté disponible de nuevo.

      Si la zona con errores no contiene la máquina virtual de destino, la replicación continúa ejecutándose.

  • Pérdida de datos esperada: No se espera ninguna pérdida de datos durante un error de zona.

  • Tiempo de inactividad esperado: Si la zona con errores contiene la máquina virtual de origen o de destino, la replicación se detiene hasta que ambas instancias estén disponibles de nuevo.

  • Redistribution: Site Recovery y Azure Storage se adaptan automáticamente a los errores de zona.

    • Site Recovery core service: El servicio Site Recovery usa automáticamente la infraestructura en zonas de disponibilidad correctas para realizar la replicación. No es necesario realizar ninguna acción.

    • Cache storage account: Azure Storage enruta automáticamente las solicitudes de datos de caché a zonas correctas.

Recuperación de zona

Cuando se recupera la zona de disponibilidad afectada, Site Recovery reanuda automáticamente los trabajos de replicación que podrían haberse pausado durante la interrupción de la zona.

Es responsable de iniciar la conmutación por recuperación para los servidores o máquinas virtuales que conmutó por error durante la interrupción de la zona. Para obtener más información, consulte:

Prueba de fallos de zona

La plataforma Site Recovery administra la resistencia de zona para sus componentes internos. Dado que esta característica está totalmente administrada, no es necesario iniciar ni validar los procesos de error de zona de disponibilidad.

Es importante realizar simulacros de recuperación ante desastres normales, que deben probar la conmutación por error de la máquina virtual, así como los procedimientos generales de respuesta. Diseñe los simulacros de recuperación ante desastres para evitar el impacto en el entorno de producción. Para obtener más información, consulte:

Resistencia a errores en toda la región

Para la replicación de Azure a Azure, Site Recovery está diseñado para proporcionar resistencia a los fallos de región, habilitando la conmutación por error de las máquinas virtuales en una región de destino saludable. Para más información, consulte Replicar máquinas virtuales de Azure a otra región de Azure.

Consideraciones

  • Región de la bóveda: Una bóveda de Servicios de Recuperación se implementa en una región específica de Azure, que tú seleccionas. La región de la bóveda es una decisión importante. La replicación puede continuar durante una interrupción en la región de la bóveda. Sin embargo, las operaciones de administración de Site Recovery, incluida la conmutación por error y recuperación, no están disponibles hasta que la región se recupere.

    La implementación de la bóveda en la región de destino ayuda a garantizar que las operaciones de conmutación por error y recuperación permanezcan accesibles durante una interrupción de la región de origen, y también evita que una interrupción en una tercera región afecte a las operaciones de conmutación por error y recuperación.

    Nota:

    Si tu bóveda está en la región que normalmente usas como región de destino, entonces, después de conmutación por error y restablecer la replicación, la bóveda se encuentra ahora en tu nueva región de origen. Si esa región experimenta posteriormente un problema, posiblemente no pueda realizar la reversión de la conmutación hasta que ambas regiones estén funcionales.

  • Reservas de capacidad: Es responsable de comprobar que la región de destino admite los tipos de máquina virtual que necesita y que tiene capacidad disponible para la carga de trabajo. Se recomienda usar reservas de capacidad a demanda, lo cual garantiza que los recursos informáticos estén disponibles para su carga de trabajo en caso de falla.

Configuración de la compatibilidad con varias regiones

  • Bóveda de Recovery Services: Debe seleccionar la región de la bóveda. Para obtener más información, consulte la sección consideraciones anteriores.

    Aunque los almacenes de Recovery Services permiten configurar un nivel de redundancia, esta configuración no se utiliza para Site Recovery. No es necesario configurar la bóveda para la redundancia geográfica al usar Site Recovery.

  • Cuenta de almacenamiento en caché: Dado que la cuenta de almacenamiento en caché solo se usa como ubicación temporal para los datos antes de que se replique, no debe configurarla para usar GRS.

Comportamiento durante una falla de región

El comportamiento específico del servicio principal de Site Recovery durante un error de región depende de la región en la que experimente el error:

  • Error en la región de origen: Para la replicación de Azure a Azure, puede iniciar una conmutación por error si la región de origen no está disponible.

    Dado que la región de origen no está disponible, la replicación se detiene hasta que la máquina virtual de la región de origen está en buen estado.

  • Error en la región de destino: Dado que la región de destino no está disponible, la replicación se detiene y no se puede conmutar por error al destino hasta que la región esté en buen estado.

  • Fallo en la región que contiene la bóveda: Si la bóveda se implementa en una tercera región (no en la región de origen o de destino) y esa región experimenta un fallo, Site Recovery sigue replicando sus datos. Sin embargo, no puede iniciar ninguna operación, incluida la conmutación por error o la reversión, hasta que la bóveda esté en buen estado.

Recuperación de regiones

Usted es responsable de iniciar el restablecimiento para cualquier servidor o máquina virtual que conmutó durante la interrupción de la región. Para obtener más información, consulte:

Prueba de fallos de región

Es importante realizar simulacros de recuperación ante desastres normales, que deben probar la conmutación por error de la máquina virtual, así como los procedimientos generales de respuesta. Diseñe los simulacros de recuperación ante desastres (DR) para evitar el impacto en el entorno de producción. Para obtener más información, consulte:

Resistencia a problemas de configuración y replicación

Una solución de recuperación ante desastres solo es confiable si sabe que funciona antes de que se produzca un desastre. Esto significa que es importante supervisar Azure Site Recovery en caso de que surjan problemas, como problemas de configuración o problemas con el estado de la replicación de la máquina virtual. Para obtener más información, consulte Monitor Azure Site Recovery.

Se recomienda configurar alertas de Azure Monitor para que se le informe sobre problemas con la salud de replicación. Para obtener más información, consulte Alertas integradas de Azure Monitor para Azure Site Recovery.

Resistencia al mantenimiento del servicio

Azure administra automáticamente las actualizaciones y el mantenimiento del servicio principal Site Recovery. Las operaciones de mantenimiento no requieren tiempo de inactividad y no interrumpen la replicación de las máquinas virtuales y los servidores.

Sin embargo, es responsable de aplicar actualizaciones a los componentes de Site Recovery en las máquinas virtuales y servidores, incluido el agente de movilidad cuando sea necesario.

Importante

Se recomienda encarecidamente habilitar las actualizaciones automáticas para los agentes. Si la versión del agente se retrasa más de cuatro versiones, la replicación está deshabilitada y la capacidad de recuperación de la carga de trabajo está comprometida.

Para obtener más información, consulte actualizaciones de Service en Site Recovery.

Acuerdo de nivel de servicio

El acuerdo de nivel de servicio (SLA) para Azure servicios describe la disponibilidad esperada de cada servicio y las condiciones que la solución debe cumplir para lograr esa expectativa de disponibilidad. Para obtener más información, vea SLAs for servicios en línea.

Para Azure Site Recovery, hay acuerdos de nivel de servicio independientes que abarcan lo siguiente:

  • Disponibilidad del servicio, lo que significa que el servicio Site Recovery está disponible para realizar un failover de las instancias protegidas. Una instancia protegida es una máquina virtual o un servidor físico que se replica en una ubicación secundaria. Para poder optar a este Acuerdo de Nivel de Servicio, debe reintentar los intentos fallidos de conmutación por error al menos cada 30 minutos.
  • Objetivo de tiempo de recuperación (RTO), que es el período de tiempo desde que usted (o los scripts que escribe) desencadenan una conmutación por error hasta que la máquina virtual de destino está en funcionamiento. Esta vez excluye las acciones manuales o la ejecución del script.

El Acuerdo de Nivel de Servicio solo proporciona créditos de servicio cuando hay suficiente capacidad disponible en la región secundaria.