Uso de GPU sin servidor en Azure Container Apps

Azure Container Apps proporciona acceso a las GPU a petición sin tener que administrar la infraestructura subyacente. Como característica sin servidor, solo se paga por GPU en uso. Cuando se habilita, el número de GPU usadas para la aplicación aumenta y cae para satisfacer las demandas de carga de la aplicación. Las GPU sin servidor permiten ejecutar sin problemas las cargas de trabajo con escalado automático, arranque en frío optimizado, facturación por segundo con reducción vertical a cero cuando no están en uso y reducción de la sobrecarga operativa.

Las GPU sin servidor solo se admiten para perfiles de carga de trabajo de consumo. Esta característica no es compatible con los entornos de solo consumo.

Nota

Debe solicitar cuotas de GPU para acceder a las GPU. Puede enviar la solicitud de cuota de GPU a través de un caso de soporte técnico al cliente.

Ventajas

Las GPU sin servidor aceleran el desarrollo de la IA al permitirle centrarse en su código de IA principal y menos en la administración de la infraestructura cuando utiliza GPU. Esta característica proporciona una opción de nivel intermedio entre las API sin servidor del catálogo de modelos de Foundry y los modelos de hospedaje en el proceso administrado.

La compatibilidad con la GPU sin servidor de Container Apps proporciona una gobernanza de datos completa, ya que sus datos nunca salen de los límites de su contenedor, al tiempo que proporciona una plataforma administrada y sin servidor desde la que compilar sus aplicaciones.

Al usar GPU sin servidor en Container Apps, las aplicaciones obtienen:

GPU de escalado a cero: compatibilidad con el escalado automático sin servidor de GPU NVIDIA A100 y NVIDIA T4.
Facturación por segundo: pague solo por el proceso de GPU que use.
Gobernanza de datos integrada: los datos nunca dejan el límite del contenedor.
Opciones de proceso flexibles: puede elegir entre los tipos de GPU NVIDIA A100 o T4.
Nivel intermedio para el desarrollo de IA: traiga su propio modelo en una plataforma de proceso administrada y sin servidor.

Escenarios frecuentes

En los escenarios siguientes se describen casos de uso comunes para GPU sin servidor.

Inferencia por lotes y en tiempo real: use modelos de código abierto personalizados con tiempos de inicio rápidos, escalado automático y un modelo de facturación por segundo. Las GPU sin servidor son ideales para aplicaciones dinámicas. Solo paga por el proceso que usa y sus aplicaciones se escalan automáticamente para satisfacer la demanda.
Escenarios de aprendizaje automático: acelera considerablemente las aplicaciones que implementan modelos de IA generativos personalizados, aprendizaje profundo, redes neuronales o análisis de datos a gran escala.
High-Performance Computing (HPC): use GPU como recursos para altas demandas computacionales en aplicaciones que requieren cálculos y simulaciones complejos, como la computación científica, el modelado financiero o la previsión meteorológica.
Representación y visualización: use GPU para acelerar el proceso de representación y habilitar la visualización en tiempo real en aplicaciones que implican la representación 3D, el procesamiento de imágenes o la transcodificación de vídeo.
Análisis de macrodatos: las GPU pueden acelerar el procesamiento y el análisis de datos entre conjuntos de datos masivos.

Consideraciones

Tenga en cuenta los siguientes elementos a medida que usa GPU sin servidor:

Versión de CUDA: las GPU sin servidor admiten la versión más reciente de CUDA.
Limitaciones de compatibilidad:
- Solo un contenedor de una aplicación puede usar la GPU a la vez. Si tiene varios contenedores en una aplicación, el primer contenedor obtiene acceso a la GPU.
- Varias aplicaciones pueden compartir el mismo perfil de carga de trabajo de GPU, pero cada una requiere su propia réplica.
- No se admiten réplicas de GPU multifactor y fraccionario.
- El primer contenedor de la aplicación obtiene acceso a la GPU.
Direcciones IP: las GPU de consumo usan una dirección IP por réplica al configurar la integración con su propia red virtual.

Regiones admitidas

Las GPU sin servidor están disponibles en las siguientes regiones:

Región	A100	T4
Este de Australia	Sí	Sí
Sur de Brasil	Sí	Sí
Centro de la India	No	Sí
Canada Central	Sí	Sí
East US	Sí	Sí
Centro de Francia	No	Sí
Norte de Italia	Sí	Sí
Japón Oriental	No	Sí
Centro-norte de EE. UU.	No	Sí
Centro-sur de EE. UU.	No	Sí
Sudeste asiático	No	Sí
South India	No	Sí
Centro de Suecia	Sí	Sí
Oeste de Europa1	No	Sí
Oeste de EE. UU.	Sí	Sí
Oeste de EE. UU. 2	No	Sí
Oeste de EE. UU. 3	Sí	Sí

1 Para agregar un perfil de carga de trabajo de GPU sin servidor T4 en Oeste de Europa, debe crear un nuevo entorno de perfil de carga de trabajo en la región.

Uso de GPU sin servidor

Al crear una aplicación de contenedor a través del portal de Azure, puede configurar el contenedor para usar recursos de GPU.

En la pestaña Contenedor del proceso de creación, establezca la siguiente configuración:

En la sección Asignación de recursos de contenedor , active la casilla GPU .
En Tipo de GPU, seleccione la opción NVIDIA A100 o NVIDIA T4.

Administración del perfil de carga de trabajo de GPU sin servidor

Las GPU sin servidor funcionan con perfiles de carga de trabajo de GPU basados en consumo. Puede administrar un perfil de carga de trabajo de GPU de consumo de la misma manera que cualquier otro perfil de carga de trabajo. Puede administrar el perfil de carga de trabajo mediante el portal CLI o el portal Azure.

Solicitud de cuota de GPU sin servidor

Nota

Clientes con acuerdos empresariales y clientes de pago por uso tienen habilitada la cuota A100 y T4 de manera predeterminada.

Necesita una cuota de GPU sin servidor para acceder a esta característica. Puede enviar la solicitud de cuota de GPU a través de un caso de soporte técnico al cliente. Al abrir un caso de soporte técnico para una solicitud de cuota de GPU, seleccione las siguientes opciones:

Abra Nuevo formulario de solicitud de soporte técnico en el portal de Azure.
Escriba los valores siguientes en el formulario:

Propiedad Importancia

Tipo de problema Seleccione Límites de servicio y suscripción (cuotas)

Subscription Seleccione su suscripción.

Tipo de cuota Seleccione Container Apps.
Seleccione Siguiente.
En la ventana Detalles adicionales , seleccione Especificar detalles para abrir la ventana de detalles de la solicitud.
En Tipo de cuota, seleccione Consumo de entorno administrado NCA100 Gpu o Consumo de entorno administrado T4 Gpu. Introduzca los demás valores.
Selecciona Guardar y continuar.
Rellene el resto de los detalles pertinentes en la ventana Detalles adicionales .
Seleccione Siguiente.
Selecciona Crear.

Propiedad	Importancia
Tipo de problema	Seleccione Límites de servicio y suscripción (cuotas)
Subscription	Seleccione su suscripción.
Tipo de cuota	Seleccione Container Apps.

Mejora del arranque en frío de GPU

Para mejorar significativamente los tiempos de inicio en frío, habilite el streaming de artefactos y busque archivos grandes, como modelos de lenguaje grandes, en un montaje de almacenamiento.

Artifact streaming: Azure Container Registry ofrece streaming de imágenes, lo que puede acelerar significativamente los tiempos de inicio de la imagen. Para usar el streaming de artefactos, debe hospedar las imágenes de contenedor en un Azure Container Registry Premium.
Puntos de montaje de almacenamiento: reducir los efectos de la latencia de red almacenando archivos grandes en una cuenta de almacenamiento de Azure asociada a la aplicación de contenedores.

Implementación de modelos Foundry en GPU sin servidor (versión preliminar)

Azure Container Apps GPU sin servidor ahora admiten modelos de Microsoft Foundry en versión preliminar pública. Foundry Models tiene dos opciones de implementación:

API sin servidor que proporcionan facturación de pago por uso para algunos de los modelos más populares.
Recursos informáticos administrados que le permiten implementar la selección completa de modelos Foundry con precios de pago por GPU.

Azure Container Apps GPU sin servidor ofrece una opción de implementación equilibrada entre las API sin servidor y el cómputo administrado para desplegar modelos Foundry. Esta opción es a petición con el escalado sin servidor que se escala a cero cuando no está en uso y cumple con las necesidades de residencia de datos. Con las GPU sin servidor, el uso de modelos Foundry le ofrece flexibilidad para ejecutar cualquier modelo compatible con escalado automático, precios por segundo, gobernanza completa de datos, y soporte inmediato para redes empresariales y seguridad.

Se admiten modelos de lenguaje del tipo . Para ver una lista de modelos, vaya a la lista de modelos disponibles en el registro de AzureML. Para buscar los modelos, agregue un filtro para los modelos mediante los pasos siguientes:

Seleccione Filtro.
Seleccione Agregar filtro.
En la regla de filtro, escriba Type = MLFLOW.

Para los modelos enumerados aquí en el repositorio Azure Container Apps, puede implementarlos directamente en GPU sin servidor sin necesidad de crear su propia imagen mediante el siguiente comando de la CLI:

az containerapp up \
  --name <CONTAINER_APP_NAME> \
  --location <LOCATION> \
  --resource-group <RESOURCE_GROUP_NAME> \
  --model-registry <MODEL_REGISTRY_NAME> \
  --model-name <MODEL_NAME> \
  --model-version <MODEL_VERSION>

Para cualquier modelo que no esté en esta lista, necesitas:

Descargue la plantilla de GitHub para la imagen del modelo en el repositorio de Azure Container Apps.
Modifique el archivo score.py para que coincida con el tipo de modelo. El script de puntuación (denominado score.py) define cómo interactúa con el modelo. En el ejemplo siguiente se muestra cómo usar un archivo score.py personalizado.
Compile la imagen e impleméntela en un registro de contenedor.
Use el comando anterior de la CLI para implementar el modelo en GPU sin servidor, pero especifique. Al usar los parámetros , y , las variables de entorno clave se establecen para optimizar el arranque en frío de su aplicación.

Enviar comentarios

Envíe problemas al repositorio Azure Container Apps GitHub.

Pasos siguientes

Generación de imágenes mediante GPU sin servidor

Comentarios

¿Le ha resultado útil esta página?

Last updated on 2026-03-06