Partilhar via


Modelo Limites de serviço e regiões

Este artigo resume as limitações e a disponibilidade regional para Azure Databricks Model Serving e tipos de endpoints suportados.

Limites de recursos e carga útil

O Model Serving impõe limites padrão para garantir um desempenho fiável. Se você tiver comentários sobre esses limites, entre em contato com sua equipe de conta Databricks.

Os limites desta secção aplicam-se apenas a endpoints de modelos personalizados e agentes de IA . Para as APIs do modelo de base e os limites de recursos e cargas úteis externos do modelo, consulte limites de taxa e quotas das APIs do modelo de base.

Modelos personalizados e agentes de IA

Caraterística Granularidade Limite
Pontos finais Por espaço de trabalho 1000. Contacta a tua equipa de conta Databricks para aumentar.
Consultas por segundo (QPS) Por endpoint 300.000 usando otimização de rotas. Se 1024 como valor de concorrência não for suficiente, contacte a equipa responsável pela sua conta na Databricks para um aumento.
Consultas por segundo (QPS) Por espaço de trabalho 300.000 usando otimização de rotas. 200 para não otimizado para rotas, recomendado apenas para pequenos casos de uso de desenvolvedores.
Concorrência provisionada Por modelo 1024 com opção personalizada e otimização de rotas. Entre em contato com a sua equipa de conta Databricks para aumentar a capacidade.
Concorrência provisionada Por espaço de trabalho 4096. Contacte a equipa da sua conta Databricks para aumentar.
Criar/atualizar operações Por espaço de trabalho 50 em 5 minutos.
Tamanho da carga útil Por pedido 16 MB. Para endpoints de agentes de IA , o limite é de 4 MB.
Tamanho do pedido/resposta Por pedido Qualquer pedido/resposta superior a 1 MB não será registado.
Duração da execução do modelo Por pedido 297 segundos
Uso de memória do modelo endpoint da CPU Por endpoint 4GB
Uso de memória do modelo de GPU de ponto final Por endpoint Depende do tipo de GPU
Variáveis de ambiente Por modelo servido 30. Entre em contacto com a equipa da sua conta da Databricks para aumentar a capacidade.
Latência de sobrecarga Por pedido Menos de 20 milissegundos com otimização da rota.

:::

Limitações de rede e segurança

  • Os pontos de extremidade do Model Serving são protegidos pelo controle de acesso e respeitam as regras de entrada relacionadas à rede configuradas no espaço de trabalho, como listas de permissões de IP e Link Privado.
  • A conectividade privada (como o Azure Private Link) só é suportada para pontos de extremidade de serviço de modelos que usam largura de banda provisionada ou pontos de extremidade que servem modelos personalizados.
  • Por padrão, o Serviço de Modelo não oferece suporte a ligação privada para pontos de extremidade externos (como o Azure OpenAI). O suporte para esta funcionalidade é avaliado e implementado por região. Entre em contato com sua equipe de conta do Azure Databricks para obter mais informações.
  • O Model Serving não fornece patches de segurança para imagens de modelo existentes devido ao risco de desestabilização das implantações de produção. Uma nova imagem de modelo criada a partir de uma nova versão do modelo conterá os patches mais recentes. Entre em contato com sua equipe de conta Databricks para obter mais informações.

Padrões de perfil de segurança de conformidade: cargas de trabalho da CPU

A tabela a seguir lista os padrões de conformidade de perfil de segurança suportados para a funcionalidade principal de Serviço de Modelo em cargas de trabalho de CPU.

Nota

Esses padrões de conformidade exigem que os contêineres servidos sejam construídos nos últimos 30 dias. O Databricks reconstrói automaticamente contêineres desatualizados em seu nome. No entanto, se esse trabalho automatizado falhar, uma mensagem de log de eventos como a seguinte aparecerá e fornecerá orientação sobre como garantir que seus endpoints cumpram os requisitos de conformidade.

"Databricks couldn't complete a scheduled compliance check for model $servedModelName. This can happen if the system can't apply a required update. To resolve, try relogging your model. If the issue persists, contact support@databricks.com."

Região Localização HIPAA HITRUST PCI-DSS IRAP CCCS Médio (Protegido B) Reino Unido Cyber Essentials Plus
australiacentral AustráliaCentral            
australiacentral2 AustráliaCentral2            
australiaeast AustráliaLeste      
australiasoutheast Austrália Sudeste            
brazilsouth Brasil Sul      
canadacentral CanadáCentral      
canadaeast CanadáLeste            
centralindia Índia Central      
centralus Região Central dos EUA      
chinaeast2 ChinaEast2            
chinaeast3 ChinaLeste3            
chinanorth2 ChinaNorte2            
chinanorth3 ChinaNorte3            
eastasia Ásia Oriental      
eastus Leste dos EUA      
eastus2 LesteUS2      
francecentral FrançaCentral      
germanywestcentral AlemanhaWestCentral      
japaneast JapãoLeste      
japanwest JapãoOeste            
koreacentral CoreiaCentral      
mexicocentral MéxicoCentral            
northcentralus Centro-Norte dos EUA      
northeurope Norte da Europa      
norwayeast Noruega Este            
qatarcentral QatarCentral            
southafricanorth África do SulNorte            
southcentralus Centro-Sul dos EUA      
southeastasia Sudeste Asiático      
southindia Sul da Índia            
swedencentral SuéciaCentral      
switzerlandnorth Suíça Norte      
switzerlandwest SuíçaOeste            
uaenorth UAENorth      
uksouth UKSouth    
ukwest UKWest            
westcentralus WestCentralUS            
westeurope Europa Ocidental      
westindia Índia Ocidental            
westus Oeste dos EUA      
westus2 OesteUS2      
westus3 OesteUS3      

Limites das APIs do Modelo de Fundação

Para informações detalhadas sobre APIs do Modelo Fundação, incluindo limites de recursos e carga útil para modelos de fundação e externos, consulte limites de taxa e quotas das APIs do Modelo Fundação.

Disponibilidade da região

Nota

Caso necessite de um endpoint numa região sem suporte, entre em contacto com a equipa de conta do Azure Databricks.

Se o espaço de trabalho for implantado em uma região que ofereça suporte ao serviço de modelo, mas seja servido por um plano de controle em uma região sem suporte, o espaço de trabalho não suportará o serviço de modelo. Se o utilizador tentar utilizar a disponibilização de modelos num tal espaço de trabalho, verá uma mensagem de erro indicando que esse espaço de trabalho não é suportado. Entre em contato com sua equipe de conta do Azure Databricks para obter mais informações.

Para obter mais informações sobre a disponibilidade regional de cada recurso de serviço de modelo, consulte Disponibilidade de recursos de serviço de modelo.

Para saber a disponibilidade da região do modelo de base hospedado pelo Databricks, consulte Modelos de base hospedados no Databricks.