Nota
O acesso a esta página requer autorização. Pode tentar iniciar sessão ou alterar os diretórios.
O acesso a esta página requer autorização. Pode tentar alterar os diretórios.
Importante
Este recurso está em versão Beta. Os administradores do espaço de trabalho podem controlar o acesso a esse recurso na página Visualizações . Consulte Gerenciar visualizações do Azure Databricks.
Esta página fornece exemplos de cadernos para inferência em lote de LLM usando a Ray Data, uma biblioteca escalável de processamento de dados para cargas de trabalho de IA, em computação de GPU serverless.
| Tutorial | Descrição |
|---|---|
| Inferência em lote usando vLLM com Dados de Raios | Este notebook demonstra como executar uma inferência LLM em escala usando Ray Data e vLLM em GPU serverless. Aproveita a API distribuída de GPU serverless para provisionar e gerir automaticamente GPUs A10 com vários nós para inferência distribuída. |
| Inferência em lote usando SGLang com Dados de Raios | SGLang é uma estrutura de serviço de alto desempenho para LLMs. Este portátil demonstra como executar inferência em lote de LLM usando SGLang e Ray Data em GPU serverless Databricks. |