Partilhar via


Inferência em lote distribuída de LLM

Importante

Este recurso está em versão Beta. Os administradores do espaço de trabalho podem controlar o acesso a esse recurso na página Visualizações . Consulte Gerenciar visualizações do Azure Databricks.

Esta página fornece exemplos de cadernos para inferência em lote de LLM usando a Ray Data, uma biblioteca escalável de processamento de dados para cargas de trabalho de IA, em computação de GPU serverless.

Tutorial Descrição
Inferência em lote usando vLLM com Dados de Raios Este notebook demonstra como executar uma inferência LLM em escala usando Ray Data e vLLM em GPU serverless. Aproveita a API distribuída de GPU serverless para provisionar e gerir automaticamente GPUs A10 com vários nós para inferência distribuída.
Inferência em lote usando SGLang com Dados de Raios SGLang é uma estrutura de serviço de alto desempenho para LLMs. Este portátil demonstra como executar inferência em lote de LLM usando SGLang e Ray Data em GPU serverless Databricks.