Compartilhar via


Inferência em lote distribuída de LLM

Importante

Esse recurso está em Beta. Os administradores do workspace podem controlar o acesso a esse recurso na página Visualizações . Consulte Gerenciar visualizações do Azure Databricks.

Esta página fornece exemplos de notebook para inferência em lote llm usando o Ray Data, uma biblioteca de processamento de dados escalonável para cargas de trabalho de IA, na computação de GPU sem servidor.

Tutorial Descrição
Inferência em lote usando vLLM com Dados do Ray Este notebook demonstra como executar a inferência de LLM em escala usando o Ray Data e a vLLM na GPU sem servidor. Ele aproveita a API de GPU sem servidor distribuída para provisionar e gerenciar automaticamente GPUs A10 de vários nós para inferência distribuída.
Inferência em batch usando SGLang com Ray Data O SGLang é uma estrutura de serviço de alto desempenho para LLMs. Este notebook demonstra como executar a inferência em lote LLM usando SGLang e Ray Data na GPU sem servidor do Databricks.