Supervisa los modelos servidos mediante tablas de inferencia habilitadas para AI Gateway

Importante

Está disponible una nueva experiencia de AI Gateway en beta. La nueva pasarela de IA es el plano de control corporativo para gobernar los puntos de conexión LLM y los agentes de programación con características mejoradas. Consulte AI Gateway (Beta) (Puerta de enlace de IA [beta]).

Importante

La experiencia de la antigua tabla de inferencia para los puntos de conexión de servicio de modelos personalizados se discontinuará pronto. Consulte Migración a tablas de inferencia de la pasarela de IA.

En este artículo se describen las tablas de inferencia habilitadas por la pasarela de IA para supervisar los modelos servidos. La tabla de inferencia captura automáticamente las solicitudes entrantes y las respuestas salientes para un punto de conexión y las registra como una tabla de Unity Catalog Delta. Puede usar los datos de esta tabla para supervisar, evaluar, comparar y ajustar modelos de aprendizaje automático.

¿Qué son las tablas de inferencia habilitadas por la puerta de enlace de IA?

Las tablas de inferencia habilitadas para AI Gateway simplifican la supervisión y el diagnóstico de los modelos registrando continuamente las entradas y respuestas de solicitud (predicciones) de los puntos de conexión de Servicio del modelo de IA de Mosaic y guardándolos en una tabla Delta en Unity Catalog. Después, puede usar todas las funcionalidades de la plataforma de Databricks, como consultas y cuadernos SQL de Databricks para supervisar, depurar y optimizar los modelos.

Puede habilitar las tablas de inferencia en un punto de conexión existente o recién creado y las solicitudes a ese punto de conexión se registran automáticamente en una tabla en el Unity Catalog.

Algunas aplicaciones comunes para las tablas de inferencia son las siguientes:

Cree un corpus de entrenamiento. Al unir tablas de inferencia con etiquetas de verdad básica, puede crear un corpus de entrenamiento que puede usar para volver a entrenar o ajustar y mejorar el modelo. Con los trabajos de Lakeflow, puede configurar un bucle continuo de retroalimentación y automatizar el reentrenamiento.
Supervisar la calidad de los datos y del modelo. Puede supervisar continuamente el rendimiento del modelo y el desfase de datos mediante la generación de perfiles de datos, que genera automáticamente paneles de calidad de datos y modelos que puede compartir con las partes interesadas. Además, puede habilitar las alertas para saber cuándo necesita volver a entrenar el modelo en función de los cambios en los datos entrantes o las reducciones en el rendimiento del modelo.
Depuración de problemas de producción. Las tablas de inferencia registran datos como códigos de estado HTTP, código JSON de solicitud y respuesta, tiempos de ejecución del modelo y salida de seguimientos durante los tiempos de ejecución del modelo. Puede usar estos datos de rendimiento con fines de depuración. También puede usar las tablas de inferencia de datos históricos para comparar el rendimiento del modelo en las solicitudes históricas.
Supervise los agentes de IA implementados. Las tablas de inferencia también pueden almacenar seguimientos de MLflow para agentes de IA que le ayudan a depurar problemas y supervisar el rendimiento.

Requisitos

Las tablas de inferencia habilitadas para la puerta de enlace de AI se admiten para los puntos de conexión que atienden a cualquiera de las siguientes opciones:
- Carga de trabajo de rendimiento aprovisionado
- Modelo de pago por token
- Modelos externos
- Agente de IA implementado
- Modelos personalizados
Un área de trabajo de Databricks en una región en la que se admite el modelo de servicio. Consulte Disponibilidad de características de servicio de modelos.
El proceso sin servidor debe habilitarse en el área de trabajo.
En el caso de las áreas de trabajo que tienen conectividad privada configurada en la cuenta de almacenamiento del catálogo de Unity, siga los pasos descritos en Configuración de la conectividad privada a los recursos de Azure.
Databricks recomienda habilitar la optimización predictiva para optimizar el rendimiento de las tablas de inferencia.

Su área de trabajo debe estar habilitada para Unity Catalog.
Tanto el creador del punto de conexión como el modificador deben tener el permiso Puede administrar en el punto de conexión. Consulte las Listas de control de acceso.
Tanto el creador del punto de conexión como el modificador deben tener los permisos siguientes en Unity Catalog:
- Permisos USE CATALOG en el catálogo especificado.
- USE SCHEMA permisos en el esquema especificado.
- Permisos CREATE TABLE en el esquema.
El catálogo no puede ser un catálogo Delta Sharing en el metastore actual.

Nota:

No se admite la especificación de una tabla existente. Azure Databricks crea automáticamente una nueva tabla de inferencia al crear un punto de conexión o actualizar la configuración de ai Gateway con la configuración de la tabla de inferencia habilitada.

Advertencia

La tabla de inferencia podría detener el registro de datos o dañarse si realiza alguna de las acciones siguientes:

Se cambia el esquema de la tabla.
Cambie el nombre de la tabla.
Se elimina la tabla.

Habilitación y deshabilitación de tablas de inferencia

En esta sección se muestra cómo habilitar o deshabilitar tablas de inferencia mediante la interfaz de usuario de servicio. El propietario de las tablas de inferencia es el usuario que ha habilitado la tabla de inferencia. Todas las listas de control de acceso (ACL) de la tabla siguen los permisos estándar de Unity Catalog y el propietario de la tabla puede modificarlos.

Para habilitar tablas de inferencia durante la creación de puntos de conexión, siga estos pasos:

Haga clic en Servir en la interfaz de usuario de Databricks Mosaic AI.
Haga clic en Crear punto de conexión de servicio.
En la sección AI Gateway, seleccione Habilitar tablas de inferencia.

También puede habilitar tablas de inferencia en un punto de conexión existente. Para editar una configuración de punto de conexión existente, haga lo siguiente:

En la sección AI Gateway, haz clic en Editar AI Gateway.
Seleccione Habilitar tablas de inferencia.

Siga estas instrucciones para deshabilitar las tablas de inferencia:

Ve a la página del punto de conexión.
Haga clic en Editar AI Gateway.
Haga clic en Habilitar tabla de inferencia para quitar la marca de verificación.
Una vez que esté satisfecho con las especificaciones de AI Gateway, haga clic en Actualizar.

Habilitación de tablas de inferencia para agentes de IA

También puede habilitar tablas de inferencia para agentes de IA implementados, estas tablas de inferencia almacenan la carga y los detalles de la solicitud, así como los registros de seguimiento de MLflow.

Habilite las tablas de inferencia para los agentes de IA mediante los métodos siguientes:

Los agentes implementados mediante la mlflow.deploy() API tienen las tablas de inferencia habilitadas automáticamente. Consulte Implementación de un agente para aplicaciones de IA generativas (Servicio de modelos).
Para las implementaciones mediante programación, establezca la variable ENABLE_MLFLOW_TRACING de entorno True en la configuración del punto de conexión. Consulte Adición de variables de entorno de texto sin formato.

Para más información sobre el seguimiento del agente de MLflow, consulte Seguimiento de MLflow: observabilidad de GenAI.

Consulta y análisis de resultados en la tabla de inferencia

Una vez que los modelos servidos estén listos, todas las solicitudes realizadas a los modelos se registran automáticamente en la tabla de inferencia, junto con las respuestas. Puede ver la tabla en la interfaz de usuario, consultar la tabla desde Databricks SQL o un cuaderno, o consultar la tabla mediante la API REST.

Para ver la tabla en la interfaz de usuario: en la página del punto de conexión, haga clic en el nombre de la tabla de inferencia para abrir la tabla en el Explorador de catálogos.

vínculo al nombre de la tabla de inferencia en la página del punto de conexión

Para consultar la tabla desde Databricks SQL o un cuaderno de Databricks: puede ejecutar código similar al siguiente para consultar la tabla de inferencia.

SELECT * FROM <catalog>.<schema>.<payload_table>

Para unir los datos de la tabla de inferencia con detalles sobre el modelo de base subyacente servido en el punto de conexión: Los detalles de Foundation model se capturan en la tabla del sistema system.serving.served_entities.

SELECT * FROM <catalog>.<schema>.<payload_table> payload
JOIN system.serving.served_entities se on payload.served_entity_id = se.served_entity_id

Esquema de tabla de inferencia habilitada para AI Gateway

Las tablas de inferencia habilitadas mediante AI Gateway tienen el esquema siguiente:

Nombre de la columna	Descripción	Tipo
`request_date`	Fecha UTC en la que se recibió la solicitud para ejecutar el modelo.	FECHA
`databricks_request_id`	Identificador de solicitud generado por Azure Databricks adjunto a todas las solicitudes de servicio del modelo.	CADENA
`client_request_id`	Identificador de solicitud proporcionado por el usuario que se puede especificar en el cuerpo de la solicitud de servicio del modelo.	CADENA
`request_time`	Marca de tiempo en la que se recibe la solicitud.	TIMESTAMP
`status_code`	El código de estado HTTP que se devolvió desde el modelo.	INT
`sampling_fraction`	La fracción de muestreo usada en caso de que la solicitud se muestree de forma descendente. Este valor está comprendido entre 0 y 1, donde 1 representa que se incluyeron el 100 % de las solicitudes entrantes.	DOUBLE
`execution_duration_ms`	Tiempo en milisegundos para el que el modelo realizó la inferencia. Esto no incluye latencias de red de sobrecarga y solo representa el tiempo necesario para que el modelo genere predicciones.	BIGINT
`request`	Cuerpo JSON de solicitud sin procesar que se envió al punto de conexión de servicio del modelo.	CADENA
`response`	Cuerpo JSON de solicitud sin procesar que se envió al punto de conexión de servicio del modelo.	CADENA
`served_entity_id`	Identificador único de la entidad atendida.	CADENA
`logging_error_codes`	Errores que se produjeron cuando no se pudieron registrar los datos. Los códigos de error incluyen `MAX_REQUEST_SIZE_EXCEEDED` y `MAX_RESPONSE_SIZE_EXCEEDED`.	MATRIZ
`requester`	Identificador del usuario o principal de servicio cuyos permisos se utilizan para la solicitud de invocación del punto de servicio. Este campo devuelve `NULL` para los puntos de conexión del modelo personalizado optimizados para rutas.	CADENA

Esquemas de tabla de inferencia del agente de IA

Advertencia

Los registros de solicitud y los registros de evaluación están en desuso y se quitarán en una versión futura. Consulte los registros de peticiones y la desaprobación de los registros de evaluación para obtener instrucciones de migración.

En el caso de los agentes de IA, Databricks crea tres tablas de inferencia para cada implementación para registrar solicitudes y respuestas hacia y desde el punto de conexión de servicio del modelo:

Tabla de inferencia	Ejemplo de nombre de tabla de Azure Databricks	Contenido de la tabla
Carga	`{catalog_name}.{schema_name}.{model_name}_payload`	Cargas de respuesta y solicitud JSON sin formato
Registros de solicitudes de carga	`{catalog_name}.{schema_name}.{model_name}_payload_request_logs`	Solicitudes y respuestas formateadas, seguimientos de MLflow
Registros de evaluación de carga	`{catalog_name}.{schema_name}.{model_name}_payload_assessment_logs`	Comentarios con formato, tal como se proporciona en la aplicación de revisión, para cada solicitud

Los usuarios pueden esperar los datos de las tablas de carga en un plazo de una hora después de interactuar con el punto de conexión de servicio. Los registros de solicitudes de carga y los registros de evaluación pueden tardar más tiempo en rellenarse y se derivan de la tabla de carga sin procesar. Puede extraer los registros de solicitud y evaluación de la tabla de carga usted mismo. Las eliminaciones y actualizaciones de la tabla de carga no se reflejan en los registros de solicitudes de carga o en los registros de evaluaciones de carga.

Nota:

Si tiene habilitado el Firewall de Azure Storage, debería ponerse en contacto con el equipo de su cuenta de Databricks para habilitar las tablas de inferencia para sus puntos de conexión.

A continuación se muestra el esquema de la tabla de registros de solicitudes de carga:

Nombre de la columna	Descripción	Tipo
`databricks_request_id`	Identificador de solicitud generado por Azure Databricks adjunto a todas las solicitudes de servicio del modelo.	CADENA
`client_request_id`	Identificador de solicitud generado por el cliente opcional que se puede especificar en el cuerpo de la solicitud de servicio del modelo.	CADENA
`date`	Fecha UTC en la que se recibió la solicitud para ejecutar el modelo.	FECHA
`timestamp_ms`	La marca de tiempo en milisegundos en que se recibió la solicitud de servicio de modelo.	LONG
`timestamp`	Marca de tiempo de la solicitud.	TIMESTAMP
`status_code`	El código de estado HTTP que se devolvió desde el modelo.	INT
`sampling_fraction`	La fracción de muestreo usada en caso de que la solicitud se muestree de forma descendente. Este valor está comprendido entre 0 y 1, donde 1 representa que se incluyeron el 100 % de las solicitudes entrantes.	DOUBLE
`execution_time_ms`	Tiempo de ejecución en milisegundos para los que el modelo realizó la inferencia. Esto no incluye latencias de red de sobrecarga y solo representa el tiempo necesario para que el modelo genere predicciones.	LONG
`conversation_id`	Identificador de conversación extraído de los registros de solicitudes.	CADENA
`request`	La última consulta de usuario de la conversación del usuario.	CADENA
`response`	Última respuesta al usuario.	CADENA
`request_raw`	Representación en cadena de la solicitud.	CADENA
`response_raw`	Representación de cadena de la respuesta.	CADENA
`trace`	Representación de cadena de seguimiento extraída `databricks_options` de la estructura de respuesta.	CADENA
`request_metadata`	Mapa de metadatos relacionados con el punto de conexión de servicio del modelo asociado a la solicitud. Este mapa contiene el nombre del punto de conexión, el nombre del modelo y la versión del modelo que se usa para el punto de conexión.	MAP<STRING, STRING>
`schema_version`	La versión del esquema.	CADENA

A continuación se muestra el esquema de la tabla de registros de evaluación de carga:

Nombre de la columna	Descripción	Tipo
`request_id`	Identificador de solicitud de Databricks.	CADENA
`step_id`	Identificador del paso, derivado de la evaluación de recuperación.	CADENA
`source`	Campo de estructura que contiene la información sobre quién creó la evaluación.	ESTRUCTURA
`timestamp`	Marca de tiempo de la solicitud.	TIMESTAMP
`text_assessment`	Los datos de los datos de los comentarios sobre las respuestas del agente de la aplicación de revisión.	CADENA
`retrieval_assessment`	Los datos de los comentarios sobre los documentos recuperados para una respuesta.	CADENA

Limitaciones

Cargas de trabajo de rendimiento aprovisionada:
- Si crea un modelo de puntos de conexión de servicio que utiliza rendimiento aprovisionado, solo se admiten tablas de inferencia habilitadas para AI Gateway.
- Si tiene un punto de conexión de servicio de modelo existente que usa el rendimiento aprovisionado y no tiene tablas de inferencia configuradas, puede actualizarlo para usar tablas de inferencia habilitadas con AI Gateway.
- Si tiene un punto de conexión de servicio de modelo existente que usa el rendimiento aprovisionado y tiene configuradas tablas de inferencia heredadas, debe deshabilitar la tabla de inferencia heredada para poder actualizar el punto de conexión para usar tablas de inferencia habilitadas para la puerta de enlace de AI.
- Una vez habilitadas las tablas de inferencia habilitadas para la puerta de enlace de IA, no puede cambiar a tablas de inferencia heredadas.
- Para los registros de respuesta del agente de IA en streaming, solo se agregan los campos y trazados compatibles con ChatCompletion.
Cargas de trabajo del modelo personalizado:
- Si crea un nuevo modelo de puntos de conexión de servicio que sirve un modelo personalizado, Databricks recomienda usar tablas de inferencia con la puerta de enlace de IA habilitada. Si se requiere la funcionalidad de la tabla de inferencia heredada, solamente puede configurar su nuevo punto de conexión para el AI Gateway mediante la API REST.
- Si tiene un punto de conexión de servicio de modelo existente que sirve un modelo personalizado y no tiene tablas de inferencia configuradas, puede actualizarlo para usar tablas de inferencia habilitadas para la puerta de enlace de AI.
- Si tiene un punto de conexión de servicio de modelo existente que sirve un modelo personalizado y tiene configuradas tablas de inferencia heredadas, debe deshabilitar la tabla de inferencia heredada para poder actualizar el punto de conexión para usar tablas de inferencia habilitadas para la puerta de enlace de IA.
- Una vez habilitadas las tablas de inferencia habilitadas para la puerta de enlace de IA, no puede cambiar a tablas de inferencia heredadas.

La entrega de registros de tablas de inferencia para los puntos de conexión de modelo de servicio que sirven a cargas de trabajo de API de Foundation Model, modelos externos o agentes es actualmente la mejor opción. Puede esperar que los registros estén disponibles en un plazo de 1 hora a partir de una solicitud. Póngase en contacto con el equipo de la cuenta de Databricks para obtener más información.
El tamaño máximo de solicitud, respuesta y seguimiento registrado es 1 MiB (1048 576 bytes). Las cargas que superen esto se registran como null y logging_error_codes se rellenan con MAX_REQUEST_SIZE_EXCEEDED o MAX_RESPONSE_SIZE_EXCEEDED.
Las tablas de inferencia para modelos optimizados para rutas que dan servicio a puntos de conexión se encuentran en Vista previa pública.
No se garantiza que los registros de la tabla de inferencia se rellenen si el punto de servicio del modelo devuelve un error.
- En el caso de los puntos de conexión de modelo personalizados, es posible que los registros no se registren para errores 4xx o 5xx.
- Para otros puntos de conexión, es posible que los registros no se registren para errores 401, 403, 429 o 500.

Para conocer las limitaciones específicas de AI Gateway, consulte Limitaciones. Para conocer las limitaciones generales del modelo de puntos de conexión de servicio, consulta Límites y regiones del Modelo de servicio.

Comentarios

¿Le ha resultado útil esta página?

Last updated on 2026-02-12