Compartir a través de


Generación aumentada por recuperación (RAG) en Azure AI Search

La generación aumentada por recuperación (RAG) es un patrón que amplía las capacidades de LLM al basar las respuestas en tu contenido propietario. Aunque conceptualmente sencillas, las implementaciones de RAG se enfrentan a desafíos significativos.

Los desafíos de RAG

Desafío Description
Descripción de consultas Los usuarios modernos hacen preguntas complejas, conversacionales o vagas con el contexto asumido. Se produce un error en la búsqueda de palabras clave tradicional cuando las consultas no coinciden con la terminología del documento. Para RAG, un sistema de recuperación de información debe comprender la intención, no solo hacer coincidir palabras.
Acceso a datos de varios orígenes El contenido empresarial abarca SharePoint, bases de datos, almacenamiento de blobs y otras plataformas. La creación de un corpus de búsqueda unificado sin interrumpir las operaciones de datos es esencial.
Restricciones de token Los modelos LLM aceptan entradas de tokens limitadas. El sistema de recuperación debe devolver resultados altamente relevantes y concisos, no recopilar documentos exhaustivos.
Expectativas de tiempo de respuesta Los usuarios esperan respuestas basadas en inteligencia artificial en segundos, no minutos. El sistema de recuperación debe equilibrar la exhaustividad y la velocidad.
Seguridad y gobernanza La apertura del contenido privado en LAS VM requiere un control de acceso pormenorizado. Los usuarios y agentes solo deben recuperar contenido autorizado.

Cómo Azure AI Search cumple los desafíos de RAG

Azure AI Search proporciona dos enfoques diseñados específicamente para estos desafíos RAG.

  • Recuperación agencial (versión preliminar): una canalización RAG completa con planificación de consultas asistida por LLM, acceso a múltiples fuentes y respuestas estructuradas optimizadas para el consumo por parte de agentes.

  • Patrón RAG clásico: el enfoque probado mediante la búsqueda híbrida y la clasificación semántica, ideal para requisitos más sencillos o cuando se requieren características de disponibilidad general (GA).

En las secciones siguientes se explica cómo cada enfoque resuelve desafíos específicos de RAG.

Solución de desafíos de comprensión de consultas

El problema: Los usuarios preguntan "¿Cuál es nuestra directiva de PTO para trabajadores remotos contratados después de 2023?" pero los documentos dicen "tiempo de espera", "telecomunicaciones" y "contrataciones recientes".

Solución de recuperación agente:

  • LLM analiza la pregunta y genera varias subconsultas objetivo.
  • Descompone preguntas complejas en búsquedas centradas.
  • Usa el historial de conversaciones para comprender el contexto.
  • Ejecución en paralelo a través de fuentes de conocimiento.

Solución RAG clásica:

  • Las consultas híbridas combinan palabra clave y búsqueda de vectores para mejorar la recuperación.
  • Los resultados de la clasificación semántica se re-puntúan basándose en el significado, no solo en las palabras clave.
  • La búsqueda de similitud de vectores se enfoca en los conceptos, no en los términos exactos.

Obtenga más información sobre el planeamiento de consultas.

Solución de desafíos de datos de varios orígenes

El problema: Directivas de RR. HH. en SharePoint, ventajas en bases de datos, noticias de la empresa en páginas web: la creación de copias interrumpe las operaciones de gobernanza y datos rutinarios.

Solución de recuperación agente:

  • Las bases de conocimiento unifican varios orígenes de conocimiento.
  • Consulta directa en SharePoint remoto y Bing (sin necesidad de indexación) para complementar el contenido del índice.
  • Las instrucciones de recuperación guían el LLM a los orígenes de datos adecuados.
  • Generación automática de canalizaciones de indexación para Azure Blob, OneLake, contenido de SharePoint ingerido, y otro contenido externo ingerido.
  • Interfaz de consulta única y plan de consulta en todos los orígenes.

Solución RAG clásica:

  • Los indexadores extraen de más de 10 orígenes de datos de Azure.
  • Flujo de habilidades para fragmentación, vectorización, verbalización de imágenes y análisis.
  • La indexación incremental mantiene el contenido actualizado.
  • Controla lo que se indexa y cómo.

Obtenga más información sobre los orígenes de conocimiento.

Solución de desafíos de restricciones de token

El problema: GPT-4 acepta aproximadamente 128 000 tokens, pero tiene 10 000 páginas de documentación. El envío de todo desperdicia tokens y degrada la calidad.

Solución de recuperación agente:

  • Devuelve una respuesta estructurada con solo los fragmentos más relevantes.
  • El seguimiento de citas integrado muestra la procedencia
  • El registro de actividad de consulta explica lo que se ha buscado
  • La síntesis de respuesta opcional reduce aún más el uso del token.

Solución RAG clásica:

  • La clasificación semántica identifica los 50 resultados más relevantes
  • Límites de resultados configurables (top-k para vectores, top-n para texto) y umbrales mínimos
  • Los perfiles de puntuación mejoran el contenido crítico
  • La instrucción SELECT controla qué campos son devueltos

Obtenga más información sobre el ajuste de relevancia.

Solución de desafíos del tiempo de respuesta

El problema: Los usuarios esperan respuestas en 3 a 5 segundos, pero está consultando varios orígenes con un procesamiento complejo.

Solución de recuperación agente:

  • Ejecución de subconsulta paralela (no secuencial)
  • Esfuerzo de razonamiento ajustable (mínimo/bajo/medio)
  • Clasificación semántica pregenerada (sin orquestación adicional)

Solución RAG clásica:

  • Tiempos de respuesta de consulta en milisegundos
  • Las consultas de captura única reducen la complejidad
  • Controlas el tiempo de espera y la lógica de reintento
  • Arquitectura más sencilla con menos puntos de error

Solución de desafíos de seguridad

El problema: Los datos financieros solo deben ser accesibles para el equipo financiero, incluso cuando un ejecutivo pregunta el bot de chat.

Solución de recuperación agente:

  • Control de acceso al nivel de fuente de conocimiento
  • Hereda permisos de SharePoint para consultas en SharePoint remoto
  • Hereda los permisos de Microsoft Entra ID para el contenido indexado de Azure Storage.
  • Seguridad basada en filtros en el momento de la consulta para otros orígenes de datos
  • Aislamiento de red a través de puntos de conexión privados

Solución RAG clásica:

  • Recorte de seguridad de nivel de documento
  • Hereda los permisos de Microsoft Entra ID para el contenido indexado de Azure Storage.
  • Seguridad basada en filtros en el momento de la consulta para otros orígenes de datos
  • Aislamiento de red a través de puntos de conexión privados

Más información sobre la seguridad.

RAG moderno con recuperación agente

Azure AI Search es una solución comprobada para cargas de trabajo RAG. Ahora proporciona recuperación agéntica, un flujo de trabajo especializado diseñado específicamente para patrones RAG. Este enfoque usa LLM para desglosar de forma inteligente consultas complejas de usuarios en subconsultas centradas, las ejecuta en paralelo y devuelve respuestas estructuradas optimizadas para los modelos de finalización de chat.

La recuperación de agentes representa la evolución de los patrones RAG tradicionales de consulta única a la recuperación inteligente de varias consultas, lo que proporciona:

  • Planeamiento de consultas compatibles con contexto mediante el historial de conversaciones
  • Ejecución paralela de varias subconsultas específicas
  • Respuestas estructuradas con datos de base, citas y metadatos de ejecución
  • Clasificación semántica integrada para una relevancia óptima
  • Síntesis de respuesta opcional que usa una respuesta formulada por LLM en la respuesta de consulta

Necesita nuevos objetos para esta canalización: uno o varios fuentes de conocimiento, una base de conocimiento y la acción de búsqueda que se invoca desde el código de la aplicación, como una herramienta que interactúa con su agente de IA.

Para las nuevas implementaciones RAG, comience con la recuperación de agentes. En el caso de las soluciones existentes, considere la posibilidad de migrar para aprovechar la mejora de la precisión y la comprensión del contexto.

RAG clásico usa la arquitectura de ejecución de consultas original en la que la aplicación envía una sola consulta a Azure AI Search y organiza la entrega a un LLM por separado. El LLM implementado formula una respuesta utilizando el conjunto de resultados aplanado de la consulta. Este enfoque es más sencillo con menos componentes y más rápido, ya que no hay ninguna implicación de LLM en el planeamiento de consultas.

Para obtener información detallada sobre la implementación de RAG clásico, consulte el repositorio azure-search-classic-rag.

Preparación del contenido para RAG

La calidad de RAG depende de cómo prepare el contenido para su recuperación. Azure AI Search soporta:

Desafío de contenido Cómo ayuda Azure AI Search
Documentos grandes Fragmentación automática (integrada o mediante habilidades)
Varios idiomas Más de 50 analizadores de idioma para texto, vectores multilingües
Imágenes y ARCHIVOS PDF OCR, análisis de imágenes, verbalización de imágenes, aptitudes de extracción de documentos
Necesidad de búsqueda de similitud Vectorización integrada (Azure OpenAI, Azure Vision in Foundry Tools, personalizado)
Desajustes de terminología Mapas de sinónimos, clasificación semántica

Para la recuperación agentica: Utilice orígenes de conocimiento que generen automáticamente canalizaciones de fragmentación y vectorización.

Para RAG clásico: Use indexadores y conjuntos de aptitudes para crear canalizaciones personalizadas o insertar contenido procesado previamente a través de la API de inserción.

Maximizar la relevancia y la recuperación

¿Cómo proporciona los mejores datos de base para la formulación de respuestas del LLM? Se trata de una combinación de tener contenido adecuado, consultas inteligentes y lógica de consulta que puede identificar los mejores fragmentos para responder a una pregunta.

Durante la indexación, use la fragmentación para subdividir documentos grandes para que las partes se puedan comparar de forma independiente. Incluya un paso de vectorización para crear incrustaciones usadas para las consultas vectoriales.

En el lado de la consulta, para garantizar los resultados más relevantes para la implementación de RAG:

  • Utiliza consultas híbridas que combinen palabra clave (no vector) y búsqueda de vectores para obtener la recuperación máxima de datos. En una consulta híbrida, si se duplica en la misma entrada, una cadena de texto y su equivalente vectorial generan consultas paralelas para palabras clave y búsqueda de similitud, devolviendo las coincidencias más relevantes de cada tipo de consulta en un conjunto de resultados unificado.

  • Use la clasificación semántica, integrada en la recuperación agentiva, opcional para RAG clásico.

  • Aplicar perfiles de puntuación para aumentar los campos o criterios específicos.

  • Ajuste los parámetros de consulta vectorial para la ponderación de vectores y los umbrales mínimos.

Para obtener más información, consulte búsqueda híbrida y clasificación semántica.

Elegir entre recuperación agéntica y RAG clásico

Use la recuperación de agentes cuando:

  • El cliente es un agente o bot de chat.
  • Necesita la mayor relevancia y precisión posibles.
  • Las consultas son complejas o conversacionales.
  • Desea respuestas estructuradas con citas y detalles de consulta.
  • Vas a crear nuevas implementaciones de RAG.

Usa RAG clásico cuando:

  • Solo necesita funcionalidades generalmente disponibles (GA).
  • La simplicidad y la velocidad son prioridades sobre la relevancia avanzada.
  • Tiene código de orquestación existente que desea conservar.
  • Necesitas un control detallado sobre la canalización de consulta.

Una solución RAG que incluye agentes y Azure AI Search puede beneficiarse de Foundry IQ, como punto de conexión único de un agente a una capa de conocimiento que proporciona datos de base. Foundry IQ usa la recuperación agentica.

Obtenga más información sobre la búsqueda clásica, la recuperación agente y cómo se comparan.

Introducción

Hay muchas maneras de empezar, incluidas las soluciones basadas en código y las demostraciones.