Elige métodos de evaluación

[Este artículo es documentación preliminar y está sujeto a modificaciones].

Cuando crees conjuntos de prueba, elige entre diferentes métodos de prueba para evaluar las respuestas de tu agente. Cada método de prueba tiene sus propias fortalezas y se adapta a diferentes tipos de evaluaciones.

Método de prueba	Medidas	Puntuaciones	Configurations
Calidad general	¿Qué tan buena es la respuesta del caso de prueba basada en cualidades específicas	Puntuado sobre un 100%	Ninguno
Comparar significado	Qué tan bien el significado de la respuesta del caso de prueba coincide con la respuesta esperada	Puntuado sobre un 100%	Puntuación de aprobado, respuesta esperada
Uso de herramientas	Si el caso de prueba utilizó los recursos esperados	Aprobado/suspendido	Capacidades esperadas
Coincidencia de palabras clave	Si el caso de prueba utilizó todas o alguna de las palabras clave o frases esperadas	Aprobado/suspendido	Palabras clave o frases esperadas
Similitud de texto	Qué tan bien coincide el texto de la respuesta en el caso de prueba con la respuesta esperada	Puntuado sobre un 100%	Puntuación de aprobado, respuesta esperada
Coincidencia exacta	Si la respuesta del caso de prueba coincide exactamente con la esperada	Aprobado/suspendido	Respuesta esperada
Personalizada	Etiqueta las respuestas según los criterios que describes	Aprobado/suspendido	Descripción de la prueba y descripciones de etiquetas

Adición de un método de prueba

Al crear o editar un conjunto de pruebas, selecciona Añadir método de prueba.
Selecciona todos los métodos con los que quieres probar y luego selecciona OK. Puedes añadir varios métodos.
1. Algunos métodos requieren una puntuación de aprobación. La nota de aprobado determina la calificación que resulta en un aprobado o un suspenso. Establece la puntuación y luego selecciona OK.
2. Algunos métodos de prueba requieren más criterios.
Selecciona Guardar para guardar tus cambios en el conjunto de pruebas.

Selecciona un método de prueba existente para editar los criterios de ese método o elimínalo.

Calidad general

La calidad general te ayuda a decidir si las respuestas de tu agente cumplen con tus estándares. Utiliza un modelo de lenguaje para evaluar la eficacia con la que un agente responde a las preguntas de los usuarios.

La calidad general es especialmente útil cuando no se espera una respuesta exacta. Ofrece una forma flexible y escalable de evaluar las respuestas en función de los documentos recuperados y el flujo de la conversación.

Utiliza estos criterios clave y aplica una consigna consistente para guiar la puntuación:

Relevancia: en qué medida la respuesta del agente aborda la pregunta. Por ejemplo, ¿la respuesta del agente permanece en el asunto y responde directamente a la pregunta?
Base: en qué medida la respuesta del agente se basa en el contexto proporcionado. Por ejemplo, ¿la referencia de respuesta del agente o se basa en la información especificada en el contexto, en lugar de introducir información no relacionada o no admitida?
Integridad: en qué medida la respuesta del agente proporciona toda la información necesaria. Por ejemplo, ¿la respuesta del agente cubre todos los aspectos de la pregunta y proporciona detalles suficientes?
Abstención: indica si el agente intentó responder a la pregunta.

Para ser considerada de alta calidad, una respuesta debe cumplir todos estos criterios clave. Si no se cumple un criterio, se señala la respuesta para mejora. Este método de puntuación garantiza que solo las respuestas que sean completas y bien admitidas reciban las marcas principales. Por el contrario, las respuestas que están incompletas o que carecen de pruebas complementarias reciben puntuaciones más bajas.

Al añadir o editar métodos de prueba, selecciona Calidad General. Todos los conjuntos de prueba comienzan con este método por defecto.

No necesitas añadir respuestas esperadas a casos de prueba para completar una evaluación general de calidad.

Comparar significado

Comparar significado evalúa la manera en que la respuesta del agente refleja el significado previsto de la respuesta esperada. En lugar de centrarse en la redacción exacta, utiliza la similitud de intención, es decir, compara las ideas y el significado detrás de las palabras para juzgar hasta qué punto la respuesta se alinea con lo que esperabas.

Al igual que la calidad general, comparar el significado es especialmente útil cuando no se espera una respuesta exacta. Ofrece una forma flexible y escalable de evaluar las respuestas en función de los documentos recuperados y el flujo de la conversación.

Puede establecer un umbral de puntuación de aprobación para determinar qué constituye una puntuación de aprobación para una respuesta. La puntuación de aprobación predeterminada es 50. El método de prueba de comparación de significado es útil cuando una respuesta se puede expresar de diferentes maneras correctas, pero el significado general o la intención todavía deben pasar.

Al añadir o editar métodos de prueba, selecciona Comparar significado.
Establece la puntuación de aprobado para este método.
Añade las respuestas esperadas. Cualquier caso de prueba sin respuestas esperadas genera un resultado no válido para este método de prueba.
1. Selecciona un caso de prueba.
2. Añade la respuesta que esperes.
3. Selecciona Solicitar para guardar la respuesta esperada.
4. Repite para todos los casos de prueba que quieras probar usando este método.

Uso de herramientas

El uso de herramientas verifica si el agente ha activado herramientas o temas específicos durante el proceso de ejecución. Si es así, el resultado se marca como "Pass". Si no lo hizo, el resultado se marca como Error.

Al agregar o editar métodos de prueba, seleccione Uso de herramientas.
Añade las herramientas o temas esperados. Cualquier caso de prueba sin respuestas esperadas genera un resultado no válido para este método de prueba.
1. Selecciona un caso de prueba. Para agregar las mismas herramientas y temas esperados para todos los casos de prueba, seleccione el icono Editar en el encabezado de columna Uso de la herramienta.
2. En el panel Editar caso de prueba , seleccione las herramientas que espera que use el agente para ese caso de prueba.
3. Selecciona Aceptar.
4. Seleccione Aplicar para guardar los cambios.
5. Repita este proceso para todos los casos de prueba que quiera probar para usar las herramientas.

Coincidencia de palabras clave

La coincidencia de palabras clave comprueba si la respuesta del agente contiene algunas o todas las palabras o frases de la respuesta esperada que defina. Si lo hace, pasa. Si no es así, se produce un error. La coincidencia de palabras clave es útil cuando una respuesta puede formularse correctamente de diferentes maneras, pero los términos clave o ideas aún deben incluirse en la respuesta.

Puedes elegir si un pase requiere alguna de las palabras clave o todas . Elegir Cualquiera significa que si al menos una palabra o frase coincide, el caso de prueba se considera aprobado. Elegir Todo significa que todas las palabras o frases esperadas deben coincidir para que un caso de prueba sea aprobado.

Al añadir o editar métodos de prueba, selecciona Coincidencia de palabras clave.
Selecciona si un caso de prueba necesita que coincidan con Alguna o Todas las palabras clave.
Añade las palabras clave esperadas. Cualquier caso de prueba sin palabras clave esperadas genera un resultado no válido para este método de prueba.
1. Selecciona un caso de prueba.
2. En el panel Editar caso de prueba , agregue una palabra clave o frase que espera que tenga la respuesta de ese caso.
3. Seleccione + Agregar para agregar más palabras clave o frases. Para quitar una palabra clave o frase, seleccione el icono Eliminar .
4. Selecciona Aplicar para guardar las palabras clave esperadas.
5. Repite para todos los casos de prueba que quieras comprobar para la coincidencia de palabras clave.

Similitud de texto

El método de la prueba de similitud compara la similitud de las respuestas del agente con las respuestas esperadas que defines en tu conjunto de pruebas. Es útil cuando una respuesta se puede expresar de diferentes maneras correctas, pero el significado general o la intención todavía deben pasar.

Usa una métrica de similitud de coseno para evaluar cuán similar es la respuesta del agente en cuanto a la formulación y el significado con la respuesta esperada, y determina una puntuación. La puntuación oscila entre 0 y 1, donde 1 indica que la respuesta coincide estrechamente y 0 indica que no lo hace. Puede establecer un umbral de puntuación de aprobación para determinar qué constituye una puntuación de aprobación para una respuesta.

Al añadir o editar métodos de prueba, selecciona Similitud de texto.
Establece la puntuación de aprobado para este método.
Añade las respuestas esperadas. Cualquier caso de prueba sin respuestas esperadas genera un resultado no válido para este método de prueba.
1. Selecciona un caso de prueba.
2. Añade la respuesta que esperes.
3. Selecciona Solicitar para guardar la respuesta esperada.
4. Repite para todos los casos de prueba que quieras probar usando este método.

Coincidencia exacta

Coincidencia exacta comprueba si la respuesta del agente coincide exactamente con la respuesta esperada en la prueba: carácter para carácter, palabra para palabra. Si es lo mismo, pasa. Si algo difiere, se produce un error. La coincidencia exacta es útil para respuestas cortas y precisas, como números, códigos o frases fijas. No se adapta a las respuestas que las personas pueden expresar de varias maneras correctas.

Al añadir o editar métodos de prueba, selecciona Coincidencia exacta.
Añade las respuestas esperadas. Cualquier caso de prueba sin respuestas esperadas genera un resultado no válido para este método de prueba.
1. Selecciona un caso de prueba.
2. Añade la respuesta que esperes.
3. Selecciona Solicitar para guardar la respuesta esperada.
4. Repite para todos los casos de prueba que quieras probar usando este método.

Personalizada

Custom es un método de prueba personalizable. Permite probar y etiquetar las respuestas del agente mediante sus propios criterios. Por ejemplo, puede crear una prueba de cumplimiento para que un agente de RR. HH. etiquete las respuestas de prueba como conformes o no conformes con la descripción del cumplimiento de rr. HH.

Una prueba personalizada tiene dos componentes para configurar:

Instrucciones de evaluación: describe el objetivo que desea lograr con esta prueba. ¿Qué quiere que la prueba descubra sobre las respuestas de su agente?

Las buenas instrucciones de evaluación deben:

Sea orientado a objetivos.
Use solo los caracteres permitidos.
Use puntos de viñeta y encabezados para organizar.

Por ejemplo:

Evaluate the agent's response for HR policy compliance.

What to check:
- Determine whether the answer protects privacy and avoids revealing or requesting sensitive data.
- Avoids discrimination, bias, or inappropriate judgments.
- Provides safe, neutral, HR-aligned guidance.
- Does not give legal advice or make definitive claims.

Etiquetas: describe el resultado asignado a cada respuesta mediante la prueba personalizada. Las etiquetas también tienen asignaciones de aprobado/reprobado, las cuales se incluyen en el cálculo de la tasa de aprobación del conjunto de pruebas para este método de prueba.

Las etiquetas tienen un nombre y una descripción. Una buena descripción:

Es conciso.
Contiene los atributos que busca en las respuestas coincidentes.

Una estrategia para las etiquetas es tener dos: una para las respuestas que satisfacen con éxito los criterios que busca, y la otra para las respuestas que no lo hacen. Por ejemplo, una prueba personalizada de cumplimiento de políticas de RR. HH. podría tener Cumpliente y No Cumpliente como etiquetas.

Al agregar o editar métodos de prueba, seleccione Personalizado.
Escriba un nombre para esta prueba personalizada.
Agregue instrucciones de evaluación.
Agregue dos o más etiquetas. Cada etiqueta tiene un nombre y una descripción.

Para agregar más etiquetas, seleccione Agregar etiqueta.

Los títulos de etiqueta solo pueden usar letras, números, espacio, guion , subrayado , barra diagonal , ampersand , signo más signo y punto .
Establezca el resultado Aprobado o Reprobado para cada etiqueta.
Selecciona Aceptar.

Comentarios

¿Le ha resultado útil esta página?

Last updated on 2026-03-05