Escolha métodos de avaliação

[Este artigo é uma documentação de pré-lançamento e está sujeito a alterações.]

Quando criar conjuntos de teste, escolha entre diferentes métodos de teste para avaliar as respostas do seu agente. Cada método de teste tem os seus próprios pontos fortes e adequa-se a diferentes tipos de avaliações.

Método de ensaio	Medidas	Classificação	Configurações
Qualidade geral	Quão boa é a resposta do caso de teste com base em qualidades específicas	Classificação de um total de 100%	Nenhum
Comparar significado	Quão bem o significado da resposta do caso de teste corresponde à resposta esperada	Classificação de um total de 100%	Pontuação de aprovação, resposta esperada
Utilização da ferramenta	Se o caso de teste utilizou os recursos esperados	Aprovado/reprovado	Capacidades esperadas
Combinação de palavras-chave	Se o caso de teste utilizou todas ou algumas das palavras-chave ou frases esperadas	Aprovado/reprovado	Palavras-chave ou frases esperadas
Semelhança de texto	Quão bem o texto da resposta do caso de teste corresponde à resposta esperada	Classificação de um total de 100%	Pontuação de aprovação, resposta esperada
Correspondência exata	Se a resposta do caso de teste corresponde exatamente à resposta esperada	Aprovado/reprovado	Resposta esperada
Personalizado	Etiquetas responde com base nos critérios que descreves	Aprovado/reprovado	Descrição do teste e descrições das etiquetas

Adicionar um método de teste

Ao criar ou editar um conjunto de teste, selecione Adicionar método de teste.
Seleciona todos os métodos com que queres testar e depois seleciona OK. Podes adicionar vários métodos.
1. Alguns métodos exigem uma pontuação de aprovação. A pontuação mínima para aprovação determina o que resulta numa aprovação ou reprovação. Define a pontuação e depois seleciona OK.
2. Alguns métodos de teste exigem mais critérios.
Selecione Guardar para guardar as alterações no conjunto de testes.

Selecione um método de teste existente para editar os critérios desse método ou elimine esse método.

Qualidade geral

A qualidade geral ajuda-o a decidir se as respostas do seu agente cumprem os seus padrões. Utiliza um modelo de linguagem para avaliar a eficácia com que um agente responde às perguntas dos utilizadores.

A qualidade geral é especialmente útil quando não se espera uma resposta exata. Oferece uma forma flexível e escalável de avaliar as respostas com base nos documentos recuperados e no fluxo da conversa.

Utiliza estes critérios-chave e aplica um prompt consistente para orientar a pontuação:

Relevância: Em que medida a resposta do agente responde à pergunta. Por exemplo, a resposta do agente permanece no assunto e responde diretamente à pergunta?
Fundamentação: Em que medida a resposta do agente se baseia no contexto fornecido. Por exemplo, a resposta do agente faz referência ou baseia-se nas informações fornecidas no contexto, em vez de introduzir informações não relacionadas ou sem suporte?
Integridade: Até que ponto a resposta do agente fornece todas as informações necessárias. Por exemplo, a resposta do agente abrange todos os aspetos da à pergunta e fornece detalhes suficientes?
Abstenção: Se o agente tentou responder à pergunta.

Para ser considerada de alta qualidade, uma resposta deve cumprir todos estes critérios-chave. Se um critério não for cumprido, a resposta é assinalada para melhoria. Este método de classificação garante que apenas as respostas completas e bem suportadas recebam as melhores notas. Em contrapartida, as respostas incompletas ou sem provas de apoio recebem pontuações mais baixas.

Ao adicionar ou editar métodos de teste, selecione Qualidade Geral. Todos os conjuntos de teste começam com este método por defeito.

Não precisas de adicionar respostas esperadas a casos de teste para completar uma avaliação geral de qualidade.

Comparar significado

Comparar significado avalia o quão bem a resposta do agente reflete o significado pretendido da resposta esperada. Em vez de se focar na redação exata, usa a semelhança de intenção, ou seja, compara as ideias e o significado por trás das palavras, para avaliar quão próximo da resposta se alinha com o que esperavas.

Tal como na qualidade geral, comparar significado é especialmente útil quando não se espera uma resposta exata. Oferece uma forma flexível e escalável de avaliar as respostas com base nos documentos recuperados e no fluxo da conversa.

Pode definir um limiar de classificação de aprovação para determinar o que constitui uma classificação de aprovação para uma resposta. A nota padrão de aprovação é 50. O método de teste de comparação de significados é útil quando uma resposta pode ser formulada de diferentes maneiras corretas, mas o significado geral ou a intenção ainda tem de ser revelada.

Ao adicionar ou editar métodos de teste, selecione Comparar significado.
Estabeleça a pontuação de aprovação para este método.
Adiciona as respostas esperadas. Qualquer caso de teste sem respostas esperadas produz um resultado Inválido para este método de teste.
1. Seleciona um caso de teste.
2. Adiciona a resposta que esperas.
3. Selecione Candidatar para guardar a resposta esperada.
4. Repita por todos os casos de teste que deseja testar usando este método.

Utilização da ferramenta

A ferramenta utiliza testes para verificar se o agente ativou ferramentas ou tópicos específicos durante o processo de execução. Se sim, o resultado é marcado como Passar. Se não aconteceu, marca-se o resultado como Falha.

Ao adicionar ou editar métodos de teste, selecione Usar ferramenta.
Adicione as ferramentas ou tópicos esperados. Qualquer caso de teste sem respostas esperadas produz um resultado Inválido para este método de teste.
1. Seleciona um caso de teste. Para adicionar as mesmas ferramentas e tópicos esperados para todos os casos de teste, selecione o ícone Editar no cabeçalho da coluna Utilização da Ferramenta.
2. No painel Editar caso de teste , selecione as ferramentas que espera que o seu agente use nesse caso de teste.
3. Selecione OK.
4. Selecione Aplicar para salvar as alterações.
5. Repita para todos os casos de teste que pretende testar para utilização de ferramentas.

Combinação de palavras-chave

A correspondência de palavras-chave verifica se a resposta do agente contém algumas ou todas as palavras ou expressões da resposta esperada que define. Se assim for, é aprovado. Se não o fizer, falha. A correspondência de palavras-chave é útil quando uma resposta pode ser formulada de diferentes formas corretas, mas termos ou ideias-chave ainda precisam de ser incluídos na resposta.

Pode escolher se um passe exige alguma das palavras-chave ou todas elas. Escolher Qualquer significa que, se pelo menos uma palavra ou frase coincidir, o caso de teste passa. Escolher Todos significa que todas as palavras ou frases esperadas têm de coincidir para que um caso de teste seja aprovado.

Ao adicionar ou editar métodos de teste, selecione Correspondência de palavras-chave.
Selecione se um caso de teste precisa de palavras-chave Qualquer ou Todos para corresponder.
Adicione as palavras-chave esperadas. Qualquer caso de teste sem palavras-chave esperadas produz um resultado Inválido para este método de teste.
1. Seleciona um caso de teste.
2. No painel de Editar caso de teste , adicione uma palavra-chave ou frase que espere que a resposta desse caso tenha.
3. Selecionar + Adicionar para adicionar mais palavras-chave ou expressões. Para remover uma palavra-chave ou frase, selecione o ícone Eliminar .
4. Selecione Aplicar para guardar as palavras-chave esperadas.
5. Repita para todos os casos de teste que deseja verificar para correspondência de palavras-chave.

Semelhança de texto

O método do teste de similaridade compara a semelhança das respostas do agente com as respostas esperadas que define no seu conjunto de teste. É útil quando uma resposta pode ser formulada de diferentes maneiras corretas, mas o significado geral ou a intenção ainda tem de ser revelada.

Ele usa uma métrica de similaridade cosseno para avaliar o quão semelhante a resposta do agente é em relação à redação e ao significado da resposta esperada para determinar uma pontuação. A classificação varia entre 0 e 1, em que 1 indica que a resposta corresponde e 0 indica que não. Pode definir um limiar de classificação de aprovação para determinar o que constitui uma classificação de aprovação para uma resposta.

Ao adicionar ou editar métodos de teste, selecione Similaridade de Texto.
Estabeleça a pontuação de aprovação para este método.
Adiciona as respostas esperadas. Qualquer caso de teste sem respostas esperadas produz um resultado Inválido para este método de teste.
1. Seleciona um caso de teste.
2. Adiciona a resposta que esperas.
3. Selecione Candidatar para guardar a resposta esperada.
4. Repita por todos os casos de teste que deseja testar usando este método.

Correspondência exata

A correspondência exata verifica se a resposta do agente corresponde exatamente à resposta esperada no teste: caractere por caractere, palavra por palavra. Se for igual, passa. Se alguma coisa difere, reprova. A correspondência exata é útil para respostas curtas e precisas, como números, códigos ou frases fixas. Não se adequa a respostas que as pessoas podem formular de várias maneiras corretas.

Ao adicionar ou editar métodos de teste, selecione Correspondência Exata.
Adiciona as respostas esperadas. Qualquer caso de teste sem respostas esperadas produz um resultado Inválido para este método de teste.
1. Seleciona um caso de teste.
2. Adiciona a resposta que esperas.
3. Selecione Candidatar para guardar a resposta esperada.
4. Repita por todos os casos de teste que deseja testar usando este método.

Personalizado

Customizado é um método de teste customizável. Permite-lhe testar e rotular as respostas dos agentes usando os seus próprios critérios. Por exemplo, pode criar um teste de conformidade para um agente de RH rotular as respostas do teste como conformes ou não conformes com a sua descrição de conformidade com RH.

Um teste personalizado tem dois componentes para configurar:

Instruções de avaliação: Descreve o objetivo que pretende alcançar com este teste. O que queres que o teste descubra sobre as respostas do teu agente?

Boas instruções de avaliação devem:

Mantém o foco nos objetivos.
Usa apenas os caracteres permitidos.
Use listas com marcadores e cabeçalhos para organização.

Por exemplo:

Evaluate the agent's response for HR policy compliance.

What to check:
- Determine whether the answer protects privacy and avoids revealing or requesting sensitive data.
- Avoids discrimination, bias, or inappropriate judgments.
- Provides safe, neutral, HR-aligned guidance.
- Does not give legal advice or make definitive claims.

Rótulos: Descreve o resultado atribuído a cada resposta usando o teste personalizado. Os rótulos também têm atribuições de aprovação/reprovação, que contam para a taxa de aprovação deste método de teste no conjunto de testes.

As etiquetas têm um nome e uma descrição. Uma boa descrição:

É conciso.
Contém as características que procuras nas respostas correspondentes.

Uma estratégia para os rótulos é ter duas: uma são respostas que cumprem com sucesso os critérios que procuras, e a outra respostas que não cumprem. Por exemplo, um teste personalizado de conformidade com políticas de RH pode ter Conformidade e Não Conforme como etiquetas.

Ao adicionar ou editar métodos de teste, selecione Personalizado.
Introduza um nome para este teste personalizado.
Adicione instruções de avaliação.
Adicione duas ou mais etiquetas. Cada rótulo tem um nome e uma descrição.

Para adicionar mais etiquetas, selecione Adicionar etiqueta.

Os títulos das etiquetas só podem usar letras, números, espaço, hífen -, sublinhado _, barra /para a frente, ampersand &, mais sinal +e ponto .final.
Defina o resultado de Aprovado ou Reprovado para cada rótulo.
Selecione OK.

Comentários

Esta página foi útil?

Last updated on 2026-03-05