Escolha métodos de avaliação

[Este artigo faz parte da documentação de pré-lançamento e está sujeito a alterações.]

Ao criar conjuntos de teste, escolha entre diferentes métodos para avaliar as respostas do seu agente. Cada método de teste tem seus próprios pontos fortes e se adequa a diferentes tipos de avaliações.

Método de teste	Medidas	Pontuação	Configurações
Qualidade geral	Quão boa é a resposta do caso de teste com base em qualidades específicas	Pontuado em uma escala de 0 a 100%	None
Comparar significado	Quão bem o significado da resposta do caso de teste corresponde à resposta esperada	Pontuado em uma escala de 0 a 100%	Pontuação de aprovação, resposta esperada
Uso de ferramentas	Se o caso de teste utilizou os recursos esperados	Aprovado/reprovado	Capacidades esperadas
Correspondência de palavras-chave	Se o caso de teste usou todas ou algumas das palavras-chave ou frases esperadas	Aprovado/reprovado	Palavras-chave ou frases esperadas
Similaridade de texto	Quão bem o texto da resposta do caso de teste corresponde à resposta esperada	Pontuado em uma escala de 0 a 100%	Pontuação de aprovação, resposta esperada
Correspondência exata	Se a resposta do caso de teste corresponde exatamente à resposta esperada	Aprovado/reprovado	Resposta esperada
Personalizado	Rotula respostas com base nos critérios que você descreve	Aprovado/reprovado	Descrição do teste e descrições de rótulo

Adicionar um método de teste

Ao criar ou editar um conjunto de teste, selecione Adicionar método de teste.
Selecione todos os métodos que deseja testar e depois selecione OK. Você pode adicionar vários métodos.
1. Alguns métodos exigem uma nota de aprovação. A nota de aprovação determina qual nota resulta em aprovação ou reprovação. Defina a pontuação e selecione OK.
2. Alguns métodos de teste exigem mais critérios.
Selecione Salvar para salvar suas alterações no conjunto de teste.

Selecione um método de teste existente para editar os critérios desse método ou exclua esse método.

Qualidade geral

A qualidade geral ajuda você a decidir se as respostas do seu agente atendem aos seus padrões. Ele utiliza um modelo de linguagem para avaliar quão eficazmente um agente responde às perguntas dos usuários.

A qualidade geral é especialmente útil quando não há uma resposta exata esperada. Ele oferece uma forma flexível e escalável de avaliar respostas com base nos documentos recuperados e no fluxo da conversa.

Ele utiliza esses critérios-chave e aplica um prompt consistente para orientar a pontuação:

Relevância: até que ponto a resposta do agente aborda a questão. Por exemplo, a resposta do agente permanece no assunto e responde diretamente à pergunta?
Fundamentação: até que ponto a resposta do agente se baseia no contexto fornecido. Por exemplo, a referência de resposta do agente depende de informações fornecidas no contexto, em vez de introduzir informações não relacionadas ou sem suporte?
Integridade: até que ponto a resposta do agente fornece todas as informações necessárias. Por exemplo, a resposta do agente abrange todos os aspectos da pergunta e fornece detalhes suficientes?
Abstenção: se o agente tentou responder à pergunta.

Para ser considerada de alta qualidade, uma resposta deve atender a todos esses critérios-chave. Se um critério não for atendido, a resposta é sinalizada para melhoria. Esse método de pontuação garante que somente as respostas completas e bem suportadas recebam as principais notas. Por outro lado, as respostas incompletas ou sem evidência de suporte recebem pontuações mais baixas.

Ao adicionar ou editar métodos de teste, selecione Qualidade Geral. Todos os conjuntos de teste começam com esse método por padrão.

Você não precisa adicionar respostas esperadas aos casos de teste para completar uma avaliação geral de qualidade.

Comparar significado

Comparar significado avalia o quanto a resposta do agente reflete o significado pretendido da resposta esperada. Em vez de focar na redação exata, ele usa a similaridade de intenção, ou seja, compara as ideias e o significado por trás das palavras, para julgar o quão próxima a resposta se alinha com o que você esperava.

Assim como a qualidade geral, comparar significado é especialmente útil quando não há uma resposta exata esperada. Ele oferece uma forma flexível e escalável de avaliar respostas com base nos documentos recuperados e no fluxo da conversa.

Você pode definir um limite de pontuação de aprovação para determinar o que constitui uma pontuação de aprovação para uma resposta. A nota padrão para aprovação é 50. O método de teste de comparação de significado é útil quando uma resposta pode ser formulada de maneiras corretas diferentes, mas o significado geral ou a intenção ainda precisa ser considerada correta.

Ao adicionar ou editar métodos de teste, selecione Comparar significado.
Defina a nota de aprovação desse método.
Adicione as respostas esperadas. Qualquer caso de teste sem respostas esperadas produz um resultado inválido para esse método de teste.
1. Selecione um caso de teste.
2. Adicione a resposta que você espera.
3. Selecione Aplicar para salvar a resposta esperada.
4. Repita para todos os casos de teste que você deseja testar usando esse método.

Uso de ferramentas

O uso de ferramentas testa se o agente disparou ferramentas ou tópicos específicos durante o processo de execução. Se tiver feito isso, o resultado será marcado como Pass. Caso contrário, o resultado será marcado como Falha.

Ao adicionar ou editar métodos de teste, selecione Uso da Ferramenta.
Adicione as ferramentas ou tópicos esperados. Qualquer caso de teste sem respostas esperadas produz um resultado inválido para esse método de teste.
1. Selecione um caso de teste. Para adicionar as mesmas ferramentas e tópicos esperados para todos os casos de teste, selecione o ícone Editar no título da coluna Usar ferramenta.
2. No painel Editar caso de teste , selecione as ferramentas que você espera que seu agente use para esse caso de teste.
3. Selecione OK.
4. Selecione Aplicar para salvar as alterações.
5. Repita para todos os casos de teste que você deseja executar com o uso de ferramentas.

Correspondência de palavras-chave

Correspondência de palavra-chave verifica se a resposta do agente contém algumas ou todas as palavras ou frases da resposta esperada que você define. Se isso acontecer, ela é considerada correta. Se não fizer isso, falhará. A correspondência de palavras-chave é útil quando uma resposta pode ser formulada de diferentes formas corretas, mas termos-chave ou ideias ainda precisam ser incluídos na resposta.

Você pode escolher se uma aprovação exige alguma das palavras-chave ou todas elas. Escolher Qualquer significa que, se pelo menos uma palavra ou frase coincidir, o caso de teste passa. Escolher Todos significa que todas as palavras ou frases esperadas devem coincidir para que um caso de teste seja aprovado.

Ao adicionar ou editar métodos de teste, selecione Correspondência de palavras-chave.
Selecione se um caso de teste precisa de Qualquer ou de Toda palavra-chave para corresponder.
Adicione as palavras-chave esperadas. Qualquer caso de teste sem palavras-chave esperadas produz um resultado inválido para esse método de teste.
1. Selecione um caso de teste.
2. No painel Editar caso de teste , adicione uma palavra-chave ou frase que você espera que a resposta desse caso tenha.
3. Selecione + Adicionar para adicionar mais palavras-chave ou frases. Para remover uma palavra-chave ou frase, selecione o ícone Excluir .
4. Selecione Aplicar para salvar as palavras-chave esperadas.
5. Repita para todos os casos de teste que você quer testar para correspondência de palavras-chave.

Similaridade de texto

O método do teste de similaridade compara a semelhança das respostas do agente com as respostas esperadas que você define no seu conjunto de teste. É útil quando uma resposta pode ser formulada de maneiras corretas diferentes, mas o significado geral ou a intenção ainda precisa ser considerada correta.

Ele utiliza uma métrica de similaridade cosseno para avaliar o nível de semelhança entre a resposta do agente e a formulação e o significado da resposta esperada, determinando assim uma pontuação. A pontuação varia entre 0 e 1, onde 1 indica que a resposta corresponde de maneira mais próxima e 0 indica que não. Você pode definir um limite de pontuação de aprovação para determinar o que constitui uma pontuação de aprovação para uma resposta.

Ao adicionar ou editar métodos de teste, selecione Similaridade de Texto.
Defina a nota de aprovação desse método.
Adicione as respostas esperadas. Qualquer caso de teste sem respostas esperadas produz um resultado inválido para esse método de teste.
1. Selecione um caso de teste.
2. Adicione a resposta que você espera.
3. Selecione Aplicar para salvar a resposta esperada.
4. Repita para todos os casos de teste que você deseja testar usando esse método.

Correspondência exata

A correspondência exata verifica se a resposta do agente corresponde exatamente à resposta esperada no teste: caractere para caractere, palavra por palavra. Se for a mesma coisa, passa. Se alguma coisa for diferente, ela falhará. A correspondência exata é útil para respostas curtas e precisas, como, por exemplo, números, códigos ou frases fixas. Ela não se adequa às respostas que as pessoas podem expressar de várias maneiras corretas.

Ao adicionar ou editar métodos de teste, selecione Correspondência Exata.
Adicione as respostas esperadas. Qualquer caso de teste sem respostas esperadas produz um resultado inválido para esse método de teste.
1. Selecione um caso de teste.
2. Adicione a resposta que você espera.
3. Selecione Aplicar para salvar a resposta esperada.
4. Repita para todos os casos de teste que você deseja testar usando esse método.

Personalizado

Custom é um método de teste configurável. Ele permite que você teste e rotule respostas do agente usando seus próprios critérios. Por exemplo, você pode criar um teste de conformidade para um agente de RH rotular respostas de teste como compatíveis ou não compatíveis com a descrição da conformidade de RH.

Um teste personalizado tem dois componentes para você configurar:

Instruções de avaliação: descreve a meta que você deseja realizar com este teste. O que você quer que o teste descubra sobre as respostas do seu agente?

Boas instruções de avaliação devem:

Seja orientado a metas.
Use apenas os caracteres permitidos.
Use listas com marcadores e títulos para organização.

Por exemplo:

Evaluate the agent's response for HR policy compliance.

What to check:
- Determine whether the answer protects privacy and avoids revealing or requesting sensitive data.
- Avoids discrimination, bias, or inappropriate judgments.
- Provides safe, neutral, HR-aligned guidance.
- Does not give legal advice or make definitive claims.

Rótulos: descreve o resultado atribuído a cada resposta usando o teste personalizado. Os rótulos também têm atribuições de aprovação/falha, que contam para a taxa de aprovação do conjunto de testes para esse método de teste.

Os rótulos têm um nome e uma descrição. Uma boa descrição:

É conciso.
Contém os atributos que você está procurando em respostas correspondentes.

Uma estratégia para rótulos é ter duas categorias: uma para respostas que atendem aos critérios que você está procurando, e outra para respostas que não atendem. Por exemplo, um teste personalizado de conformidade de política de RH pode ter rótulos compatíveis e não compatíveis .

Ao adicionar ou editar métodos de teste, selecione Personalizado.
Insira um nome para este teste personalizado.
Adicione instruções de avaliação.
Adicione dois ou mais rótulos. Cada rótulo tem um nome e uma descrição.

Para adicionar mais rótulos, selecione Adicionar rótulo.

Os títulos de rótulo só podem usar letras, números, espaço, hífen -, sublinhado _, barra /, ampersand &, sinal de mais + e ponto ..
Defina o resultado Aprovado ou Reprovado para cada etiqueta.
Selecione OK.

Comentários

Esta página foi útil?

Last updated on 2026-03-05