Partilhar via


Crie ou modifique um conjunto de testes para avaliar o seu agente

[Este artigo é uma documentação de pré-lançamento e está sujeito a alterações.]

Um conjunto de teste consiste num grupo de até 100 casos de teste. Quando fazes uma avaliação de agente, selecionas um conjunto de testes e o Copilot Studio executa todos os casos de teste desse conjunto contra o teu agente.

Pode criar casos de teste dentro de um conjunto de testes manualmente, importá-los usando uma folha de cálculo ou usar IA para gerar mensagens com base no design e nos recursos do seu agente. Pode então escolher como quer medir a qualidade das respostas do seu agente para cada caso de teste dentro de um conjunto de testes.

Para mais informações sobre como funciona a avaliação de agentes, consulte Sobre avaliação de agentes.

Para aprender a editar um conjunto de teste existente, veja Alterar os detalhes de um conjunto de teste.

Importante

Os resultados dos testes estão disponíveis no Copilot Studio durante 89 dias. Para guardar os resultados dos seus testes por um período mais longo, exporte os resultados para um ficheiro CSV.

Criar um novo conjunto de testes

  1. Vá à página de Avaliação do seu agente.

Captura de ecrã que mostra como selecionar o separador Avaliação quando a seleção de separador está comprimida devido ao tamanho do ecrã.

  1. Selecionar Nova avaliação.

    Captura de ecrã que mostra o botão Criar novo teste na página de Avaliação.

  2. Na página de Nova avaliação , escolha o método que pretende usar para criar o seu conjunto de testes. Um conjunto de testes pode ter até 100 casos de teste.

    • Conjunto rápido de perguntas para que a Copilot Studio crie automaticamente casos de teste com base na descrição, instruções e capacidades do seu agente. Esta opção gera 10 perguntas para realizar avaliações pequenas e rápidas ou para começar a construir um conjunto de testes maior.
    • Conjunto completo de perguntas para que Copilot Studio gere casos de teste usando uma fonte de conhecimento ou tópicos e escolha o número de perguntas a gerar.
    • Use a conversa do chat de teste para preencher automaticamente o conjunto de perguntas com as perguntas que forneceu no chat. Este método utiliza perguntas do último chat de teste. Também pode iniciar uma avaliação a partir do chat de teste clicando no botão "Avaliar" . Captura de ecrã que mostra o botão Criar novo teste no chat de teste.
    • Importa casos de teste de um ficheiro arrastando o ficheiro para a área designada, selecionando Navegar para carregar um ficheiro, ou selecionando uma das outras opções de upload.
    • Ou, escreve tu próprio algumas perguntas para criar manualmente um conjunto de testes. Siga os passos para editar um conjunto de testes para adicionar e editar casos de teste.
    • Use dados de produção baseados em temas das análises do seu agente. Captura de ecrã a mostrar a opção Avaliar para um tema na lista de Temas de um tema.
  3. Editar os detalhes dos casos de teste. Todos os casos de teste que utilizam métodos, exceto qualidade geral, exigem respostas esperadas. Para mais informações sobre edição, consulte Modificar um conjunto de teste.

  4. Em Nome, introduza um nome para o conjunto de testes.

  5. Mude ou adicione os métodos de teste que pretende usar:

    • Adicione um novo método:
      1. Selecione Adicionar método de teste.
      2. Seleciona todos os métodos com que queres testar e depois seleciona OK.
      3. Alguns métodos exigem uma pontuação de aprovação. A pontuação mínima para aprovação determina o que resulta numa aprovação ou reprovação. Define a pontuação e depois seleciona OK.
      4. Alguns métodos exigem adicionar respostas esperadas ou palavras-chave para cada um dos seus casos de teste. Para mais informações, consulte Escolher métodos de avaliação
    • Selecione um método de teste existente para editar ou eliminar.
    Método de ensaio Medidas Classificação Configurações
    Qualidade geral Quão boa é a resposta do caso de teste com base em qualidades específicas Pontuado de 100% Nenhum
    Comparar significado Quão bem o significado da resposta do caso de teste corresponde à resposta esperada Pontuado de 100% Pontuação de aprovação, resposta esperada
    Utilização da ferramenta Se o caso de teste utilizou os recursos esperados Aprovado/reprovado Capacidades esperadas
    Combinação de palavras-chave Se o caso de teste utilizou todas ou algumas das palavras-chave ou frases esperadas Aprovado/reprovado Palavras-chave ou frases esperadas
    Semelhança de texto Quão bem o texto da resposta do caso de teste corresponde à resposta esperada Pontuado de 100% Pontuação de aprovação, resposta esperada
    Correspondência exata Se a resposta do caso de teste corresponde exatamente à resposta esperada Aprovado/reprovado Resposta esperada
    Personalizado Etiquetas responde com base nos critérios que descreves Aprovado/reprovado Descrição do teste e descrições das etiquetas
  6. Selecione perfil de utilizador, depois selecione ou adicione a conta que pretende usar para este conjunto de testes, ou continue sem autenticação. A avaliação utiliza esta conta para se ligar a fontes de conhecimento e ferramentas durante os testes. Para informações sobre como adicionar e gerir perfis de utilizador, consulte Gerir perfis de utilizador e ligações.

    Observação

    O teste automatizado utiliza a autenticação da conta de teste selecionada. Se o seu agente tiver fontes de conhecimento ou ligações que requerem autenticação específica, selecione a conta apropriada para o seu teste. Quando o Copilot Studio gera casos de teste, utiliza as credenciais de autenticação de uma conta ligada para aceder às fontes de conhecimento e ferramentas do seu agente. Os casos de teste ou resultados gerados podem incluir informações sensíveis a que a conta ligada tem acesso, e esta informação é visível para todos os criadores que conseguem aceder ao conjunto de teste.

  7. Selecione Guardar para atualizar o conjunto de testes sem executar os casos de teste ou Avaliar para executar o conjunto de testes imediatamente.

Limitação da geração de casos de teste

A geração de casos de teste falha se uma ou mais perguntas violarem as definições de moderação de conteúdo do seu agente. As possíveis razões incluem:

  • As instruções ou tópicos do agente levam o modelo a gerar conteúdo que o sistema assinala.
  • A fonte de conhecimento ligada inclui conteúdos sensíveis ou restritos.
  • As definições de moderação de conteúdo do agente são demasiado rigorosas.

Para resolver o problema, experimente diferentes ações, como ajustar fontes de conhecimento, atualizar instruções ou modificar definições de moderação.

Um conjunto de teste pode conter até 100 casos de teste.

Gerar um conjunto de testes a partir de conhecimento ou tópicos

Pode testar o seu agente gerando perguntas usando a informação e as fontes de conversa que o seu agente já possui. Este método de teste é bom para testar como o seu agente usa uma fonte de conhecimento ou tópicos que já tem, mas não é bom para testar lacunas de informação.

Pode gerar casos de teste utilizando estas fontes de conhecimento:

  • Texto

  • Microsoft Word

  • Microsoft Excel

Pode usar ficheiros de até 5 MB para gerar perguntas de teste.

Para gerar um conjunto de teste:

  1. Na nova avaliação, selecione Conjunto completo de perguntas.

  2. Selecione Conhecimento ou Tópicos.

    • O conhecimento funciona melhor para agentes que usam orquestração generativa. Este método cria questões utilizando uma das fontes de conhecimento do seu agente.
    • Topics funciona melhor para agentes que usam orquestração clássica. Este método cria questões usando os temas do seu agente.
  3. Para o Conhecimento, selecione a fonte de conhecimento que pretende usar para gerar perguntas.

Captura de ecrã mostrando a seleção de fontes de conhecimento a incluir na geração do caso de teste.

  1. Para Conhecimento e Tópicos, selecione e arraste o slider para escolher o número de perguntas a gerar.

Captura de ecrã a mostrar o slider para selecionar quantas perguntas gerar.

  1. Selecione Gerar.

  2. Em Nome, introduza um nome para o conjunto de testes.

    1. Mude ou adicione os métodos de teste que pretende usar:
    • Adicione um novo método:
      1. Selecione Adicionar método de teste.
      2. Seleciona todos os métodos com que queres testar e depois seleciona OK. Podes adicionar vários métodos.
      3. Para alguns métodos, define uma nota de aprovação e depois seleciona OK. A pontuação mínima para aprovação determina o que resulta numa aprovação ou reprovação.
      4. Alguns métodos exigem adicionar respostas esperadas ou palavras-chave para cada um dos seus casos de teste. Para mais informações, consulte Escolher métodos de avaliação
    • Selecione um método de teste existente para editar ou eliminar.
  3. Editar os detalhes dos casos de teste. Todos os casos de teste que utilizam métodos, exceto qualidade geral, exigem respostas esperadas. Para mais informações sobre edição, consulte Modificar um conjunto de teste.

  4. Selecione Guardar para atualizar o conjunto de testes sem executar os casos de teste ou Avaliar para executar o conjunto de testes imediatamente.

Criar um ficheiro de teste para importar

Em vez de construir os teus casos de teste diretamente no Copilot Studio, podes criar um ficheiro de folha de cálculo com todos os teus casos de teste e importá-los para criar o teu conjunto de testes. Pode compor cada pergunta de teste, determinar o método de teste que pretende utilizar e declarar as respostas esperadas para cada pergunta. Quando terminares de criar o ficheiro, guarda-o como um ficheiro .csv ou .txt e importa-o para Copilot Studio.

Importante

  • O dossiê pode conter até 100 perguntas.
  • Cada pergunta pode ter até 1.000 caracteres, incluindo espaços.
  • O ficheiro deve estar em valores separados por vírgulas (CSV) ou formato de texto.

Para criar o ficheiro de importação:

  1. Abra uma aplicação de folha de cálculo (por exemplo, Microsoft Excel).

  2. Adicione os seguintes cabeçalhos, nesta ordem, na primeira linha:

    • Question
    • Resposta esperada
    • Método de teste
  3. Introduza as perguntas do teste na coluna Pergunta. Cada pergunta pode ter 1.000 caracteres ou menos, incluindo espaços.

  4. Introduza um dos seguintes métodos de teste para cada pergunta na coluna Método de Teste :

    • Qualidade geral
    • Comparar significado
    • Semelhança
    • Correspondência exata
    • Combinação de palavras-chave
  5. Introduza as respostas esperadas para cada pergunta na coluna Resposta esperada. As respostas esperadas são opcionais para importar um conjunto de testes. No entanto, precisa de respostas esperadas para executar correspondência, semelhança e comparar casos de teste de significado.

  6. Guarde o ficheiro como um ficheiro .cvs ou .txt.

  7. Importa o ficheiro seguindo os passos em Criar um novo conjunto de testes.

Crie um conjunto de testes baseado num tema

Crie um conjunto de testes com perguntas de conversas com utilizadores reais. Este método utiliza temas (pré-visualização), encontrados nas análises do seu agente.

Os temas são agrupamentos de perguntas retiradas do conjunto de perguntas do usuário que desencadeiam respostas generativas. Quando crias um conjunto de testes usando um tema, geras os casos de teste a partir de perguntas feitas pelos utilizadores relacionadas com esse tema.

Use estes conjuntos de testes para realizar avaliações focadas numa área ou tema do âmbito do seu agente. Por exemplo, se tiver um agente de atendimento ao cliente, pode acompanhar a qualidade das respostas para questões de faturação e pagamentos separadamente de outros casos de uso como resolução de problemas.

Observação

Antes de criar conjuntos de teste a partir de temas, precisa de acesso a temas em análise. Revise os pré-requisitos para os temas (pré-visualização).

  1. Na página Análise do seu agente, vá à lista de Temas.

  2. Passe o rato sobre um tema e depois selecione Avaliar.

    Captura de ecrã a mostrar a opção Avaliar para um tema na lista de Temas.

    Também pode selecionar Ver tudo para ver mais temas, depois selecionar Avaliar.

  3. Selecione Criar e abrir.

  4. Editar os detalhes dos conjuntos de teste e dos casos. Todos os casos de teste que utilizam métodos, exceto qualidade geral, exigem respostas esperadas. Para mais informações sobre edição, consulte Modificar um conjunto de teste.

  5. Selecione Guardar para atualizar o conjunto de testes sem executar os casos de teste ou Avaliar para executar o conjunto de testes imediatamente.