次の方法で共有


エージェントを評価するためのテストセットを作成または修正しましょう

[この記事はプレリリース ドキュメントであり、変更されることがあります。]

テスト セット は最大100の テストケースのグループで構成されています。 エージェント評価を実行するときは、テスト セットを選択し、Copilot Studio では、そのセット内のすべてのテスト ケースがエージェントに対して実行されます。

テストセット内で手動でテストケースを作成したり、スプレッドシートでインポートしたり、AIを使ってエージェントの設計やリソースに基づいてメッセージを生成することもできます。 その後、テストセット内の各テストケースごとにエージェントの応答の質をどのように測定するかを選択できます。

エージェント評価の仕組みについての詳細は 「エージェント評価について」をご覧ください。

既存のテストセットの編集方法を学びたい方は、「 テストセットの詳細を変更する」をご覧ください。

Important

テスト結果は、Copilot Studio で 89 日間利用できます。 テスト結果を長期間保存するには、結果をCSVファイルに エクスポート してください。

新しいテスト セットを作成する

  1. エージェントの 評価 ページにアクセスしてください。

画面サイズの関係でタブ選択が圧縮されたときに評価タブを選択する方法を示すスクリーンショットです。

  1. 新しい評価を選択してください。

    評価ページの「新しいテストを作成」ボタンのスクリーンショット。

  2. 新しい評価ページで、テストセットを作成するために使いたいメソッドを選択します。 テストセットは最大100のテストケースを持てます。

    • 迅速な質問セットを使用して、エージェントの説明、指示、機能に基づいてCopilot Studioがテストケースを自動的に作成します。 このオプションでは、小規模で迅速な評価を行うための10問の質問を生成したり、より大きなテストセットを構築したりすることができます。
    • 完全な質問セットを使用して、Copilot Studio で知識ソースまたはトピックからテストケースを生成し、生成する質問の数を選択します。
    • テストチャットの会話を使って、テストチャットで提供した質問を自動的にテストセットに入力してください。 この方法は最新のテストチャットの質問を利用します。 また、評価 ボタンを使ってテストチャットから評価を開始することもできます。 テストチャットの「新しいテストを作成」ボタンのスクリーンショットです。
    • ファイルからテストケースをインポートするには、ファイルを指定エリアにドラッグし、ファイルをアップロードするために「ブラウズ」を選択するか、他のアップロードオプションのいずれかを選択できます。
    • あるいは、自分で問題を書 いてテストセットを作成するのも良いでしょう。 テスト セットを編集 する手順に従って、テストケースを追加・編集してください。
    • エージェントの分析テーマ に基づく制作データを活用しましょう 。 あるテーマのテーマリストにある「評価」オプションのスクリーンショットです。
  3. テストケースの詳細を編集してください。 一般的な 品質を除き、メソッドを使用するすべてのテストケースは期待される応答を求めます。 編集に関する詳細は「 テストセットの修正」を参照してください。

  4. [ 名前] に、テスト セットの名前を入力します。

  5. 使いたい テスト方法 を変更するか追加してください:

    • 新しい方法を追加:
      1. 「 追加テスト方法」を選択してください。
      2. テストしたいすべての方法を選択し、 その後「OK」を選択してください。
      3. 一部の方法は合格点が必要です。 合格スコアは合格か失敗かを決定します。 スコアを設定してから OKを選択してください。
      4. 一部の手法では、各テストケースごとに期待される回答やキーワードを追加する必要があります。 詳細については、「Choose Evaluation methods」をご覧ください。
    • 既存のテスト方法を選択して 編集または削除してください。
    テスト メソッド 対策 ポイントの計算 Configurations
    一般的な品質 特定の特性に基づくテストケースの回答の品質 100点満点 None
    意味の比較 テストケースの答えの意味が期待される答えとどれだけ一致しているか 100点満点 合格点、期待される答え
    ツールの使用 テストケースが期待されるリソースを使用したかどうか 合格/不合格 期待される能力
    キーワードマッチ テストケースが予想されるキーワードやフレーズのすべてまたは一部を使ったかどうか 合格/不合格 期待されるキーワードやフレーズ
    テキストの類似性 テストケースの回答のテキストが期待される答えとどれだけ一致しているか 100点満点 合格点、期待される答え
    完全一致 テストケースの答えが期待される答えと正確に一致しているかどうか 合格/不合格 予想通りの答え
    カスタム 説明した条件に基づいて回答にラベルを付けます 合格/不合格 テストの説明とラベルの説明
  6. ユーザープロファイルを選択し、このテストセットで使用するアカウントを選択するか追加するか、認証なしで続けてください。 評価では、このアカウントを使ってテスト中に知識源やツールと接続します。 ユーザープロファイルの追加および管理に関する情報については、「 ユーザープロファイルと接続の管理」をご覧ください。

    自動テストは、選択したテストアカウントの認証を使用します。 エージェントが特定の認証を必要とする知識源やコネクションを持っている場合は、テストに適したアカウントを選択してください。 Copilot Studio は、テスト ケースを生成するときに、接続されているアカウントの認証資格情報を使用して、エージェントのナレッジ ソースとツールにアクセスします。 生成されたテストケースや結果には、接続されたアカウントがアクセスできる機密情報が含まれることがあり、この情報はテストセットにアクセスできるすべての制作者に閲覧可能です。

  7. テストケースを実行しずにテストセットを更新するには 「保存 」を選択し、「 評価 」を選択してテストセットを即座に実行します。

テストケース生成の制限

テストケース生成は、エージェントのコンテンツモデレーション設定に違反する質問が1つ以上あれば失敗します。 次のような理由が考えられます。

  • エージェントの指示やトピックがモデルにコンテンツの生成を導き、システムがフラグを立てます。
  • 接続された知識源には、機密性や制限付きコンテンツが含まれます。
  • エージェントのコンテンツ管理設定は非常に厳格です。

問題を解決するために、知識源の調整、指示の更新、モデレーション設定の変更など、さまざまな行動を試してください。

テストセットには最大100のテストケースを含めることができます。

知識やトピックからテストセットを生成する

エージェントがすでに持っている情報や会話の情報源を使って質問を生成することで、エージェントをテストできます。 このテスト方法は、エージェントが既に持っているナレッジ ソースまたはトピックを使用する方法をテストする場合に適していますが、情報のギャップのテストには適していません。

以下の知識ソースを使ってテストケースを作成できます:

  • テキスト

  • Microsoft Word

  • Microsoft Excel

最大 5 MB のファイルを使用して、テストの質問を生成できます。

テストセットを生成するには:

  1. 新しい評価では「Full Question Set」を選択してください。

  2. 知識かトピックのどちらかを選択します。

    • 知識は生成オーケストレーションを使用するエージェントに最適です。 この方法では、エージェントのナレッジ ソースの 1 つを使用して質問を作成します。
    • トピックは クラシックなオーケストレーションを使うエージェントに最適です。 この方法はエージェントのトピックを使って質問を作り出します。
  3. [ナレッジ] で、質問の生成に使用するナレッジ ソースを選択します。

テストケース生成に含める知識ソースの選択を示すスクリーンショット。

  1. 知識とトピックについては、スライダーを選択してドラッグして生成する質問数を選択します。

生成する質問数を選択するためのスライダーのスクリーンショットです。

  1. [Generate] \(生成) を選択します。

  2. [ 名前] に、テスト セットの名前を入力します。

    1. 使いたい テスト方法 を変更するか追加してください:
    • 新しい方法を追加:
      1. 「 追加テスト方法」を選択してください。
      2. テストしたいすべての方法を選択し、 その後「OK」を選択してください。 複数の方法を追加することもできます。
      3. 一部の方法では、合格スコアを設定してから OKを選択してください。 合格スコアは合格か失敗かを決定します。
      4. 一部の手法では、各テストケースごとに期待される回答やキーワードを追加する必要があります。 詳細については、「Choose Evaluation methods」をご覧ください。
    • 既存のテスト方法を選択して 編集または削除してください。
  3. テストケースの詳細を編集してください。 一般的な 品質を除き、メソッドを使用するすべてのテストケースは期待される応答を求めます。 編集に関する詳細は「 テストセットの修正」を参照してください。

  4. テストケースを実行しずにテストセットを更新するには 「保存 」を選択し、「 評価 」を選択してテストセットを即座に実行します。

インポート用のテストセットファイルを作成します

Copilot Studio でテスト ケースを直接作成する代わりに、すべてのテスト ケースを含むスプレッドシート ファイルを作成し、インポートしてテスト セットを作成できます。 各テストの質問を作成し、使用するテスト メソッドを決定し、各質問の予想される応答を示すことができます。 ファイルの作成が完了したら、ファイルを .csv または .txt ファイルとして保存し、Copilot Studio にインポートします。

Important

  • ファイルには、最大 100 個の質問を含めることができます。
  • 各質問には、スペースを含めて最大 1,000 文字を指定できます。
  • ファイルは、コンマ区切り値 (CSV) またはテキスト形式である必要があります。

インポート ファイルを作成するには:

  1. スプレッドシート アプリケーション (たとえば、Microsoft Excel) を開きます。

  2. 最初の行に、次の見出しをこの順序で追加します。

    • Question
    • 予期される応答
    • テスト方法
  3. [質問] 列にテストの 質問 を入力します。 各質問は、スペースを含めて 1,000 文字以下にすることができます。

  4. テスト方法欄には、各問題に対して以下のテスト方法のいずれかを入力してください:

    • 一般的な品質
    • 意味の比較
    • Similarity
    • 完全一致
    • キーワードマッチ
  5. [予期される回答] 列に、各質問の 予想される回答 を入力します。 テスト セットをインポートする場合、予期される応答は省略可能です。 ただし、一致、類似性、およびテスト ケースを意味する比較を実行するには、予期される応答が必要です。

  6. ファイルは .csv ファイルまたは .txt ファイルとして保存します。

  7. 「 Create a new test set」の手順に従ってファイルをインポートします。

テーマに基づいたテストセットを作成します

実際のユーザーとの会話から得た質問を組み合わせたテストセットを作成しましょう。 この方法は、エージェントの分析データにある テーマ(プレビュー)を使用します。

テーマは、生成的な回答をトリガーするユーザーの質問のプールから取得された質問のグループです。 テーマを使ってテストセットを作成すると、そのテーマに関連するユーザーからの質問からテストケースを生成します。

これらのテストセットを使って、エージェントの業務範囲の一つの分野やトピックに焦点を当てた評価を行いましょう。 例えば、カスタマーサービス担当者がいれば、 請求や支払い に関する質問の回答の質をトラブルシューティングなどの他のユースケースとは別に追跡できます。

テーマからテストセットを作成する前に、分析でテーマにアクセスする必要があります。 テーマの前提条件(プレビュー)を復習してください。

  1. エージェントの Analytics ページで「 テーマ リスト」に行ってください。

  2. テーマにカーソルを合わせてから 「評価」を選択します。

    テーマリスト内の「評価」オプションを示すスクリーンショットです。

    また、「 すべてを見る 」を選択してさらにテーマを表示し、「 評価」を選択することもできます。

  3. 作成して開くを選択します。

  4. テストセットやケースの詳細を編集してください。 一般的な 品質を除き、メソッドを使用するすべてのテストケースは期待される応答を求めます。 編集に関する詳細は「 テストセットの修正」を参照してください。

  5. テストケースを実行しずにテストセットを更新するには 「保存 」を選択し、「 評価 」を選択してテストセットを即座に実行します。