Planen und erstellen Sie einen Leistungstest für konversationelle Agenten

Konversationsagenten, die mit Copilot Studio erstellt wurden, laufen auf einer Plattform, die automatisch skaliert wird, um steigende Nachfrage und erhöhte Last zu bewältigen. Conversational Agents verwenden jedoch oft benutzerdefinierte Logik oder Aufrufe zu Backend-APIs, was Latenz verursacht, weil die eigene Logik ineffizient ist oder die zugrundeliegenden APIs und Backend-Systeme nicht gut skalieren.

Leistungstests bewerten die Leistung und Stabilität eines Agenten unter unterschiedlichen Belastungsmustern. Sie identifiziert potenzielle Probleme mit wachsender Nutzerbasis und stellt sicher, dass der Agent funktionsfähig und reaktionsfähig bleibt. Wenn du deinen Conversational Agent nicht unter Last testest, kann er während der Entwicklung und Tests gut funktionieren, aber bei echtem Nutzerverkehr scheitern.

Bevor Sie die technischen Aspekte der Leistungstests angehen, definieren Sie Akzeptanzkriterien, die das gewünschte Nutzererlebnis erfassen, und identifizieren Sie konversationelle Anwendungsfälle, die unterschiedliche Lastmuster erzeugen. Dieser Artikel behandelt kurz die Planungsphase der Leistungstests und gibt Hinweise zu den technischen Besonderheiten der Lastgenerierung für Ihre Gesprächsagenten.

Plane deinen Leistungstest

Ein Leistungstestplan sollte ein definiertes Ziel und spezifische Akzeptanzkriterien haben. Beispielsweise messen einige Tests die Leistung eines Systems unter Standardlast, während andere Tests extremere Belastungen erzeugen, die absichtlich dazu führen, dass ein System nicht mehr ansprechbar wird. Bei der Messung der Leistung von Unterhaltungs-Agents, die mit Copilot Studio erstellt wurden, entwerfen Sie Tests, um entweder die grundlegende Leistung des Agents oder die erwartete hohe Belastung zu messen, aber konfigurieren Sie keine Tests, um übermäßigen Stress zu erzeugen.

Warnung

Eine erzeugte Belastung, die das erwartete Nutzerverhalten übersteigt, kann zu einer Überschreitung des Nachrichtenkonsums und unerwünschter Drosselung der Umgebungen führen. Um Drosselung und Überverbrauch zu vermeiden, stellen Sie sicher, dass:

Deine Tests ahmen realistisches Nutzerverhalten nach.
Ihr Mieter und Ihre Umgebung haben ausreichend Lizenzen und Abrechnungsrichtlinien zugewiesen.

Verstehen Sie das Verhalten der Nutzer

Beginnen Sie Ihren Testplan, indem Sie analysieren, wie Nutzer sich in verschiedenen konversationellen Anwendungsfällen verhalten sollen. Aus Lasttest-Sicht kann das Nutzerverhalten je nach Anwendungsfall variieren, was die Nutzer sagen oder fragen (zum Beispiel "Ich möchte einen Flug buchen" oder "Wie ist Ihre Rückgaberegelung?"), die Anzahl der Nutzer, die einen bestimmten Anwendungsfall antreibt, und die Engagement-Muster der Nutzer (zum Beispiel, dass Nutzer sich mittags alle auf einmal verbinden, im Gegensatz zu einem allmählichen Aufbau über den Tag hinsichtlich).

Die folgende Tabelle beschreibt das erwartete Nutzerverhalten eines Bank-Gesprächsagenten.

Anwendungsfall	Häufige Nutzeräußerungen	Interaktionsmuster
Darlehensantrag	Ich brauche einen neuen Kredit . Ich möchte einen neuen Kredit beantragen...	Im Durchschnitt 1.000 gleichzeitige Nutzer während des Tages
Bilanzuntersuchung	Wie hoch ist mein Kontostand? Zeig meinen Kontostand ...	10.000 gleichzeitige Nutzer, alle verbinden sich gegen Mittag
Weitere Anwendungsfälle	…	…

Erstellen eines Testplans

Nachdem Sie das Nutzerverhalten in Bezug auf Anwendungsfälle und Engagement-Muster definiert haben, denken Sie über die Details Ihres Leistungstestplans nach. Mindestens sollte ein Leistungstestplan für einen Gesprächsagenten ein Ziel, Testszenarien, Schlüsselindikatoren, detaillierte Testdaten und Erfolgskriterien festlegen.

Hat Ihr Team bereits Gesprächsszenarien für Auswertungen definiert, entweder durch das Erstellen von Testfällen im Produkt oder mithilfe des Copilot Studio Kit, können Sie diese Szenarien wiederverwenden, um mit der Erstellung Ihres Testplans zu beginnen.

Der folgende Beispiel-Testplan ist für einen Bank-Conversational-Agenten. Der Plan verwendet die zuvor identifizierten konversationellen Anwendungsfälle, um ein Baseline-Testszenario und ein Lasttestszenario zu definieren. Das Testen des Ausgangswerts bewertet die normale Leistung, identifiziert Probleme während der regulären Nutzung, während eine höhere Auslastung zeigen kann, wie das System mit Spitzennutzeraktivität umgeht.

`Section`	Einzelheiten
Objective	Bewerten Sie die Leistung des Bankgesprächsagenten unter Basis- und Lastbedingungen
Geltungsbereich	Im Umfang: Basis- und Lasttests Außerhalb des Umfangsbereichs: Stresstests
Wichtigste Erfolgskennzahlen (Key Performance Indicators, KPIs)	Antwortzeit: Zeit, um auf Nutzeranfragen zu antworten Fehlerquote: Prozentsatz der fehlgeschlagenen Antworten
Testszenarien	Baseline-Test Darlehensantrag Benutzerzahl: 1.000 gleichzeitige Nutzer Dauer: 15 Minuten. Auslastungstests Darlehensantrag Benutzerzahl: 1.000 gleichzeitige Nutzer Dauer: 15 Minuten. Bilanzuntersuchung Benutzerzahl: 10.000 gleichzeitige Nutzer Dauer: 5 Minuten
Testdaten	Darlehensantrags-Mehrfach-Äußerungen Kontostandabfrage mehrschrittige Dialoge
Tools	Leistungstest-Werkzeug: Apache JMeter Berichterstattung: JMeter-integrierte Berichte
Erfolgskriterien	Baseline: 95% Antworten unter 2 Sekunden; Fehlerquote <0,5% Laden: 90% Antworten unter 3 Sekunden; Fehlerquote <1%

Arbeiten Sie mit technischen und geschäftlichen Stakeholdern zusammen, um einen Testplan zu entwickeln, der den Bedürfnissen Ihrer Organisation entspricht. Stimmen Sie den wichtigsten Parametern im Beispiel zu. Erfahren Sie, wie Sie Werkzeuge wie Apache JMeter verwenden, um Testskripte in Performance-Testreferenzbeispielen und Richtlinien zu erstellen.

Simuliere Gespräche mit mehreren Runden

Die im Plan angegebenen Testdaten implizieren, dass der geplante Performance-Test mehrere Gesprächsrunden durchführt. Mehrrundige Gespräche sind eine Reihe von Hin- und Her-Nachrichten, die zwischen den simulierten Nutzern und dem Konversationsagent gesendet werden. Leistungstests sollten mehrere Runden-Gespräche antreiben, sodass die erzeugte Last dem echten Nutzerverhalten ähnelt. Außerdem werden einige langlaufende Aktionen oder API-Aufrufe nur dann aktiviert, wenn Nutzer eine bestimmte Reihe von Entscheidungen treffen oder ein bestimmtes Muster von Nachrichten innerhalb einer Konversation senden.

Im folgenden Beispiel wird die Backend-API der Bank erst aufgerufen, nachdem der Nutzer ein Sparkonto ausgewählt hat. Die Antwortzeit für die erste Nachricht ist weniger als eine Sekunde, da nur die Intent-Erkennungsmaschine der Agenten beteiligt ist. Die letzte Nachricht wartet auf eine Antwort von einer Backend-API, was zusätzliche Latenz verursacht. Ohne die Simulation eines Mehrrunden-Gesprächs wären keine Performance-Probleme aufgetreten.

Screenshot eines Testskripts, das eine Mehrrunden-Konversation simuliert und Benutzereingaben und Agentenantworten mit unterschiedlichen Reaktionszeiten darstellt.

Die Simulation von Mehrrundengesprächen erfordert die Planung sowohl bei der Vorbereitung der Testdaten als auch beim Erstellen von Testskripten. Fügen Sie eine Reihe von Benutzeräußerungen in Ihre Testdaten ein, die vollständige Konversationsflüsse auslösen, wie im Beispiel gezeigt. Stelle sicher, dass deine Testskripte mehrere Äußerungen in einem einzigen Gespräch senden.

Feedback

War diese Seite hilfreich?

Last updated on 2026-03-10