Freigeben über


Verwenden von Genie Code für die Pipelineentwicklung

Von Bedeutung

Dieses Feature befindet sich in der Public Preview.

Auf dieser Seite wird Genie Code für die Pipelineentwicklung eingeführt, ein KI-Daten-Agent, der durch Auswählen des Agent-Modus in Genie Code verfügbar ist. Entwickelt speziell für Lakeflow Spark Declarative Pipelines (SDP) und den Lakeflow Pipelines Editor, untersucht Daten, generiert und führt Pipelinecode aus und behebt Fehler aus einer einzigen Eingabeaufforderung.

Was ist Genie Code für die Pipelineentwicklung?

Genie Code im Agent-Modus ist ein autonomer Partner, der ganze mehrstufige Data Engineering-Workflows in SDP und dem Lakeflow Pipelines Editor automatisieren kann.

Verwenden Sie den Data Engineering Agent.

Im Vergleich zum Genie Code-Chatmodus verfügt der Agent-Modus über erweiterte Funktionen: Planen einer Lösung, Abrufen relevanter Ressourcen, Ausführen von Code, Verwenden von Pipelineausgaben, um Ergebnisse zu verbessern, Fehler automatisch zu beheben und vieles mehr.

Genie Code im Agent-Modus kann gesamte Pipelines von Grund auf neu planen und generieren oder die Arbeit an einer vorhandenen Pipeline beschleunigen. Der Agent arbeitet mit Ihnen zusammen, um seine Pläne zu genehmigen und die nächsten Schritte zu bestätigen, bevor Sie fortfahren. Mit Ihrer Genehmigung kann Genie Code Tools verwenden, um Aufgaben wie das Durchsuchen von Tabellen, das Bearbeiten einer SQL- oder Python-Quelldatei, das Ausführen von Pipelineupdates und das Lesen von Pipeline-Datasets auszuführen.

Der Zugriff und die Aktionen von Genie Code unterliegen den Berechtigungen des Benutzers. Sie kann nur auf Daten zugreifen, für die Sie Zugriff haben und Vorgänge ausführen, für die Sie über Berechtigungen verfügen.

Hinweis

Wenn Sie den Agent-Modus in Genie Code aktivieren, passt Genie Code seine Funktionen basierend auf den Features an, die Sie derzeit in Databricks verwenden. Im Lakeflow Pipelines Editor konzentriert sich Genie Code beispielsweise auf Pipelinebearbeitungs- und Datentechnikaufgaben. In Notizbüchern und dem SQL-Editor unterstützt Genie Code die Datensuche und -analyse. Weitere Informationen finden Sie unter Verwenden von Genie Code für Data Science .

Anforderungen

Um Genie Code für Data Engineering zu verwenden, benötigt Ihr Arbeitsbereich Folgendes:

Verwenden von Genie Code für die Pipelineentwicklung

So verwenden Sie die agentischen Funktionen von Genie Code für die Pipelineentwicklung:

  1. Öffnen Sie im Lakeflow Pipelines Editor den Randbereich von Genie Code, indem Sie auf das Symbol Genie Code in der oberen rechten Ecke Ihres Arbeitsbereichs.

  2. Wählen Sie in der unteren rechten Ecke "Agent" aus. Dadurch wird der Agent-Modus von Genie Code aktiviert, sodass Sie die agentischen Data Engineering-Funktionen von Genie Code nutzen können.

  3. Geben Sie eine Eingabeaufforderung für Genie Code ein. Sie können z. B. Fragen zu Ihrer Pipeline stellen, z. B. "diese Pipeline beschreiben". Sie können sie auch bitten, neue Datasets hinzuzufügen, z. B. "erstellen Sie silver_sales_data in einer neuen Datei, die aus bronze_sales_data liest, und bereinigt die Daten und fügt nützliche Qualitätserwartungen hinzu."

    Hinweis

    Genie Code respektiert die Unity-Katalogberechtigungen des Benutzers, sodass er nur auf die Daten und Pipelinequelle zugreifen kann, auf die Sie Zugriff haben.

  4. Da Genie Code seine Antwort generiert, hält er oft an, um Ihre Eingabe zu erhalten:

    • Für komplexere Aufgaben kann Genie Code einen schrittweisen Plan erstellen und Fragen stellen. Beantworten Sie ihre klarstellenden Fragen, damit sie ihren Plan verbessern können.

    • Wenn Genie Code ausführen oder eine Pipeline aktualisieren muss, fordert er Ihre Genehmigung an, bevor Sie fortfahren. Zulassen oder Ablehnen der Anforderung. Sie können auch "Zulassen" in diesem Thread (verweisen auf Genie Code-Unterhaltungsthread) oder "Immer zulassen" auswählen.

      Von Bedeutung

      Genie Code im Agent-Modus kann Code in Ihrer Pipeline generieren und ausführen. Obwohl es Schutzschienen hat, um gefährliche Aktionen zu verhindern, besteht immer noch Gefahr. Sie sollten sie nur mit Daten verwenden, denen Sie vertrauen, und Sie sollten den Code überprüfen, bevor Sie ihn ausführen.

    • Wie Genie Code seine Arbeit fortsetzt, werden Sie möglicherweise aufgefordert, "Weiter" oder "Ablehnen" auszuwählen. Überprüfen Sie die vorhandene Arbeit, und wählen Sie dann "Weiter" aus, damit sie mit den nächsten Schritten fortfahren kann, oder "Ablehnen ", um sie anzuweisen, etwas anderes zu versuchen.

    • Klicken Sie auf das rote Stoppsymbol, um Genie Code während der Arbeit zu beenden.

Genie Code kann neue Dateien erstellen, Text, Abfragen und Code generieren, die Dateien oder Pipelines ausführen und auf die Ausgabedatensätze zugreifen, um die Ergebnisse zu interpretieren.

Hinweis

Damit Genie Code seine Arbeit fortsetzen und die nächsten Schritte unternehmen kann, müssen Sie auf der aktuellen Registerkarte bleiben, in der es arbeitet.

Tipp

Sie können Anweisungen für den Genie Code hinzufügen, um sie in den meisten Antworten zu verwenden. Wenn Sie z. B. Über Codekonventionen verfügen, die Sie verwenden möchten, oder bevorzugte Bibliotheken, können Sie diese Richtlinien den Anweisungen für Genie Code hinzufügen. Sie können auch Fähigkeiten erstellen, um Genie Code mit speziellen Fähigkeiten für Ihre domänenspezifischen Aufgaben zu erweitern. Weitere Details und andere Tipps finden Sie unter Tipps zur Verbesserung von Genie Code-Antworten.

Fähigkeiten

Im Agent-Modus kann Genie Code bei den meisten Pipelineentwicklungsaufgaben helfen. Wichtige Funktionen sind:

  • Datenermittlung: Genie Code kann Tabellen im Arbeitsbereich durchsuchen, um die erforderlichen Daten für eine Aufgabe zu finden.
  • Pipeline-Code-Bearbeitungen: Genie Code kann mehrere Dateien gleichzeitig erstellen und bearbeiten. Es informiert Sie darüber, welche Dateien sie ändern, und zeigt Ihnen den Code-Diff in jeder Datei, damit Sie die Änderungen einzeln oder alle am Ende überprüfen können.
  • Pipelineausführung: Genie Code kann einzelne Dateien ausführen, die Pipeline trocken ausführen oder eine vollständige Aktualisierung durchführen. Wenn Genie Code fortfahren möchte, fordert es ihre Bestätigung, bevor es dies tut.
  • Verstehen und Verbesserung des Pipelineverhaltens: Genie Code kann Datensätze und Pipelineausgaben prüfen, um zu verstehen, was eine Pipeline Ende-zu-Ende ausführt und warum. So können Sie beispielsweise Transformationen zusammenfassen, nachverfolgen, wie Daten in nachgeschaltete Tabellen fließen, und unerwartete Änderungen in Zeilenanzahlen oder Schemas hervorheben. Wenn potenzielle Probleme mit der Datenqualität auftreten, kann Genie Code Ihnen helfen, ihre Ursache zu begründen und vorzuschlagen, wo und wie sie in der Pipeline behandelt werden.

Diese Funktionen unterstützen häufige Anwendungsfälle wie:

  • Erstellen einer neuen Pipeline: Genie Code kann bei allen Schritten beim Erstellen einer neuen Medallion-Architekturpipeline helfen, von der Erfassung von Daten bis hin zum Standardisieren und Bereinigen der Daten, zum Transformieren und Analysieren der Daten.
  • Erläutern einer Pipeline: Genie Code kann eine vorhandene Pipeline analysieren und erklären, damit Sie schnell hochfahren können.
  • Beheben von Problemen: Wenn Sie Fehler haben, kann Genie Code dabei helfen, die Probleme zu diagnostizieren und zu beheben, indem sie mehrere Dateien durchlaufen, bis das Problem behoben ist.

Examples

Probieren Sie die folgenden Eingabeaufforderungen aus, um zu beginnen:

  • "Erstellen und Ausführen einer Medallion-Architekturpipeline zur Betrugserkennung mithilfe der Tabellentransaktionen und Kunden in my_catalog.my_schema."
  • "Erklären Sie jeden Schritt dieser Pipeline."
  • "Beheben des Fehlers in dieser Pipeline."

Nächste Schritte