Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Auf dieser Seite finden Sie eine Übersicht über das Upgrade eines Nicht-Unity-Katalogarbeitsbereichs auf den Unity-Katalog. Außerdem erhalten Sie Anweisungen zum Migrieren aus dem Legacy-Metaspeicher "Workspace-local Hive".
Übersicht über Upgradeschritte
Um auf den Unity-Katalog zu aktualisieren, müssen Sie:
- Stellen Sie Identitäten (Benutzer, Gruppen und Dienstprinzipale) direkt in Ihrem Azure Databricks-Konto bereit, wenn Sie dies noch nicht tun. Deaktivieren Sie die Identitätsbereitstellung auf Arbeitsbereichsebene.
- Konvertieren Sie alle arbeitsbereichslokalen Gruppen in Gruppen auf Kontoebene. Unity Catalog zentralisiert die Identitätsverwaltung auf Kontoebene.
- Fügen Sie den Arbeitsbereich an einen Unity-Katalogmetaspeicher an. Wenn kein Metastore für Ihre Arbeitsbereichsregion vorhanden ist, muss ein Kontoadministrator einen erstellen.
- Aktualisieren Von Tabellen und Ansichten, die im Hive-Metastore verwaltet werden, auf den Unity-Katalog.
- Gewähren Sie Benutzern, Gruppen oder Dienstprinzipalen Zugriff auf die aktualisierten Tabellen auf Kontoebene.
- Aktualisieren von Abfragen und Aufträgen, sodass sie nicht mehr auf die alten Hive-Metastore-Tabellen verweisen, sondern auf Unity Catalog-Tabellen.
- Deaktivieren Sie den Hive-Metaspeicher. Siehe Deaktivieren des Zugriffs auf den Hive-Metastore, der von Ihrem Azure Databricks-Arbeitsbereich verwendet wird.
UCX (ein Databricks Labs-Projekt) bietet Tools, mit denen Sie Ihren Unity Catalog-fremden Arbeitsbereich auf Unity Catalog upgraden können. UCX ist eine gute Wahl für größere Migrationen. Siehe Verwenden der UCX-Hilfsprogramme zum Upgrade Ihres Arbeitsbereichs auf Unity Catalog.
Vorbemerkungen
Bevor Sie beginnen, sollten Sie sich mit den grundlegenden Unity-Catalog-Konzepten, einschließlich Metastores und verwaltetem Speicher, vertraut machen. Siehe Was ist Unity Catalog?.
Sie sollten auch bestätigen, dass Sie die folgenden Anforderungen erfüllen:
Für die meisten Setupschritte müssen Sie ein Azure Databricks-Kontoadministrator sein. Für alle aufgabenspezifischen Aufgaben, für die weitere Berechtigungsanforderungen gelten, werden sie in der aufgabenspezifischen Dokumentation aufgeführt.
Der erste Azure Databricks-Kontoadministrator muss ein globaler Microsoft Entra ID-Administrator sein, wenn er sich zum ersten Mal bei der Azure Databricks-Kontokonsole anmeldet. Bei der ersten Anmeldung wird dieser Benutzer zu einem Azure Databricks-Kontoadministrator und benötigt nicht mehr die Rolle „Globaler Microsoft Entra ID-Administrator“, um auf das Azure Databricks-Konto zuzugreifen. Der erste Kontoadministrator kann Benutzer im Microsoft Entra ID-Mandanten als zusätzliche Kontoadministratoren zuweisen (die ihrerseits weitere Kontoadministratoren zuweisen können). Für zusätzliche Kontoadministratoren sind keine speziellen Rollen in Microsoft Entra ID erforderlich.
Die Arbeitsbereiche, die Sie dem Metastore anfügen, müssen sich im Azure Databricks Premium-Tarif befinden.
Upgrade auf Unity-Katalog-Demos
Sehen Sie sich die folgenden kurzen geführten Demos an, um wichtige Upgradeaufgaben in Aktion zu sehen. Jede Demo befasst sich mit einem bestimmten Schritt und Links zu detaillierten Dokumentationen, sofern zutreffend.
- Konvertiere arbeitsbereich-lokale Gruppen in Kontoebene-Gruppen
- Aktualisieren von Tabellen in Ihrem Hive-Metaspeicher auf Unity-Katalogtabellen
- Aktualisierung der Rechenressourcen für Unity Catalog
- Aktualisieren Sie Abfragen und Aufträge, um mit Ihren aktualisierten Tabellen zu arbeiten
Alternativ können Sie der Demo "UCX verwenden" folgen, um auf den Unity-Katalog zu aktualisieren.
Bereitstellung von Benutzern, Gruppen und Dienstprinzipalen für Ihr Konto
Unity Catalog verweist auf Identitäten auf Kontoebene. Bevor Sie einen Metaspeicher an Ihren Arbeitsbereich anfügen, sollten Sie die folgenden Schritte ausführen:
Wenn Sie SCIM verwenden, um Benutzer, Gruppen und Dienstprinzipale von Ihrem IdP in Ihren Arbeitsbereich bereitzustellen, deaktivieren Sie es, und richten Sie stattdessen die Bereitstellung für Ihr Azure Databricks-Konto ein. Siehe „Synchronisieren Sie Identitäten Ihres Identitätsanbieters“ und „Identitäten“.
Aktualisieren Sie alle Automatisierungen, die zur Verwaltung von Benutzern, Gruppen und Dienstprinzipalen konfiguriert wurden (z. B. SCIM-Bereitstellungs-Connectors und Terraform-Automatisierungen), damit sie auf Account-Endpunkte anstelle von Workspace-Endpunkten verweisen. Siehe SCIM-Bereitstellung auf Konto- und Arbeitsbereichsebene.
Arbeitsbereich-lokale Gruppen in Gruppen auf Kontoebene umwandeln
Siehe Migrieren arbeitsbereichslokaler Gruppen zu Kontogruppen.
Verbinden Ihres Arbeitsbereichs mit einem Metastore
Wenn Ihr Arbeitsbereich nicht für Unity Catalog aktiviert (an einen Metastore angefügt) ist, hängt der nächste Schritt davon ab, ob Sie bereits einen Unity-Catalog-Metastore für Ihre Arbeitsbereichsregion definiert haben:
- Wenn Ihr Konto bereits einen Unity-Catalog-Metastore für Ihre Arbeitsbereichsregion definiert hat, können Sie Ihren Arbeitsbereich einfach an den vorhandenen Metastore anfügen. Wechseln Sie zu "Arbeitsbereich aktivieren" für den Unity-Katalog.
- Wenn kein Unity-Katalogmetastore für die Region Ihres Arbeitsbereichs definiert ist, müssen Sie einen Metaspeicher erstellen und dann den Arbeitsbereich anfügen. Gehen Sie zu Erstellen eines Unity Catalog-Metaspeichers.
Aktualisieren Sie Tabellen in Ihrem Hive-Metastore zu Unity Catalog Tabellen
Wenn Sich Ihr Arbeitsbereich vor der Aktivierung für den Unity-Katalog in Dienst befand, verfügt er über einen Hive-Metaspeicher, der wahrscheinlich Daten enthält, die Sie weiterhin verwenden möchten. Databricks empfiehlt, die vom Hive-Metastore verwalteten Tabellen auf den Unity-Katalog-Metastore zu aktualisieren.
Option 1: Föderieren und anschließend externe Tabellen aktualisieren
Der empfohlene Ansatz besteht darin, zuerst den Hive-Metastore als externen Katalog zu verbinden und dann die fremden Tabellen vor Ort zu aktualisieren. Mit diesem zweistufigen Prozess können Sie Tabellen ohne Datenverschiebung migrieren und gleichzeitig den Tabellenverlauf, die Konfiguration, Berechtigungen und Ansichten beibehalten.
Verbinden Sie zuerst Ihren Hive-Metaspeicher als externer Katalog im Unity-Katalog. Auf diese Weise können Sie über den Unity-Katalog auf Ihre vorhandenen Tabellen zugreifen und sie für das Upgrade vorbereiten.
Anweisungen zum Verbund Ihres Hive-Metastores finden Sie unter Hive-Metastore-Partnerverbund: Aktivieren Sie Unity-Katalog zum Steuern von Tabellen, die in einem Hive-Metaspeicher registriert sind.
Hinweis
Wenn Sie sich dafür entscheiden, ihre Tabellen nicht zu aktualisieren und die Arbeit mit dem Verbundkatalog dauerhaft fortzusetzen, können Sie dies tun. Databricks empfiehlt jedoch, das Upgrade abzuschließen, um die Features des Unity-Katalogs vollständig nutzen zu können.
Nachdem Sie den Hive-Metaspeicher verbunden haben, können Sie die Fremdtabellen ohne Datenverschiebung auf Unity-Katalogtabellen aktualisieren. Dieser Workflow aktualisiert Tabellen an Ort und Stelle, wobei Tabellenverlauf, Konfiguration, Berechtigungen und Ansichten beibehalten werden.
Führen Sie den folgenden Befehl aus, um eine Fremdtabelle auf eine verwaltete Unity-Katalogtabelle zu aktualisieren:
ALTER TABLE <foreign_catalog>.<schema>.<table_name> SET MANAGED;
Databricks empfiehlt ein Upgrade auf eine verwaltete Tabelle, um die Optimierung des Unity-Katalogs freizuschalten, die automatische Wartung (Komprimierung, Clustering, Bereinigung) und Leistungsverbesserungen umfasst. Führen Sie den folgenden Befehl aus, um stattdessen eine Fremdtabelle auf eine externe Tabelle im Unity-Katalog zu aktualisieren:
ALTER TABLE <foreign_catalog>.<schema>.<table_name> SET EXTERNAL;
Nachdem Ihre Tabellen migriert wurden und Sie nicht mehr auf die Verknüpfung zu Ihrem externen Katalog angewiesen sind, können Sie die Verbindung entfernen.
ALTER CATALOG <foreign_catalog> DROP CONNECTION;
Weitere Informationen zu diesem Workflow finden Sie unter Konvertieren einer Fremdtabelle in eine verwaltete Unity-Katalogtabelle.
Option 2: Direktes Upgrade von Tabellen
Wenn Sie den föderationsbasierten Upgradeworkflow nicht verwenden möchten, können Sie Tabellen direkt mithilfe von SYNC oder CREATE TABLE AS SELECT. Weitere Informationen finden Sie unter Upgrade von Hive-Tabellen und Sichten für Unity Catalog.
Gewähren des Zugriffs auf aktualisierte oder Verbundtabellen
Gewähren Sie Benutzern, Gruppen oder Dienstprinzipalen Zugriff auf die neuen Tabellen auf Kontoebene. Weitere Informationen finden Sie unter Verwalten von Berechtigungen in Unity Catalog.
Aktualisieren von Abfragen und Aufträgen für die Arbeit mit aktualisierten Tabellen und Pfaden zu Daten
Während Sie vom metastore "workspace-local Hive" zum Unity-Katalog wechseln, können Sie weiterhin Abfragen und Aufträge verwenden, die auf die im Hive-Metaspeicher registrierten Daten verweisen, indem Sie den Hive-Metastore-Partnerverbund verwenden (empfohlen) oder die unter "Arbeiten mit dem Legacy-Hive-Metastore" beschriebene Syntax zusammen mit Dem Unity-Katalog. Schließlich sollten Sie jedoch alle Abfragen und Aufträge aktualisieren, um Unity Catalog-Tabellen und -Syntax zu verwenden.
Aktualisieren Sie ebenso Abfragen und Aufträge, die den pfadbasierten Zugriff auf Dateien verwenden, um stattdessen Unity-Katalogvolumes zu verwenden.
Ausführliche Empfehlungen finden Sie unter Aktualisieren von Aufträgen, wenn Sie legacy-Arbeitsbereiche auf den Unity-Katalog aktualisieren.