Freigeben über


Probleme bei der Datenverarbeitung beheben

Dieser Artikel bietet Ihnen Ressourcen, die Sie im Falle von Problemen mit dem Rechenverhalten in Ihrem Arbeitsbereich verwenden können. Die Themen in diesem Artikel beziehen sich auf Startprobleme bei Computersystemen.

Weitere Artikel zur Problembehandlung finden Sie unter:

Verwenden von Genie Code zum Debuggen von Computeumgebungsfehlern

Genie Code kann dabei helfen, Korrekturen für Bibliotheksinstallationsfehler zu diagnostizieren und vorzuschlagen.

Auf der Seite "Bibliotheken " der Compute wird ein Avatar-Assistent-Symbol angezeigt. Die Schaltfläche "Fehler diagnostizieren" wird neben dem Namen des fehlgeschlagenen Pakets und in den modalen Details angezeigt, die angezeigt werden, wenn Sie auf das fehlgeschlagene Paket klicken. Klicken Sie auf das Symbol des Avatar-Assistenten. Diagnostizieren Sie den Fehler, um den Genie-Code zur Unterstützung beim Debuggen zu verwenden. Genie Code wird den Fehler diagnostizieren und mögliche Lösungen vorschlagen.

Verwenden Sie den Assistenten zum Debuggen von Installationsfehlern bei der Computebibliothek.

Sie können Genie Code auch verwenden, um Computerumgebungsfehler in einem Notizbuch zu debuggen. Siehe Debugumgebungsfehler.

Ein neuer Rechner reagiert nicht oder der Fehler im Ereignisprotokoll lautet: „Das Netzwerk der Computer-Ebene ist falsch konfiguriert“.

Problem: Nach einer erfolgreichen Arbeitsbereichsbereitstellung reagiert die erste Testberechnung nicht. Nach ungefähr 20 bis 30 Minuten wird beim Überprüfen des Compute-Ereignisprotokolls eine Fehlermeldung wie die folgende angezeigt:

The compute plane network is misconfigured. Please verify that the network for your compute plane is configured correctly. Error message: Node daemon ping timeout in 600000 ms …

Ursache: Die vorherige Fehlermeldung gibt an, dass das Routing oder die Firewall falsch ist. Azure Databricks hat VM-Instanzen für einen neuen Berechnungsauftrag angefordert, es dauerte jedoch lange, bis die VM-Instanz gestartet und mit dem Control Plane verbunden war. Der Compute-Manager beendet die Instanzen und meldet diesen Fehler.

Empfohlene Lösung: Ihre Netzwerkkonfiguration muss es Compute-Knoteninstanzen ermöglichen, erfolgreich eine Verbindung mit der Databricks-Steuerungsebene herzustellen. Für eine schnellere Problembehandlungsmethode als die Verwendung eines Rechners können Sie eine VM-Instanz in einem der Arbeitsbereichssubnetze bereitstellen und typische Schritte zur Problembehandlung im Netzwerk ausführen (z. B. nc, ping, telnet oder traceroute).

Siehe IP-Adressen und Domänen für Azure Databricks-Dienste und -Ressourcen für Zugriffsdomänen, IPs und Relay-CNAMEs nach Region. Stellen Sie für den Artefaktspeicher sicher, dass ein erfolgreicher Netzwerkpfad zum Azure Blob Storage vorhanden ist.

Im folgenden Beispiel wird die Azure-Region westus verwendet:

# Verify access to the web application
nc -zv 40.118.174.12 443
nc -zv 20.42.129.160 443

# Verify access to the secure compute connectivity relay
nc -zv tunnel.westus.azuredatabricks.net 443

# Verify Artifact Blob storage access
nc -zv dbartifactsprodwestus.blob.core.windows.net 443
nc -zv arprodwestusa1.blob.core.windows.net 443
..
nc -zv arprodwestusa15.blob.core.windows.net 443
nc -zv dbartifactsprodwestus2.blob.core.windows.net 443

# Verify Metastore Database access
nc -zv consolidated-westus-prod-metastore.mysql.database.azure.com 3306
nc -zv consolidated-westus-prod-metastore-addl-1.mysql.database.azure.com 3306
nc -zv consolidated-westus-prod-metastore-addl-2.mysql.database.azure.com 3306
nc -zv consolidated-westus-prod-metastore-addl-3.mysql.database.azure.com 3306
nc -zv consolidated-westus2c2-prod-metastore-addl-1.mysql.database.azure.com 3306

# Verify Log Blob storage access
nc -zv dblogprodwestus.blob.core.windows.net 443

Wenn die vorherigen Befehle ordnungsgemäß zurückgegeben werden, ist der Netzwerkpfad möglicherweise ordnungsgemäß konfiguriert, aber es gibt möglicherweise ein weiteres Problem, wenn Sie eine Firewall verwenden. Die Firewall kann eine umfassende Paketüberprüfung, SSL-Prüfung oder einen ähnlichen Vorgang durchführen, was dazu führt, dass bei Azure Databricks-Befehlen ein Fehler auftritt. Führen Sie mithilfe einer VM-Instanz im Azure Databricks-Subnetz den folgenden Befehl aus, und ersetzen Sie dabei <token> durch Ihr persönliches Zugriffstoken und <workspace-url> durch die URL für Ihren Arbeitsbereich:

curl -X GET -H 'Authorization: Bearer <token>' [https://](https://):re[workspace-url]/api/2.0/clusters/spark-versions

Wenn bei der vorherigen Anforderung ein Fehler auftritt, führen Sie den Befehl noch mal mit der -k-Option zum Entfernen der SSL-Überprüfung aus. Wenn dies funktioniert, verursacht die Firewall ein Problem mit SSL-Zertifikaten.

Sehen Sie sich die SSL-Zertifikate an, indem Sie den folgenden Befehl ausführen, und ersetzen Sie dabei <workspace-url> durch die URL für Ihren Arbeitsbereich:

openssl s_client -showcerts -connect <workspace-url>:443

Der vorherige Befehl zeigt den Rückgabecode und die Azure Databricks-Zertifikate an. Wenn ein Fehler zurückgegeben wird, ist Ihre Firewall möglicherweise falsch konfiguriert.

Beachten Sie, dass SSL-Probleme keine Netzwerkebenenprobleme sind. Das Anzeigen von Datenverkehr in der Firewall zeigt diese SSL-Probleme nicht an. Quell- und Zielanforderungen funktionieren erwartungsgemäß.

Probleme bei der Verwendung Ihres Metastore- oder Compute-Ereignisprotokolls umfassen METASTORE_DOWN-Ereignisse

Problem: Ihr Arbeitsbereich scheint eingerichtet zu sein, und Sie können Rechenressourcen einrichten, aber Sie haben METASTORE_DOWN Ereignisse in Ihrem Compute-Ereignisprotokoll, oder Ihr Metastore scheint nicht zu funktionieren.

Empfohlene Lösung: Überprüfen Sie, ob Sie eine Web Application Firewall (WAF) wie einen Squid-Proxy verwenden. Computemember müssen eine Verbindung mit mehreren Diensten herstellen, die nicht über eine WAF funktionieren.