Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Cet article donne une vue d’ensemble générale de l’architecture Azure Databricks, y compris son architecture d’entreprise en combinaison avec Azure.
Objets Databricks
Un compte Azure Databricks est la construction de niveau supérieur que vous utilisez pour gérer Azure Databricks au sein de votre organisation. Au niveau du compte, vous gérez :
- Identité et accès : utilisateurs, groupes, principaux de service et approvisionnement d’utilisateurs.
Gestion de l’espace de travail : créez, mettez à jour et supprimez des espaces de travail dans plusieurs régions.
Gestion des metastores du catalogue Unity : créez et attachez un metastore à des espaces de travail.
Gestion de l’utilisation : facturation, conformité et stratégies.
Un compte peut contenir plusieurs espaces de travail et des metamagasins du catalogue Unity.
Les espaces de travail sont l’environnement de collaboration dans lequel les utilisateurs exécutent des charges de travail de calcul telles que l’ingestion, l’exploration interactive, les travaux planifiés et la formation ML.
Les metastores du catalogue Unity sont le système de gouvernance central pour les ressources de données telles que les tables et les modèles ML. Vous organisez les données dans un metastore sous un espace de noms à trois niveaux :
<catalog-name>.<schema-name>.<object-name>
Les metastores sont attachés aux espaces de travail. Vous pouvez lier un metastore unique à plusieurs espaces de travail Azure Databricks dans la même région, ce qui donne à chaque espace de travail la même vue de données. Les contrôles d’accès aux données peuvent être gérés dans tous les espaces de travail liés.
Architecture de l’espace de travail
Azure Databricks fonctionne à partir d’un plan de contrôle et d’un plan de calcul.
Le plan de contrôle comprend les services back-end qu’Azure Databricks gère dans votre compte Azure Databricks. Le plan de contrôle se trouve dans le compte Azure Databricks, et non dans votre compte cloud. L’application web se trouve dans le plan de contrôle.
Le plan de calcul est l’endroit où vos données sont traitées. Il existe deux types de plans de calcul en fonction du calcul que vous utilisez.
- Pour les calculs serverless, les ressources de calcul serverless s’exécutent dans un plan de calcul serverless dans votre compte Azure Databricks.
- Pour les calculs Azure Databricks classiques, les ressources de calcul se trouvent dans votre abonnement Azure dans ce qu’on appelle le plan de calcul classique. Ce terme fait référence au réseau de votre abonnement Azure et à ses ressources.
Pour en savoir plus sur le calcul classique et le calcul serverless, consultez Calcul.
Architecture d’espace de travail classique
Note
Les espaces de travail classiques sont appelés espaces de travail hybrides dans le portail Azure.
Les espaces de travail Azure Databricks classiques ont un compte de stockage associé appelé compte de stockage d’espace de travail. Le compte de stockage d’espace de travail est situé dans votre abonnement Azure.
Le diagramme suivant décrit l’architecture Générale d’Azure Databricks pour les espaces de travail classiques.
Architecture de l’espace de travail sans serveur
Le stockage d’espace de travail dans les espaces de travail serverless est stocké dans le stockage par défaut de l’espace de travail. Vous pouvez également vous connecter à votre compte de stockage cloud pour accéder à vos données. Le diagramme suivant décrit l’architecture générale pour les espaces de travail serverless.
Plan de calcul serverless
Dans le plan de calcul serverless, les ressources de calcul Azure Databricks s’exécutent dans une couche de calcul au sein de votre compte Azure Databricks. Azure Databricks crée un plan de calcul serverless dans la même région Azure que le plan de calcul classique de votre espace de travail. Sélectionnez cette région lors de la création d’un espace de travail.
Pour protéger les données client dans le plan de calcul sans serveur, le calcul sans serveur opère au sein d'une frontière réseau dédiée à l'espace de travail, avec différentes couches de sécurité pour isoler les différents espaces de travail des clients Azure Databricks et des contrôles réseau supplémentaires entre les clusters appartenant au même client.
Pour en savoir plus sur la mise en réseau dans le plan de calcul serverless, consultez Mise en réseau d’un plan de calcul serverless.
Plan de calcul classique
Dans le plan de calcul classique, les ressources de calcul Azure Databricks s’exécutent dans votre abonnement Azure. De nouvelles ressources de calcul sont créées dans le réseau virtuel de chaque espace de travail dans l’abonnement Azure du client.
Un plan de calcul classique a une isolation naturelle, car il s’exécute dans le propre abonnement Azure de chaque client. Pour en savoir plus sur la mise en réseau dans le plan de calcul classique, consultez Mise en réseau d’un plan de calcul classique.
Pour la prise en charge régionale, consultez Régions Azure Databricks.
Stockage d’espace de travail
Le stockage d’espace de travail est géré différemment en fonction du type de votre espace de travail. Pour plus d’informations sur les types d’espace de travail, consultez Créer un espace de travail.
Le stockage d’espace de travail contient deux catégories de données : données du système de fichiers d’espace de travail et données système d’espace de travail. Les deux sont séparés de vos propres objets de données (tels que les tables et volumes du catalogue Unity).
Données du système de fichiers d’espace de travail
Le système de fichiers d’espace de travail stocke les ressources que les utilisateurs créent et gèrent via l’interface utilisateur Azure Databricks. Voici quelques-uns des éléments suivants :
- Notebooks
- Requêtes et tableaux de bord SQL
- Alertes
- Dépôts (dossiers attachés aux référentiels Git)
- Bibliothèques (
.whl,.jar) - Fichiers Python, fichiers de configuration YAML et autres petits fichiers
Pour plus d’informations sur les fichiers d’espace de travail, consultez Qu’est-ce que les fichiers d’espace de travail ?. Pour obtenir la liste complète des ressources de l’espace de travail, consultez Présentation des objets d’espace de travail.
Données système de l’espace de travail
Chaque espace de travail Azure Databricks stocke également les données système générées en interne par les fonctionnalités Azure Databricks. Ces données sont trop volumineuses pour stocker dans la mémoire ou les bases de données, ou doivent être conservées au-delà de la durée de vie d’une seule ressource de calcul. Voici quelques exemples de données système d’espace de travail :
- Résultats de requête SQL et résultats de requête mis en cache
- Résultats de l’exécution du travail
- Révisions de bloc-notes
- Plans de requête SQL utilisés pour l’observabilité
- Journaux de cluster
Pour plus d’informations sur la configuration du stockage de l’espace de travail pour chaque type d’espace de travail, consultez les sections ci-dessous.
Espaces de travail sans serveur
Les espaces de travail serverless utilisent le stockage par défaut, qui est un emplacement de stockage entièrement managé pour les données système d’espace de travail internes et les ressources de données Unity Catalog. Les espaces de travail serverless prennent également en charge la possibilité de se connecter à vos emplacements de stockage cloud pour vos propres catalogues, tables et autres ressources de données. Consultez stockage par défaut dans Databricks.
Espaces de travail classiques
Important
Ne supprimez pas ou modifiez le stockage de l’espace de travail dans votre compte cloud. Un espace de travail Azure Databricks dépend à la fois de ses bases de données de plan de contrôle et de son stockage d’espace de travail pour une opération correcte. Si le stockage de l’espace de travail est supprimé, l’espace de travail ne peut pas être récupéré.
Dans les espaces de travail classiques, les données du système d’espace de travail sont distinctes de What is DBFS ?. Bien que les deux puissent résider dans le même compte de stockage cloud dans des espaces de travail classiques, ils servent des objectifs différents. La racine DBFS est un système de fichiers accessible par l’utilisateur, tandis que les données du système d’espace de travail sont utilisées en interne par les fonctionnalités d’Azure Databricks.
Le compte de stockage d’espace de travail contient les éléments suivants :
- Données système d’espace de travail : données internes générées par les fonctionnalités Azure Databricks
- Catalogue Unity de l'espace de travail : si votre espace de travail a été activé automatiquement pour Unity Catalog, le compte de stockage de l'espace de travail contient le catalogue par défaut de l'espace de travail. Tous les utilisateurs de votre espace de travail peuvent créer des ressources dans le schéma par défaut dans ce catalogue. Consultez Bien démarrer avec Unity Catalog.
- DBFS (hérité) : le répertoire racine de DBFS et les montages DBFS sont des fonctions héritées et pourraient être désactivés dans votre espace de travail. DBFS (Databricks File System) est un système de fichiers distribué dans les environnements Azure Databricks accessibles sous l’espace
dbfs:/de noms. La racine et les montages DBFS se trouvent tous les deux dans l’espace de nomsdbfs:/. Le stockage et l’accès aux données à l’aide de la racine DBFS ou des montages DBFS est un modèle déconseillé et non recommandé par Databricks. Pour plus d’informations, consultez l’article Qu’est-ce que DBFS ?.
Pour limiter l’accès à votre compte de stockage d’espace de travail à partir de ressources et réseaux autorisés uniquement, consultez l’article Activer la prise en charge de pare-feu pour votre compte de stockage d’espace de travail.