Condividi tramite


Creare pool di Spark personalizzati in Microsoft Fabric

Usare pool di Spark personalizzati per personalizzare il calcolo per i carichi di lavoro in Fabric. È possibile scegliere le dimensioni del nodo, configurare il comportamento di scalabilità automatica e abilitare l'allocazione dinamica dell'executor.

I pool personalizzati consentono di bilanciare le prestazioni e i costi consentendo di impostare limiti di scalabilità che corrispondono alla domanda del carico di lavoro.

Se si usano già pool di avvio, i pool personalizzati sono un'opzione complementare quando è necessario un maggiore controllo sul ridimensionamento e sul comportamento di ridimensionamento per carichi di lavoro specifici. Usare i pool di avvio per l'avvio rapido e le impostazioni predefinite e passare a pool personalizzati quando è necessaria l'ottimizzazione di calcolo specifica del carico di lavoro. Per altre informazioni sui pool di avvio, vedere Configurare i pool di avvio in Fabric.

Prerequisiti

Per creare un pool di Spark personalizzato:

  • È necessario il ruolo di amministratore nell'area di lavoro.
  • Un amministratore delle risorse deve abilitare i pool personalizzati di aree di lavoro nelle impostazioni di Calcolo Spark per le risorse.

Per altre informazioni, vedere Configurare e gestire le impostazioni di data science e ingegneria dei dati per le capacità di Fabric.

Creare pool di Spark personalizzati

Per creare o gestire il pool di Spark associato all'area di lavoro:

  1. Passare all'area di lavoro e selezionare Impostazioni area di lavoro.

    Screenshot che mostra dove selezionare Ingegneria dei dati nel menu Impostazioni dell'area di lavoro.

  2. Selezionare l'opzione Data Engineering/Science per espandere il menu, quindi selezionare Impostazioni Spark.

    Screenshot che mostra la visualizzazione dei dettagli delle impostazioni di Spark.

  3. Selezionare Nuovo pool dall'elenco a discesa Pool predefinito per l'area di lavoro per creare un nuovo pool di Spark personalizzato. È possibile creare più pool personalizzati e selezionarli come pool predefinito per l'area di lavoro.

  4. Nella pagina Crea nuovo pool immettere un nome del pool. Selezionare una famiglia di nodi (ad esempio ottimizzata per la memoria) e dimensioni del nodo in base ai requisiti del carico di lavoro. Per altre informazioni sulle dimensioni dei nodi, vedere la sezione Opzioni relative alle dimensioni del nodo di seguito.

    Suggerimento

    Le dimensioni del nodo sono determinate dalle unità di capacità (CU), che rappresentano la capacità di calcolo assegnata a ogni nodo.

    Screenshot che mostra le opzioni di creazione del pool personalizzate.

  5. Nella visualizzazione di modifica configurare la scalabilità automatica e allocare dinamicamente gli esecutori.

    Screenshot che mostra le opzioni di creazione del pool personalizzate per la scalabilità automatica e l'allocazione dinamica.

    Usare i dispositivi di scorrimento per aumentare o ridurre ogni impostazione in base alle esigenze del carico di lavoro.

    • Se la scalabilità automatica è abilitata, il pool viene ridimensionato tra i valori minimo e massimo dei nodi configurati in base all'attività.

    • Se è abilitato l'allocazione dinamica degli executor , Fabric regola l'allocazione dell'executor in base alla domanda di carico di lavoro all'interno dei limiti configurati.

  6. Fare clic su Crea.

I pool personalizzati hanno una durata predefinita di autopausa di 2 minuti dopo l'inattività. Quando viene raggiunta la pausa automatica, la sessione scade e il cluster viene deallocato. La fatturazione si applica solo quando il calcolo viene usato attivamente. I pool di Spark personalizzati in Microsoft Fabric supportano attualmente un limite massimo di nodi pari a 200, quindi assicurarsi che i valori di scalabilità automatica minima e massima rimangano entro questo limite.

Opzioni dimensioni nodo

Quando si configura un pool di Spark personalizzato, è possibile scegliere tra le dimensioni del nodo seguenti:

Dimensioni nodo vCores Memoria (GB) Descrizione
Piccola 4 32 Per processi di sviluppo e test leggeri.
Intermedio 8 64 Per carichi di lavoro generali e operazioni tipiche.
Grande 16 128 Per attività a elevato utilizzo di memoria o processi di elaborazione dati di grandi dimensioni.
X-Large 32 256 Per i carichi di lavoro Spark più impegnativi che necessitano di risorse significative.
XXL 64 512 Per i carichi di lavoro Spark più grandi che richiedono il calcolo e la memoria più elevati per nodo.