Compartilhar via


Criar pools personalizados do Spark no Microsoft Fabric

Use pools personalizados do Spark para adaptar a computação para suas cargas de trabalho no Fabric. Você pode escolher o tamanho do nó, configurar o comportamento de dimensionamento automático e habilitar a alocação de executor dinâmico.

Os pools personalizados ajudam a equilibrar o desempenho e o custo, permitindo definir limites de dimensionamento que correspondem à demanda de carga de trabalho.

Se você já usar pools de inicialização, os pools personalizados serão uma opção complementar quando você precisar de mais controle sobre o dimensionamento e o comportamento de dimensionamento para cargas de trabalho específicas. Use pools de inicialização para inicialização rápida e configurações padrão, e migre para pools personalizados quando precisar de ajustes de computação específicos para a carga de trabalho. Para saber mais sobre pools de inicialização, consulte Configurar pools de inicialização no Fabric.

Pré-requisitos

Para criar um pool personalizado do Spark:

  • Você precisa da função de Administrador no workspace.
  • Um administrador de capacidade deve habilitar pools de workspace personalizados nas configurações de Computação do Spark para a capacidade.

Para obter mais informações, consulte Configurar e gerenciar configurações de engenharia de dados e ciência de dados para capacidades do Fabric.

Criar pools personalizados do Spark

Para criar ou gerenciar o pool do Spark associado ao seu workspace:

  1. Vá para o workspace e selecione as configurações do Workspace.

    Captura de tela mostrando onde selecionar a Engenharia de Dados no menu Configurações do workspace.

  2. Selecione a opção Engenharia de Dados/Ciência para expandir o menu e selecione configurações do Spark.

    Captura de tela mostrando a exibição de detalhes das Configurações do Spark.

  3. Selecione Novo Pool na lista suspensa pool padrão para o workspace para criar um novo pool personalizado do Spark. Você pode criar vários pools personalizados e selecionar qualquer um deles como o pool padrão para seu workspace.

  4. Na página Criar novo pool , insira um nome de pool. Selecione uma família de nós (como otimizada para memória) e o tamanho do nó com base nos requisitos de carga de trabalho. Para obter mais informações sobre tamanhos de nó, consulte a seção Opções de Tamanho de Nó abaixo.

    Dica

    O tamanho do nó é determinado por (Unidades de Capacidade), que representam a capacidade de computação atribuída a cada nó.

    Captura de tela mostrando opções de criação de pool personalizadas.

  5. No modo de exibição de edição, configure o Dimensionamento Automático e aloque dinamicamente executores.

    Captura de tela mostrando opções personalizadas de criação de pool para dimensionamento automático e alocação dinâmica.

    Use os controles deslizantes para aumentar ou diminuir cada configuração com base nas suas necessidades de carga de trabalho.

    • Se o Dimensionamento Automático estiver habilitado, o pool será dimensionado entre os valores de nó mínimo e máximo configurados com base na atividade.

    • Se os executores de alocação dinâmica estiverem habilitados, o Fabric ajustará a alocação do executor com base na demanda de carga de trabalho dentro dos limites configurados.

  6. Selecione Criar.

Os pools personalizados têm uma duração padrão de autopausa de 2 minutos após a inatividade. Quando a autopausa é atingida, a sessão expira e o cluster é desalocado. A cobrança se aplica somente enquanto a computação é usada ativamente. Atualmente, os pools personalizados do Spark no Microsoft Fabric dão suporte a um limite máximo de 200 nós, assim sendo, verifique se os valores mínimos e máximos de autoescala permanecem dentro desse limite.

Opções de tamanho do nó

Ao configurar um pool personalizado do Spark, você escolhe entre os seguintes tamanhos de nós:

Tamanho de nó vCores Memória (GB) Descrição
Pequeno 4 32 Para trabalhos leves de desenvolvimento e teste.
Médio oito 64 Para cargas de trabalho gerais e operações típicas.
Grande 16 128 Para tarefas com uso intensivo de memória ou trabalhos de processamento de dados grandes.
Extragrande 32 256 Para as cargas de trabalho do Spark mais exigentes que necessitam de recursos significativos.
XX-Grande 64 512 Para as maiores cargas de trabalho do Spark que exigem a maior capacidade computacional e a memória máxima por nó.
  • Saiba mais na documentação pública do Apache Spark .
  • Introdução às configurações de administração do workspace Spark no Microsoft Fabric.