Partilhar via


Guia rápido para preparação de dados

O desempenho de BI de topo depende da eficácia com que os dados são preparados e entregues a partir do Lakehouse. Ao adotar padrões arquitetónicos, aplicar uma estrutura semântica e utilizar otimizações direcionadas, pode reduzir a complexidade das consultas, melhorar a resposta dos dashboards e reduzir os custos de computação.

A tabela seguinte resume as práticas recomendadas, o seu impacto esperado, a documentação relacionada e as ações associadas. Este conteúdo destina-se a engenheiros de dados, programadores de BI e autores de dashboards que desenham, otimizam e mantêm cargas de trabalho analíticas no Lakehouse.

Preparação de dados

Melhores práticas Impacto Docs Itens de ação
Adotar uma arquitetura em medalhão Acelera a transformação de dados brutos em produtos de dados fiáveis e prontos a usar, para fácil consumo. Revisão e implementação das camadas "medallion"
Utilizar agrupamento líquido Melhora o desempenho das consultas através do ignorar de ficheiros e dados. Aplicar em tabelas grandes com padrões de filtro
Utilizar tabelas geridas O Azure Databricks governa e otimiza automaticamente o desempenho da camada de armazenamento e das consultas. Crie tabelas geridas para os seus dados
Use otimização preditiva ou otimize tabelas manualmente Permite um melhor desempenho nas consultas ao otimizar o tamanho e o layout dos ficheiros, eliminar ficheiros antigos e atualizar estatísticas. Permitir a otimização regular de tabelas de produção ou agendamento e analisar tabelas após alterações nos dados
Modelar dados num padrão de esquema estrela Torna os dados mais fáceis de consultar e consumir. Tabelas de factos de design e dimensões
Evite tipos de dados amplos e colunas de alta cardinalidade Otimiza o tamanho do modelo de dados e o consumo de memória, e melhora a eficiência das consultas. Revise os tipos de dados e a cardinalidade
Declarar Chaves Primárias e Estrangeiras (com RELY) Otimiza consultas eliminando junções e agregações desnecessárias. Definir chaves em tabelas de factos e dimensões
Usar colunas geradas automaticamente Reduz a necessidade de calcular valores no momento da consulta. Identificar campos calculados frequentemente
Use vistas materializadas e tabelas persistentes Melhora o desempenho ao pré-agregar dados para as consultas mais comuns e que consomem muitos recursos. Criar vistas agregadas para consultas comuns