次の方法で共有


データ準備チートシート

ハイエンドの BI パフォーマンスは、Lakehouse からデータを効率的に準備して配信する方法によって異なります。 アーキテクチャ パターンを採用し、セマンティック構造を適用し、対象を絞った最適化を使用することで、クエリの複雑さを軽減し、ダッシュボードの応答性を向上させ、コンピューティング コストを削減できます。

次の表は、推奨されるプラクティス、予想される影響、関連ドキュメント、および関連するアクション項目をまとめたものです。 このコンテンツは、Lakehouse で分析ワークロードを設計、最適化、管理するデータ エンジニア、BI 開発者、ダッシュボード作成者を対象としています。

データ準備

ベスト プラクティス インパクト Docs アクションアイテム
medallion アーキテクチャを採用する 生データを迅速に使用可能で信頼性のあるデータ製品に変換し、容易に活用できるようにします。 メダリオンレイヤーをレビューして実施する
液体クラスタリングを使用する ファイルとデータのスキップによってクエリのパフォーマンスが向上します。 フィルター パターンを使用して大きなテーブルに適用する
マネージド テーブルを使用する Azure Databricks は、ストレージ 層とクエリのパフォーマンスを自動的に管理および最適化します。 データのマネージド テーブルを作成する
予測最適化を使用するか、テーブルを手動で最適化する ファイルサイズとレイアウトの最適化、古いファイルの削除、統計の更新により、クエリのパフォーマンスを向上させることができます。 運用テーブルを有効にするか、定期的な最適化をスケジュールし、データ変更後にテーブルを分析する
スター スキーマ パターンのデータをモデル化する データのクエリと使用を容易にします。 ファクト テーブルとディメンション テーブルを設計する
幅の広いデータ型とカーディナリティの高い列を回避する データ モデルのサイズとメモリ消費量を最適化し、クエリの効率を向上させます。 データ型とカーディナリティを確認する
主キーと外部キーを宣言する (RELY を使用) 不要な結合と集計を排除することで、クエリを最適化します。 ファクト テーブルとディメンション テーブルでキーを定義する
自動生成された列を使用する クエリ時に値を計算する必要性を減らします。 頻繁に計算されるフィールドを識別する
具体化されたビューと永続化されたテーブルを使用する 最も一般的でリソースを集中的に使用するクエリのデータを事前に集計することで、パフォーマンスが向上します。 一般的なクエリの集計ビューを作成する