Microsoft Fabric の Lakehouse は、データ レイクのスケーラビリティとデータ ウェアハウスのクエリ機能を組み合わせたものになっています。 構造化データと非構造化データを 1 つの場所に格納し、Delta Lake で管理し、Apache Spark と SQL の両方で分析します。システム間でデータを移動する必要はありません。
湖の小屋があなたに与えます:
- データ エンジニアリングワークロードと分析ワークロードの両方のデータの 1 つのコピー
- Delta Lake 形式 は、ACID トランザクション、スキーマの適用、およびタイム トラベルに対応しています。
- Spark と SQL のアクセス により、データ エンジニアはノートブックを使用し、アナリストは T-SQL を使用します
- Power BI、パイプライン、データフロー、およびその他の Fabric 項目との組み込みの統合
Lakehouse とデータ ウェアハウス
Microsoft Fabric の Lakehouse と データ ウェアハウス の主な違いは、好みの開発ツール、データ型、ワークロード パターンにかかっています。 どちらも同じ SQL エンジンを共有し、OneLake に Delta 形式でデータを格納しますが、さまざまなシナリオ向けに設計されています。
| Lakehouse | データ ウェアハウス | |
|---|---|---|
| 主な開発ツール | Apache Spark (Python、Scala、SQL、R) | T-SQL |
| データ型 | 構造化および非構造化 | 構造化 |
| マルチテーブル トランザクション | いいえ | イエス |
| データ インジェスト | ノートブック、パイプライン、データフロー、ショートカット | T-SQL (COPY INTO、 INSERT、 CTAS)、パイプライン |
| 最適な用途 | データ エンジニアリング、データ サイエンス、メダリオン アーキテクチャ | BI レポート、ディメンション モデリング、SQL 優先チーム |
両方を同じワークスペースで使用できます。たとえば、Spark を使用してレイクハウスにデータを取り込んで変換し、SQL ベースのレポート用にキュレーションされたデータセットをウェアハウスに提供できます。 詳細なガイダンスについては、「 倉庫と Lakehouse の選択」を参照してください。
lakehouseデータの取り扱いを行う
複数の Fabric ツールを使用して、lakehouse 内のデータの読み込み、変換、クエリを実行できます。
Lakehouse エクスプローラー - テーブルとファイルの参照、データの読み込み、メタデータの管理をブラウザーで直接行います。 テーブル ビューとファイル ビューを切り替えて、複数の Lakehouse をエクスプローラーに追加できます。 「Fabric Lakehouse エクスプローラーを移動する」を参照してください。
ノートブック - Lakehouse のテーブルとフォルダーにデータを読み取り、変換、書き込むための Spark コード (Python、Scala、SQL、R) を記述します。 「ノートブックを使用してデータを探索する」と「ノートブックを使用してデータを読み込む」を参照してください。
パイプライン - コピー アクティビティやその他のデータ統合ツールを使用して、外部ソースから Lakehouse にデータをプルします。 コピー アクティビティを使用したデータのコピーを参照してください。
Spark ジョブ定義 - 運用環境レベルの ETL 用に、Java、Scala、または Python でコンパイル済みの Spark アプリケーションを実行します。 「Apache Spark ジョブ定義とは」を参照してください。
データフロー Gen 2 — 低コードのビジュアル インターフェイスを使用してデータを取り込んで準備します。 最初のデータフローの作成を参照してください。
インジェスト オプションの完全な比較については、「 Fabric Lakehouse にデータを取得するオプション」を参照してください。
Lakehouse SQL 分析エンドポイント
Lakehouse を作成すると、Fabric によって SQL 分析エンドポイントが自動的に生成されます。 このエンドポイントを使用すると、次のことができます。
- T-SQL を使用してデルタ テーブルにクエリを実行 する - 別のウェアハウスを設定せずに、使い慣れた SQL 構文を使用します。
- Power BI を直接接続 する - 既定のセマンティック モデルが含まれているため、追加の構成なしでレポートを作成できます。
- 読み取り専用アクセスを共有 する — アナリストとレポート ビルダーは、Spark ワークロードに影響を与えずにデータに対してクエリを実行できます。
SQL 分析エンドポイントは読み取り専用であり、 データ ウェアハウスの完全な T-SQL サーフェスをサポートしていません。 探索、レポート、およびアドホック クエリに使用します。
手記
SQL 分析エンドポイントにはデルタ テーブルのみが表示されます。 Parquet、CSV、およびその他の形式は、このエンドポイントを介してクエリを実行できません。 テーブルが表示されない場合は、 Delta 形式に変換します。
テーブルの自動検出と登録
Lakehouse は、データを 2 つの最上位フォルダー (マネージド Delta テーブルのテーブル と、非構造化データまたは非デルタ データ用 のファイル ) に整理します。 Tables フォルダーにファイルを配置すると、Fabric は自動的に次の手順を実行します。
- サポートされている形式 (現在は Delta テーブルのみ) に対してファイルを検証します。
- メタデータ (列名、データ型、圧縮、パーティション分割) を抽出します。
- Spark SQL または T-SQL を使用してすぐにクエリを実行できるように、メタストアにテーブルを登録します。
このマネージド ファイルからテーブルへのエクスペリエンスは、管理領域に格納するデータに対して CREATE TABLE ステートメントを手動で記述する必要がないことです。
lakehouse を使用したマルチタスク
Lakehouseはブラウザタブのデザインを使用しており、場所を失うことなく複数のアイテムを開いて切り替えることができます。
実行中の操作を保持する: 別のタブに切り替えると、データの読み込みとアップロードが引き続き実行されます。
コンテキストを保持する: 選択したテーブル、ファイル、およびオブジェクトは、タブ間を移動しても開いたままです。
非ブロッキング リストの再読み込み: ファイルとテーブルの一覧は、作業をブロックすることなくバックグラウンドで更新されます。
スコープ付き通知: トースト通知は、その通知がどのレイクハウスから来たかを明確にするため、タブ間での更新を追跡することができます。
アクセシビリティの高いレイクハウスのデザイン
Lakehouse では、支援技術とアクセシビリティ対応の対話パターンがサポートされています。
- スクリーン リーダーの互換性: ナビゲーションと操作のために人気のあるスクリーン リーダーと連携します。
- 画像の代替テキスト: すべての画像には、説明的な代替テキストが含まれています。
- ラベル付きフォーム フィールド: すべてのフォーム フィールドには、スクリーン リーダーとキーボード ユーザーのラベルが関連付けられています。
- テキストのリフロー: さまざまな画面サイズと向きに適応する応答性の高いレイアウト。
- キーボード ナビゲーション: マウスなしでレイクハウスをナビゲートするための完全なキーボードサポート。