次の方法で共有


レイクハウスのデータ インジェスト オプション

簡単なファイルアップロードからスケーラブルなパイプライン、リアルタイムストリーミングまで、レイクハウスにデータを取り込むにはいくつかの方法があります。 適切なアプローチは、データ ソース、ボリューム、変換の複雑さ、および 1 回限りの読み込みまたは継続的インジェストが必要かどうかによって異なります。

レイクハウスにデータを読み込む方法

次のセクションでは、ファイルのアップロード、ショートカット、Dataflow Gen2、データ パイプライン、ノートブック コード、Eventstream の各アプローチについて説明します。最も単純なコードなしのオプションから、より高度なプログラムおよびリアルタイム メソッドに順を指定します。

ファイルをアップロードする

変換を行わずに小さなファイルをレイクハウスに読み込むには、Lakehouse エクスプローラーを使用してローカル コンピューターから直接アップロードします。

レイクハウス エクスプローラー内のファイル アップロード ダイアログのスクリーンショット。

簡略化された手順

ショートカットを使用すると、他のストレージの場所にあるデータをコピーせずに参照できます。 ショートカットはレイクハウス内のフォルダーとして表示されますが、別の lakehouse、Azure Data Lake Storage Gen2 アカウント、Amazon S3、またはその他のサポートされているソースに格納されているデータを指します。 ショートカットは、データを複製せずにソース間でクエリを実行または結合する場合に便利です。 詳細については、「レイクハウスのショートカット」を参照してください。

データフロー Gen2

Dataflow Gen2 は、200 を超えるコネクタを備えたローコードのデータ変換ツールです。 Power Query インターフェイスで変換を視覚的に定義し、結果を lakehouse テーブルに出力します。 Dataflow Gen2 は、小さなデータセットや、他のツールで使用できないコネクタが必要な場合に適しています。 詳細については、「最初の データフローを作成してデータを取得および変換する」を参照してください。

データ パイプライン

データ パイプラインは、大量のデータを Lakehouse に移動するためのスケーラブルなコピー ツールを提供します。 コピー アクティビティは、さまざまなデータ ソースに接続し、元の形式でデータを読み込んだり、Delta テーブルに変換したりできます。 パイプラインのスケジュール設定、イベントに基づくトリガー、複数のアクティビティの連結を行うことができます。 詳細については、「コピー クティビティを使用してデータをコピーする方法」を参照してください。

ノートブック コード

Spark ノートブックを使用すると、データ インジェストをプログラムで完全に制御できます。 Spark ライブラリを使用してデータ ソースに接続し、データを DataFrame に読み込み、変換を適用して、結果を Lakehouse に保存します。 このアプローチは最も柔軟性が高く、他のツールでサポートされていない複雑な変換ロジックやソースに適しています。

注記

Spark コードで作成された外部差分テーブルは、SQL 分析エンドポイントには表示されません。 SQL 分析エンドポイントの外部差分テーブルを表示するには、Tables セクションのショートカットを使用します。 詳細については、「 レイクハウスのショートカット」を参照してください

Eventstream

Eventstream は、さまざまなソースから大量のリアルタイム イベントを取り込み、処理し、ルーティングします。 Lakehouse を宛先として追加して、ストリーミング データを Delta テーブルに直接配置できます。

Eventstream から Lakehouse にデータをインポートするスクリーンショット。

詳細については、「 レイクハウスの Eventstream からデータを取得する」を参照してください

時系列または高スループットのストリーミング シナリオでは、イベントを Eventhouse にストリーミングし、OneLake の可用性を有効にすることもできます。 これにより、OneLake に Delta テーブルが作成され、レイクハウスはショートカットを介してアクセスできます。 詳細については、「 Eventhouse OneLake の可用性」を参照してください。

アプローチを選択する

次の表は、各方法を使用してレイクハウスにデータを読み込む場合の概要を示しています。

シナリオ 推奨される方法
ローカル コンピューターからの小さなファイル ファイルをアップロードする
コピーせずにデータを参照する 簡略化された手順
ビジュアル変換を使用した小規模から中規模のデータ データフロー Gen2
大規模なデータ移動 データ パイプライン
複雑な変換またはサポートされていないソース ノートブック コード
リアルタイム イベント インジェスト Eventstream
時系列または高スループットのストリーミング OneLake が使用可能な Eventstream から Eventhouse への移行