Del via


Dataindlæsningsmuligheder for et søhus

Der er flere måder at få data ind i et lakehouse på, lige fra simple filuploads til skalerbare pipelines og realtidsstreaming. Den rigtige tilgang afhænger af datakilden, volumen, transformationskompleksiteten og om du har brug for en engangsbelastning eller kontinuerlig indlæsning.

Måder at indlæse data i et søhus

Følgende afsnit beskriver hver tilgang — filupload, genveje, Dataflow Gen2, datapipelines, notebook-kode og Eventstream — ordnet fra den simpleste no-code-mulighed til mere avancerede programmatiske og realtidsmetoder.

Overfør filer

For at indlæse små filer i et lakehouse uden nogen transformation, upload dem direkte fra din lokale maskine via Lakehouse explorer.

Skærmbillede af dialogboksen til filupload i Stifinder i Lakehouse.

Shortcuts

Genveje lader dig referere data i andre lagringssteder uden at kopiere dem. En genvej vises som en mappe i dit lakehouse, men peger på data gemt andre steder — i et andet lakehouse, en Azure Data Lake Storage Gen2-konto, Amazon S3 eller andre understøttede kilder. Genveje er nyttige, når du vil forespørge eller sammenkæde data på tværs af kilder uden at duplikere dem. For mere information, se Genveje i et søhus.

Dataflow Gen2

Dataflow Gen2 er et lavkode-datatransformationsværktøj med over 200 stik. Du definerer transformationer visuelt i en Power Query-grænseflade og eksporterer resultaterne til en lakehouse-tabel. Dataflow Gen2 er et godt valg til mindre datasæt eller når du har brug for connectors, som ikke findes i andre værktøjer. For mere information, se Opret dit første dataflow for at hente og transformere data.

Datapipelines

Datapipelines giver et skalerbart kopieringsværktøj til at flytte store datamængder ind i et søhus. Kopi-aktiviteten forbinder til en bred vifte af datakilder og kan indlæse data i deres oprindelige format eller konvertere dem til en Delta-tabel. Du kan planlægge pipelines, udløse dem baseret på begivenheder og kæde flere aktiviteter sammen. Du kan få flere oplysninger under Sådan kopierer du data ved hjælp af kopieringsaktivitet.

Notesbogkode

Spark-notebooks giver dig fuld programmatisk kontrol over dataindlæsning. Brug Spark-biblioteker til at forbinde til en datakilde, indlæs data i en DataFrame, anvende transformationer og gem resultaterne i et lakehouse. Denne tilgang er den mest fleksible og passer til komplekse transformationslogikker eller kilder, som andre værktøjer ikke understøtter.

Bemærk

Eksterne Delta-tabeller oprettet med Spark-kode er ikke synlige for et SQL-analyse-endpoint. Brug genveje i Tabeller-sektionen for at gøre eksterne Delta-tabeller synlige for et SQL-analyse-endpoint. For mere information, se Genveje i et søhus.

Eventstream

Eventstream indlæser, behandler og ruter højvolumen realtidsbegivenheder fra en bred vifte af kilder. Du kan tilføje et søhus som destination for at lande og streame data direkte ind i Delta-tabeller.

Skærmbillede af hentning af data til et søhus fra Eventstream.

For mere information, se Få data fra Eventstream i et søhus.

For tidsserier eller højkapacitets-streaming kan du også streame begivenheder ind i et Eventhouse og aktivere OneLake-tilgængelighed. Dette skaber en Delta-tabel i OneLake, som et søhus kan få adgang til via en genvej. For mere information, se tilgængelighed af Eventhouse OneLake.

Vælg en tilgang

Følgende tabel opsummerer, hvornår hver tilgang skal bruges til at indlæse data i et lakehouse.

scenarie Anbefalet fremgangsmåde
Små filer fra en lokal maskine Overfør filer
Referer til data uden at kopiere dem Shortcuts
Små til mellemstore data med visuelle transformationer Dataflow Gen2
Storskala dataflytning Datapipelines
Komplekse transformationer eller uunderstøttede kilder Notesbogkode
Realtids hændelsesindtagelse Eventstream
Tidsserier eller højkapacitetsstreaming Eventstream til Eventhouse med tilgængelighed fra OneLake