Del via


Transformér strukturerede filer til Delta-tabeller

Brug genvejstransformationer til at konvertere strukturerede filer til forespørgelige Delta-tabeller. Hvis dine kildedata allerede er i et tabulært format som CSV, Parquet eller JSON, kopierer og konverterer filtransformationer automatisk dataene til Delta Lake-format, så du kan forespørge dem ved at bruge SQL, Spark eller Power BI uden at bygge ETL-pipelines.

For ustrukturerede tekstfiler, der kræver AI-behandling som opsummering, oversættelse eller sentimentanalyse, se Genvejstransformationer (AI-drevet).

Genvejstransformationer forbliver altid synkroniserede med kildedataene. Fabric Spark compute udfører transformationen og kopierer de data, der refereres til via en OneLake-genvej, ind i en administreret Delta-tabel. Med automatisk skemahåndtering, dyb fladning og understøttelse af flere komprimeringsformater eliminerer genvejstransformationer kompleksiteten ved at bygge og vedligeholde ETL-pipelines.

Note

Genvejstransformationer er i øjeblikket i offentlig forhåndsvisning og kan ændres.

Hvorfor bruge genvejstransformationer?

  • Automatisk konvertering – Fabric kopierer og konverterer kildefiler til Delta-format uden manuel pipeline-orkestrering.
  • Hyppig synkronisering – Fabric spørger genvejen hvert andet minut og synkroniserer ændringer.
  • Delta Lake-udgang – Den resulterende tabel er kompatibel med enhver Apache Spark-motor.
  • Arvet styring – Genvejen arver OneLake-slægten, tilladelser og Microsoft Purview politikker.

Prerequisites

Requirement Details
Microsoft Fabric SKU Kapacitet eller prøve, der understøtter Lakehouse-arbejdsbyrder .
Kildedata En mappe, der indeholder homogene CSV-, Parquet- eller JSON-filer.
Arbejdsområderolle Bidragyder eller højere.

Understøttede kilder, formater og destinationer

Alle datakilder, der understøttes i OneLake, understøttes.

Kildefilformat Destination Understøttede udvidelser Understøttede komprimeringstyper Noter
CSV (UTF-8, UTF-16) Delta Lake-tabellen i mappen Lakehouse / Tables .csv, .txt (skillelinje), .tsv (tabulator-adskilt), .psv (rør-adskilt) .csv.gz, .csv.bz2 .csv.zip og .csv.snappy understøttes ikke.
Parquet Delta Lake-tabellen i mappen Lakehouse / Tables .Parket .parquet.snappy, .parquet.gzip, .parquet.lz4, .parquet.brotli, .parquet.zstd
JSON Delta Lake-tabellen i mappen Lakehouse / Tables .json, .jsonl, .ndjson .json.gz, .json.bz2, .jsonl.gz, .ndjson.gz, .jsonl.bz2, .ndjson.bz2 .json.zip og .json.snappy understøttes ikke.

Konfigurer en genvejstransformation

  1. I dit søhus skal du vælge Genvej til Ny Tabel i afsnittet Tabeller, som er Genvejstransformation (forhåndsvisning). Vælg din kilde (for eksempel Azure Data Lake, Azure Blob Storage, Dataverse, Amazon S3, GCP, SharePoint, OneDrive og flere).

    Skærmbillede, der viser oprettelse af 'table shortcut'.

  2. Vælg fil, konfigurér transformation, og lav genvej – Gennemse en eksisterende OneLake-genvej, der peger til mappen med dine CSV-filer, konfigurer parametre og start oprettelsen.

    • Skilletegn i CSV-filer – Vælg det tegn, der bruges til at adskille kolonner (komma, semikolon, rør, tabulator, ampersand, mellemrum).
    • Første række som overskrifter – angiv, om den første række indeholder kolonnenavne.
    • Bordgenvejsnavn – Angiv et venligt navn; Fabric opretter det under /Tables.
  3. Følg opdateringer og se logfiler for gennemsigtighed i Hubben Administrer genvejsovervågning.

Fabric Spark Compute kopierer dataene til en Delta-tabel og viser fremskridt i genvejsvinduet Administrér . Genvejstransformationer er tilgængelige i Lakehouse-genstande. De opretter Delta Lake-tabeller i mappen Lakehouse / Tables .

Sådan fungerer synkronisering

Efter den indledende belastning beregnes Fabric Spark:

  • Spørger genvejsmålet hvert andet minut.
  • Registrerer nye eller ændrede filer og tilføjer eller overskriver rækker tilsvarende.
  • Opdager slettede filer og fjerner tilsvarende rækker.

Overvåg og foretag fejlfinding

Genvejstransformationer inkluderer overvågning og fejlhåndtering for at hjælpe dig med at følge indtastningsstatus og diagnosticere problemer.

  1. Åbn søhuset og højreklik på genvejen, der giver din transformation.

  2. Vælg genvej til at administrere.

  3. I detaljepanelet kan du se:

    • Status – Sidste scanningsresultat og nuværende synkroniseringstilstand.
    • Opfrisk historik – Kronologisk liste over synkroniseringsoperationer med rækkeantal og eventuelle fejloplysninger.

    Skærmbillede, der viser 'overvågningshub' for at se transformationsstatus.

  4. Se flere detaljer i logs for fejlfinding

    Skærmbillede, der viser, hvordan man access 'log file' for at fejlfinde.

Begrænsninger

Nuværende begrænsninger ved genvejstransformationer:

  • Kildeformat: Kun CSV-, JSON- og Parquet-filer understøttes.
    • Uunderstøttede datatyper for CSV: Blandede datatypekolonner, Timestamp_Nanos, Komplekse logiske typer - MAP/LIST/STRUCT, Rå binær
    • Uunderstøttede datatyper for Parquet: Timestamp_nanos, Decimal med INT32/INT64, INT96, Utildelte heltalstyper - UINT_8/UINT_16/UINT_64, Komplekse logiske typer - MAP/LIST/STRUCT
    • Uunderstøttede datatyper for JSON: Blandede datatyper i et array, rå binære blobs inde i JSON, Timestamp_Nanos
  • Filskema-konsistens: Filer skal dele et identisk skema.
  • Arbejdsområdetilgængelighed: Tilgængelig kun i Lakehouse-elementer (ikke Data Warehouses eller KQL-databaser).
  • Skriveoperationer: Transformationerne er læseoptimerede; direkte MERGE INTO - eller DELETE-sætninger på transformationsmåltabellen understøttes ikke.
  • Fladning af array-datatype i JSON: Array-datatypen bevares i delta-tabellen, og data er tilgængelige med Spark SQL og Pyspark. Til yderligere transformationer kan Fabric Materialized Lake Views bruges til sølvlag.
  • Udfladning af dybden i JSON: Indlejrede strukturer er fladtrykte op til fem niveauer dybt. Dybere indlejring kræver forbehandling.

Brug Fabric Roadmap og Fabric Updates Blog for at lære om nye funktioner og udgivelser.

Ryd op

For at stoppe synkroniseringen, slet genvejstransformationen fra Lakehouse Explorer.

At slette transformationen fjerner ikke de underliggende filer.