Dela via


Datatransformationer

Datatransformeringar används för att:

  • Förbereda data för modellträning.
  • Använd en importerad modell i TensorFlow- eller ONNX-format.
  • Efterbearbetning av data efter att de har skickats via en modell.

Omvandlingarna i den här guiden returnerar klasser som implementerar IEstimator-gränssnittet . Datatransformeringar kan länkas samman. Varje transformering både förväntar sig och genererar data av specifika typer och format, som anges i den länkade referensdokumentationen.

Vissa datatransformeringar kräver träningsdata för att beräkna deras parametrar. Till exempel: NormalizeMeanVariance transformatorn beräknar medelvärdet och variansen för träningsdata under Fit() åtgärden och använder dessa parametrar i Transform() åtgärden.

Andra datatransformeringar kräver inte träningsdata. Till exempel: ConvertToGrayscale omvandlingen kan utföra Transform() operationen utan att ha sett några träningsdata under operationen Fit().

Kolumnmappning och gruppering

Transformering Definition ONNX-exporterbar
Concatenate Sammanfoga en eller flera indatakolumner till en ny utdatakolumn Ja
CopyColumns Kopiera och byt namn på en eller flera indatakolumner Ja
DropColumns Släpp en eller flera indatakolumner Ja
SelectColumns Välj en eller flera kolumner från ingångsdata att behålla Ja

Normalisering och skalning

Transformering Definition ONNX-exporterbar
NormalizeMeanVariance Subtrahera medelvärdet (av träningsdata) och dividera med variansen (för träningsdata) Ja
NormalizeLogMeanVariance Normalisera baserat på logaritmen för träningsdata Ja
NormalizeLpNorm Skala indatavektorer efter lp-norm, där p är 1, 2 eller oändligt. Standardvärdet är l2-normen (Euklidiskt avstånd) Ja
NormalizeGlobalContrast Skala varje värde i en rad genom att subtrahera medelvärdet av raddata och dividera med antingen standardavvikelsen eller l2-normen (av raddata) och multiplicera med en konfigurerbar skalningsfaktor (standard 2) Ja
NormalizeBinning Tilldela indatavärdet till ett lagerplatsindex och dividera med antalet lagerplatser för att skapa ett flyttalvärde mellan 0 och 1. Intervallgränserna beräknas för att fördela träningsdata jämnt över binnor. Ja
NormalizeSupervisedBinning Tilldela indatavärdet till en lagerplats baserat på dess korrelation med etikettkolumnen Ja
NormalizeMinMax Skala indata efter skillnaden mellan lägsta och högsta värden i träningsdata Ja
NormalizeRobustScaling Skala varje värde med hjälp av robust statistik som motverkar extremvärden, vilket kommer att centrera datan runt 0 och skala datan enligt kvantilernas intervall. Ja

Konverteringar mellan datatyper

Transformering Definition ONNX-exporterbar
ConvertType Konvertera typen av en indatakolumn till en ny typ Ja
MapValue Mappa värden till nycklar (kategorier) baserat på den angivna ordlistan med mappningar Nej
MapValueToKey Mappa värden till nycklar (kategorier) genom att skapa mappningen från indata Ja
MapKeyToValue Konvertera tillbaka nycklar till sina ursprungliga värden Ja
MapKeyToVector Konvertera tillbaka nycklar till vektorer med ursprungliga värden Ja
MapKeyToBinaryVector Konvertera tillbaka nycklar till en binär vektor med ursprungliga värden Nej
Hash Hash värdet i indatakolumnen Ja

Texttransformeringar

Transformering Definition ONNX-exporterbar
FeaturizeText Omvandla en textkolumn till en flyttalmatris med normaliserade ngram och antal tecken/gram Nej
TokenizeIntoWords Dela upp en eller flera textkolumner i enskilda ord Ja
TokenizeIntoCharactersAsKeys Dela upp en eller flera textkolumner i enskilda tecken som flyter över en uppsättning ämnen Ja
NormalizeText Ändra skiftläge, ta bort diakritiska markeringar, skiljetecken och tal Ja
ProduceNgrams Omvandla textkolumnen till en påse med antal ngram (sekvenser med efterföljande ord) Ja
ProduceWordBags Omvandla textkolumn till en påse med antal ngramsvektor Ja
ProduceHashedNgrams Omvandla textkolumn till en vektor med hashade ngramantal Nej
ProduceHashedWordBags Omvandla textkolumn till en samling av hashade ngram-antal Ja
RemoveDefaultStopWords Ta bort standardstoppord för det angivna språket från indatakolumner Ja
RemoveStopWords Tar bort angivna stoppord från indatakolumner Ja
LatentDirichletAllocation Transformera ett dokument (representeras som en vektor av flyttal) till en vektor av flyttal över en uppsättning ämnen Ja
ApplyWordEmbedding Konvertera vektorer av texttoken till meningsvektorer med hjälp av en förtränad modell Ja

Bildtransformationer

Transformering Definition ONNX-exporterbar
ConvertToGrayscale Konvertera en bild till gråskala Nej
ConvertToImage Konvertera en pixelvektor till ImageDataViewType Nej
ExtractPixels Konvertera bildpunkter från indatabild till en vektor med tal Nej
LoadImages Läsa in bilder från en mapp till minnet Nej
LoadRawImageBytes Läser in bilder av råa byte i en ny kolumn. Nej
ResizeImages Ändra storlek på bilder Nej
DnnFeaturizeImage Använder en förtränad DNN-modell (Deep Neural Network) för att omvandla en indatabild till en funktionsvektor Nej

Kategoriska datatransformeringar

Transformering Definition ONNX-exporterbar
OneHotEncoding Konvertera en eller flera textkolumner till one-hot kodade vektorer Ja
OneHotHashEncoding Konvertera en eller flera textkolumner till hashbaserade one-hot kodade vektorer Nej

Tidsseriedatatransformeringar

Transformera Definition ONNX-exporterbar
DetectAnomalyBySrCnn Identifiera avvikelser i indata för tidsseriedata med hjälp av Spektral residualalgoritmen (SR) Nej
DetectChangePointBySsa Identifiera ändringspunkter i tidsseriedata med SSA (Singular Spectrum Analysis) Nej
DetectIidChangePoint Identifiera ändringspunkter i oberoende och identiskt distribuerade tidsseriedata (IID) med hjälp av adaptiva kerneldensitetsuppskattningar och martingalepoäng Nej
ForecastBySsa Prognostisera tidsseriedata med singulär spektrumanalys (SSA) Nej
DetectSpikeBySsa Identifiera toppar i tidsseriedata med SSA (Singular Spectrum Analysis) Nej
DetectIidSpike Identifiera toppar i oberoende och identiskt distribuerade tidsseriedata (IID) med hjälp av adaptiva kerneldensitetsuppskattningar och martingalpoäng Nej
DetectEntireAnomalyBySrCnn Identifiera avvikelser för hela indata med hjälp av SRCNN-algoritmen. Nej
DetectSeasonality Identifiera säsongsvariationer med hjälp av fourier-analys. Nej
LocalizeRootCause Lokaliserar rotorsaken från tidsserieindata med hjälp av en beslutsträdsalgoritm. Nej
LocalizeRootCauses Lokaliserar grundorsaker från tidsseriedata. Nej

Saknade värden

Transform Definition ONNX-exporterbar
IndicateMissingValues Skapa en ny boolesk utdatakolumn, vars värde är sant när värdet i indatakolumnen saknas Ja
ReplaceMissingValues Skapa en ny utdatakolumn, vars värde är inställt på ett standardvärde om värdet saknas i indatakolumnen och indatavärdet annars Ja

Val av funktion

Transformering Definition ONNX-exporterbar
SelectFeaturesBasedOnCount Välj funktioner vars icke-standardvärden är större än ett tröskelvärde Ja
SelectFeaturesBasedOnMutualInformation Välj de funktioner som data i etikettkolumnen är mest beroende av Ja

Funktionstransformeringar

Transformering Definition ONNX-exporterbar
ApproximatedKernelMap Mappa varje indatavektor till ett lägre dimensionellt funktionsutrymme, där inre produkter approximeras en kernelfunktion, så att funktionerna kan användas som indata till de linjära algoritmerna Nej
ProjectToPrincipalComponents Minska dimensionerna för indatafunktionsvektorn genom att använda algoritmen för analys av huvudkomponent

Förklarbarhetstransformationer

Transformering Definition ONNX-exporterbar
CalculateFeatureContribution Beräkna bidragspoäng för varje element i en funktionsvektor Nej

Transformationer för kalibrering

Transformering Definition ONNX-exporterbar
Platt(String, String, String) Omvandlar en binär klassificerares råpoäng till en klassannolikhet med logistisk regression med parametrar som beräknas med hjälp av träningsdata Ja
Platt(Double, Double, String) Omvandlar en binär klassificerares råpoäng till en klass-sannolikhet med logistisk regression och fasta konstanter. Ja
Naive Omvandlar en binär klassificerares råpoäng till en klassannolikhet genom att tilldela poäng till bins och beräkna sannolikheten baserat på fördelningen mellan dessa bins. Ja
Isotonic Omvandlar en binär klassificerares råvärde till en klasssannolikhet genom att tilldela värden till intervall, där gränsernas placering och storleken på intervall estimeras med hjälp av träningsdata Nej

Djupinlärningstransformeringar

Transformering Definition ONNX-exporterbar
ApplyOnnxModel Transformera indata med en importerad ONNX-modell Nej
LoadTensorFlowModel Transformera indata med en importerad TensorFlow-modell Nej

Anpassade transformeringar

Transformering Definition ONNX-exporterbar
FilterByCustomPredicate Tar bort rader där ett angivet predikat returnerar sant. Nej
FilterByStatefulCustomPredicate Tar bort rader där ett angivet predikat returnerar sant, men tillåter ett angivet tillstånd. Nej
CustomMapping Transformera befintliga kolumner till nya med en användardefinierad mappning Nej
Expression Använda ett uttryck för att omvandla kolumner till nya Nej