Las transformaciones de datos se usan para:
- Prepare los datos para el entrenamiento del modelo.
- Aplique un modelo importado en formato TensorFlow o ONNX.
- Datos posteriores al proceso después de pasarlos a través de un modelo.
Las transformaciones de esta guía devuelven clases que implementan la interfaz IEstimator. Las transformaciones de datos se pueden encadenar juntas. Cada transformación espera y genera datos de tipos y formatos específicos, que se especifican en la documentación de referencia vinculada.
Algunas transformaciones de datos requieren datos de aprendizaje para calcular sus parámetros. Por ejemplo, el transformador NormalizeMeanVariance calcula el medio y la varianza de los datos de aprendizaje durante la operación Fit() y usa esos parámetros en la operación Transform().
Otras transformaciones de datos no requieren datos de aprendizaje. Por ejemplo, la transformación ConvertToGrayscale puede realizar la operación Transform() sin haber visto ningún dato de aprendizaje durante la operación Fit().
Agrupación y asignación de columnas
| Transformación |
Definición |
ONNX Exportable |
| Concatenate |
Concatenar una o más columnas de entrada en una columna de salida nueva |
Sí |
| CopyColumns |
Copiar y cambiar el nombre de una o más columnas de entrada |
Sí |
| DropColumns |
Quitar una o más columnas de entrada |
Sí |
| SelectColumns |
Selecciona una o más columnas para conservar de los datos de entrada |
Sí |
Normalización y escalado
| Transformación |
Definición |
ONNX Exportable |
| NormalizeMeanVariance |
Restar la media (de los datos de aprendizaje) y dividir por la varianza (de los datos de aprendizaje) |
Sí |
| NormalizeLogMeanVariance |
Normalizar en función del logaritmo de los datos de aprendizaje |
Sí |
| NormalizeLpNorm |
Escalar los vectores de entrada según su norma lp, donde p es 1, 2 o infinito. Se establece de manera predeterminada en la norma l2 (distancia euclidiana) |
Sí |
| NormalizeGlobalContrast |
Escalar cada valor de una fila al restar la media de los datos de la fila y dividir por la desviación estándar o la norma l2 (de los datos de la fila) y multiplicar por un factor de escala configurable (valor predeterminado 2) |
Sí |
| NormalizeBinning |
Asignar el valor de entrada a un índice de bin y dividir por el número de bins para generar un valor flotante entre 0 y 1. Los límites de discretización se calculan para distribuir de manera uniforme los datos de aprendizaje entre las discretizaciones |
Sí |
| NormalizeSupervisedBinning |
Asignar el valor de entrada a una categoría en función de su correlación con la columna de etiqueta |
Sí |
| NormalizeMinMax |
Escalar la entrada por la diferencia entre los valores mínimo y máximo de los datos de aprendizaje |
Sí |
| NormalizeRobustScaling |
Escalar cada valor mediante estadísticas robustas frente a valores atípicos para centrar los datos en torno a 0 y escalarlos según el intervalo de cuantiles. |
Sí |
Conversiones entre los tipos de datos
| Transformación |
Definición |
Exportable en ONNX |
| ConvertType |
Convertir el tipo de una columna de entrada en un tipo nuevo |
Sí |
| MapValue |
Asignar valores a claves (categorías) en función del diccionario de asignaciones suministrado |
No |
| MapValueToKey |
Asignar valores a claves (categorías) mediante la creación de la asignación a partir de los datos de entrada |
Sí |
| MapKeyToValue |
Convertir las claves a sus valores originales. |
Sí |
| MapKeyToVector |
Convertir claves de vuelta a vectores de valores originales |
Sí |
| MapKeyToBinaryVector |
Convertir las claves nuevamente en un vector binario de valores originales |
No |
| Hash |
Aplicar un algoritmo hash al valor de la columna de entrada |
Sí |
Transformaciones de texto
| Transformación |
Definición |
ONNX Exportable |
| FeaturizeText |
Transformar una columna de texto en una matriz flotante de recuentos de n-gramas y char-gramas normalizados |
No |
| TokenizeIntoWords |
Dividir una o más columnas de texto en palabras individuales |
Sí |
| TokenizeIntoCharactersAsKeys |
Dividir una o más columnas de texto en flotantes de caracteres individuales sobre un conjunto de temas |
Sí |
| NormalizeText |
Cambio de mayúsculas y minúsculas, eliminación de marcas diacríticas, signos de puntuación y números |
Sí |
| ProduceNgrams |
Transformar una columna de texto en un contenedor de recuentos de n-gramas (secuencias de palabras consecutivas) |
Sí |
| ProduceWordBags |
Transformar una columna de texto en un contenedor de recuentos de vector de n-gramas |
Sí |
| ProduceHashedNgrams |
Transformar una columna de texto en un vector de recuentos de n-gramas con algoritmo hash |
No |
| ProduceHashedWordBags |
Transformar una columna de texto en un contenedor de recuentos de n-gramas con algoritmo hash |
Sí |
| RemoveDefaultStopWords |
Quitar las palabras irrelevantes predeterminadas para el idioma especificado de las columnas de entrada |
Sí |
| RemoveStopWords |
Quitar las palabras irrelevantes especificadas de las columnas de entrada |
Sí |
| LatentDirichletAllocation |
Transformar un documento (representado como vector de flotantes) en un vector de flotantes sobre un conjunto de temas |
Sí |
| ApplyWordEmbedding |
Convierta vectores de tokens de texto en vectores de oraciones con un modelo entrenado previamente |
Sí |
| Transformación |
Definición |
ONNX Exportable |
| ConvertToGrayscale |
Convertir una imagen en escala de grises |
No |
| ConvertToImage |
Convertir un vector de píxeles en ImageDataViewType |
No |
| ExtractPixels |
Convertir píxeles de una imagen de entrada en un vector de números |
No |
| LoadImages |
Cargar imágenes de una carpeta en memoria |
No |
| LoadRawImageBytes |
Carga imágenes de datos en bruto en una nueva columna. |
No |
| ResizeImages |
Cambiar el tamaño de imágenes |
No |
| DnnFeaturizeImage |
Aplica un modelo de red neuronal profunda (DNN) entrenado previamente para transformar una imagen de entrada en un vector de característica |
No |
| Transformación |
Definición |
ONNX Exportable |
| OneHotEncoding |
Convertir una o más columnas de texto en vectores codificados one-hot |
Sí |
| OneHotHashEncoding |
Convertir una o más columnas de texto en vectores codificados one-hot basados en hash |
No |
| Transformación |
Definición |
ONNX Exportable |
| DetectAnomalyBySrCnn |
Detectar anomalías en los datos de serie temporal de entrada con el algoritmo Residual Espectral (SR) |
No |
| DetectChangePointBySsa |
Detectar puntos de cambio en los datos de serie temporal con el análisis de espectro singular (SSA) |
No |
| DetectIidChangePoint |
Detectar puntos de cambio en datos de series temporales independientes e idénticamente distribuidos (IID) mediante estimaciones adaptativas de densidad de kernel y puntuaciones de martingala. |
No |
| ForecastBySsa |
Pronosticar los datos de serie temporal con el análisis de espectro singular (SSA) |
No |
| DetectSpikeBySsa |
Detectar picos en los datos de serie temporal con el análisis de espectro singular (SSA) |
No |
| DetectIidSpike |
Detectar picos en los datos de series temporales independientes y distribuidos de manera idéntica (IID) utilizando estimaciones de densidad de kernel adaptable y puntuaciones de martingala |
No |
| DetectEntireAnomalyBySrCnn |
Detectar anomalías para todos los datos de entrada mediante el algoritmo SRCNN. |
No |
| DetectSeasonality |
Detectar la estacionalidad mediante el análisis de Fourier. |
No |
| LocalizeRootCause |
Localiza la causa raíz a partir de datos de series temporales mediante un algoritmo de árbol de decisión. |
No |
| LocalizeRootCauses |
Identificar las causas raíz a partir de la entrada de la serie temporal. |
No |
Valores que faltan
| Transformación |
Definición |
ONNX Exportable |
| IndicateMissingValues |
Crear una columna de salida booleana nueva cuyo valor es true cuando falta el valor en la columna de entrada |
Sí |
| ReplaceMissingValues |
Crear una nueva columna de salida, cuyo valor se establece en uno predeterminado si el valor de la columna de entrada falta, y en caso contrario, se utiliza el valor de entrada. |
Sí |
Selección de características
| Transformación |
Definición |
ONNX Exportable |
| ApproximatedKernelMap |
Asignar cada vector de entrada a un espacio de característica dimensional inferior, donde los productos internos se aproximan a una función kernel, para que las características se puedan usar como entradas en los algoritmos lineales |
No |
| ProjectToPrincipalComponents |
Reducir las dimensiones del vector de característica de entrada mediante la aplicación del algoritmo Análisis de componentes principales |
|
| Transformación |
Definición |
Exportable con ONNX |
| CalculateFeatureContribution |
Calcular las puntuaciones de contribución para cada elemento de un vector de característica |
No |
| Transformación |
Definición |
ONNX Exportable |
| Platt(String, String, String) |
Transforma la puntuación bruta de un clasificador binario en una probabilidad de clase mediante la regresión logística, estimando sus parámetros a partir de los datos de entrenamiento. |
Sí |
| Platt(Double, Double, String) |
Transforma la puntuación sin procesar de un clasificador binario en una probabilidad de clase mediante la regresión logística con parámetros fijos |
Sí |
| Naive |
Transforma la puntuación sin procesar de un clasificador binario en una probabilidad de clase asignando puntuaciones a contenedores y calculando la probabilidad según la distribución entre los contenedores. |
Sí |
| Isotonic |
Transforma la puntuación sin procesar de un clasificador binario en una probabilidad de clase mediante la asignación de puntuaciones a los intervalos, donde la posición de los límites y el tamaño de los intervalos se calculan usando los datos de entrenamiento |
No |
| Transformación |
Definición |
ONNX Exportable |
| ApplyOnnxModel |
Transforma los datos de entrada con un modelo importado de ONNX |
No |
| LoadTensorFlowModel |
Transforma los datos de entrada con un modelo importado de TensorFlow |
No |
| Transformación |
Definición |
Exportable en ONNX |
| FilterByCustomPredicate |
Quitar las filas en las que un predicado especificado devuelve true |
No |
| FilterByStatefulCustomPredicate |
Elimina las filas en las que un predicado especificado devuelve true, pero permite un estado especificado. |
No |
| CustomMapping |
Transformar las columnas existentes en columnas nuevas con una asignación definida por el usuario |
No |
| Expression |
Aplicar una expresión para transformar columnas en otras nuevas |
No |