Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Devuelve una nueva columna para el coeficiente de correlación de Pearson para col1 y col2.
Syntax
from pyspark.sql import functions as sf
sf.corr(col1, col2)
Parámetros
| Parámetro | Tipo | Description |
|---|---|---|
col1 |
pyspark.sql.Column o nombre de columna |
Primera columna para calcular la correlación. |
col2 |
pyspark.sql.Column o nombre de columna |
Segunda columna para calcular la correlación. |
Devoluciones
pyspark.sql.Column: Coeficiente de correlación de Pearson de estos dos valores de columna.
Examples
from pyspark.sql import functions as sf
a = range(20)
b = [2 * x for x in range(20)]
df = spark.createDataFrame(zip(a, b), ["a", "b"])
df.agg(sf.corr("a", df.b)).show()
+----------+
|corr(a, b)|
+----------+
| 1.0|
+----------+