Compartir a través de


sum_distinct

Función de agregado: devuelve la suma de valores distintos en la expresión.

Syntax

from pyspark.sql import functions as sf

sf.sum_distinct(col)

Parámetros

Parámetro Tipo Description
col pyspark.sql.Column o str Columna de destino en la que se va a calcular.

Devoluciones

pyspark.sql.Column: la columna para los resultados calculados.

Examples

Ejemplo 1: Uso de sum_distinct función en una columna con todos los valores distintos

from pyspark.sql import functions as sf
df = spark.createDataFrame([(1,), (2,), (3,), (4,)], ["numbers"])
df.select(sf.sum_distinct('numbers')).show()
+---------------------+
|sum(DISTINCT numbers)|
+---------------------+
|                   10|
+---------------------+

Ejemplo 2: Uso de sum_distinct función en una columna sin valores distintos

from pyspark.sql import functions as sf
df = spark.createDataFrame([(1,), (1,), (1,), (1,)], ["numbers"])
df.select(sf.sum_distinct('numbers')).show()
+---------------------+
|sum(DISTINCT numbers)|
+---------------------+
|                    1|
+---------------------+

Ejemplo 3: Uso de sum_distinct función en una columna con valores NULL y duplicados

from pyspark.sql import functions as sf
df = spark.createDataFrame([(None,), (1,), (1,), (2,)], ["numbers"])
df.select(sf.sum_distinct('numbers')).show()
+---------------------+
|sum(DISTINCT numbers)|
+---------------------+
|                    3|
+---------------------+