Compartir a través de


theta_difference

Devuelve la diferencia de conjunto de dos representaciones binarias de objetos Datasketches Theta Sketch (elementos del primer croquis, pero no en segundo), utilizando un objeto ANotB datasketches.

Syntax

from pyspark.sql import functions as sf

sf.theta_difference(col1, col2)

Parámetros

Parámetro Tipo Description
col1 pyspark.sql.Column o str El primer croquis de Theta.
col2 pyspark.sql.Column o str El segundo croquis de Theta.

Devoluciones

pyspark.sql.Column: representación binaria de la diferencia Theta Sketch.

Examples

Ejemplo 1: Obtener la diferencia de dos bocetos de Theta

from pyspark.sql import functions as sf
df = spark.createDataFrame([(1,4),(2,4),(3,5),(4,5)], "struct<v1:int,v2:int>")
df = df.agg(
    sf.theta_sketch_agg("v1").alias("sketch1"),
    sf.theta_sketch_agg("v2").alias("sketch2")
)
df.select(sf.theta_sketch_estimate(sf.theta_difference(df.sketch1, "sketch2"))).show()
+---------------------------------------------------------+
|theta_sketch_estimate(theta_difference(sketch1, sketch2))|
+---------------------------------------------------------+
|                                                        3|
+---------------------------------------------------------+