Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Funções do utilitário para definir a janela em DataFrames.
Dá suporte ao Spark Connect
Atributos de classe
| Attribute | Descrição |
|---|---|
unboundedPreceding |
Valor de limite que representa o início de um quadro de janela não associado. |
unboundedFollowing |
Valor de limite que representa o final de um quadro de janela não associado. |
currentRow |
Valor de limite que representa a linha atual em um quadro de janela. |
Methods
| Método | Descrição |
|---|---|
orderBy(*cols) |
Cria um WindowSpec com a ordenação definida. |
partitionBy(*cols) |
Cria um WindowSpec com o particionamento definido. |
rangeBetween(start, end) |
Cria um WindowSpec com os limites de quadro definidos, de start (inclusivo) a end (inclusivo), usando deslocamentos baseados em intervalo do valor da ORDER BY linha atual. |
rowsBetween(start, end) |
Cria um WindowSpec com os limites de quadro definidos, de start (inclusivo) a end (inclusivo), usando deslocamentos baseados em linha da linha atual. |
Observações
Quando a ordenação não é definida, um quadro de janela não associado (rowFrame, unboundedPreceding, unboundedFollowing) é usado por padrão. Quando a ordenação é definida, um quadro de janela crescente (rangeFrame, unboundedPreceding, currentRow) é usado por padrão.
Exemplos
Janela básica com ordenação e quadro de linha
from pyspark.sql import Window
# ORDER BY date ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW
window = Window.orderBy("date").rowsBetween(Window.unboundedPreceding, Window.currentRow)
Janela particionada com quadro de intervalo
from pyspark.sql import Window
# PARTITION BY country ORDER BY date RANGE BETWEEN 3 PRECEDING AND 3 FOLLOWING
window = Window.orderBy("date").partitionBy("country").rangeBetween(-3, 3)
Número de linha dentro da partição
from pyspark.sql import Window, functions as sf
df = spark.createDataFrame(
[(1, "a"), (1, "a"), (2, "a"), (1, "b"), (2, "b"), (3, "b")], ["id", "category"]
)
# Show row number ordered by id within each category partition
window = Window.partitionBy("category").orderBy("id")
df.withColumn("row_number", sf.row_number().over(window)).show()
Soma em execução com quadro baseado em linha
from pyspark.sql import Window, functions as sf
df = spark.createDataFrame(
[(1, "a"), (1, "a"), (2, "a"), (1, "b"), (2, "b"), (3, "b")], ["id", "category"]
)
# Sum id values from the current row to the next row within each partition
window = Window.partitionBy("category").orderBy("id").rowsBetween(Window.currentRow, 1)
df.withColumn("sum", sf.sum("id").over(window)).sort("id", "category", "sum").show()
Soma em execução com quadro baseado em intervalo
from pyspark.sql import Window, functions as sf
df = spark.createDataFrame(
[(1, "a"), (1, "a"), (2, "a"), (1, "b"), (2, "b"), (3, "b")], ["id", "category"]
)
# Sum id values from the current id value to id + 1 within each partition
window = Window.partitionBy("category").orderBy("id").rangeBetween(Window.currentRow, 1)
df.withColumn("sum", sf.sum("id").over(window)).sort("id", "category").show()