Partilhar via


Referência do PySpark

Esta página fornece uma visão geral das referências disponíveis para o PySpark, uma API em Python para o Spark. Para mais informações sobre o PySpark, veja PySpark no Azure Databricks.

Tipos de dados

Para uma lista completa dos tipos de dados PySpark, veja Tipos de dados PySpark.

Aulas

Reference Description
Avro Suporte para leitura e escrita de dados em formato Apache Avro.
Catálogo Interface para gerir bases de dados, tabelas, funções e outros metadados de catálogo.
Coluna Operações para trabalhar com colunas DataFrame, incluindo transformações e expressões.
tipos de dados Tipos de dados disponíveis em PySpark SQL, incluindo tipos primitivos, tipos complexos e tipos definidos pelo utilizador.
DataFrame Coleção distribuída de dados organizada em colunas nomeadas, semelhante a uma tabela numa base de dados relacional.
DataFrameNaFunctions Funcionalidade para trabalhar com dados em falta num DataFrame.
DataFrameReader Interface usada para carregar um DataFrame a partir de sistemas de armazenamento externos.
DataFrameStatFunctions Funcionalidade para funções estatísticas com um DataFrame.
DataFrameWriter Interface usada para escrever um DataFrame para sistemas de armazenamento externos.
DataFrameWriterV2 Interface usada para escrever um DataFrame para armazenamento externo (versão 2).
Fonte de dados APIs para implementar fontes de dados personalizadas para leitura de sistemas externos. Para informações sobre fontes de dados personalizadas, consulte PySpark fontes de dados personalizadas.
DataSourceArrowWriter Uma classe base para escritores de fontes de dados que processam dados usando o RecordBatcharquivo do PyArrow.
DataSourceRegistration Um wrapper para o registo da fonte de dados.
DataSourceReader Uma classe base para leitores de fontes de dados.
DataSourceStreamArrowWriter Uma classe base para escritores de fluxos de dados que processam dados usando o RecordBatcharquivo do PyArrow.
DataSourceStreamReader Uma classe base para streaming de leitores de fontes de dados.
DataSourceStreamWriter Uma classe base para escritores de fluxos de dados.
GroupedData Métodos para agrupar dados e realizar operações de agregação em DataFrames agrupados.
Observação Recolhe métricas e observa DataFrames durante a execução da consulta para monitorização e depuração.
PlotAccessor Acessório para funcionalidade de plotamento DataFrame no PySpark.
ProtoBuf Suporte para serialização e desserialização de dados usando o formato Protocol Buffers.
Linha Representa uma linha de dados num DataFrame, fornecendo acesso a valores individuais de campo.
RuntimeConfig Configurações em tempo de execução para Spark SQL, incluindo definições de execução e de otimização.
Para informações sobre configurações que só estão disponíveis no Databricks, veja Definir propriedades de configuração do Spark no Azure Databricks.
SparkSession O ponto de entrada para ler dados e executar consultas SQL em aplicações PySpark.
Processador com estado Gere o estado entre lotes de streaming para operações complexas dentro de streaming estruturado.
UserDefinedFunction (UDF) Funções definidas pelo utilizador para aplicar lógica Python personalizada a colunas DataFrame.
UDFRegistration Wrapper para registo de funções definidas pelo utilizador. Esta instância pode ser acedida por spark.udf.
UserDefinedTableFunction (UDTF) Funções de tabela definidas pelo utilizador que retornam várias linhas para cada linha de entrada.
UDTFRegistração Wrapper para registo de funções de tabela definidas pelo utilizador. Esta instância pode ser acedida por spark.udtf.
VariantVal Representa dados semi-estruturados com esquema flexível, que suporta tipos dinâmicos e estruturas aninhadas.
Janela Funções janela para realizar cálculos ao longo de um conjunto de linhas de tabela relacionadas com a linha atual.
WindowSpec Funções janela para realizar cálculos ao longo de um conjunto de linhas de tabela relacionadas com a linha atual.

Funções

Para uma lista completa das funções incorporadas disponíveis, veja Funções PySpark.