Referência do PySpark

Esta página fornece uma visão geral da referência disponível para o PySpark, uma API do Python para Spark. Para obter mais informações sobre o PySpark, consulte PySpark no Azure Databricks.

Tipos de dados

Para obter uma lista completa dos tipos de dados do PySpark, consulte os tipos de dados do PySpark.

Aulas

Referência	Description
Avro	Suporte para leitura e gravação de dados no formato Apache Avro.
Catálogo	Interface para gerenciar bancos de dados, tabelas, funções e outros metadados de catálogo.
Coluna	Operações para trabalhar com colunas DataFrame, incluindo transformações e expressões.
Tipos de dados	Tipos de dados disponíveis no PySpark SQL, incluindo tipos primitivos, tipos complexos e tipos definidos pelo usuário.
DataFrame	Coleção distribuída de dados organizados em colunas nomeadas, semelhante a uma tabela em um banco de dados relacional.
DataFrameNaFunctions	Funcionalidade para trabalhar com dados ausentes em um DataFrame.
DataFrameReader	Interface usada para carregar um DataFrame de sistemas de armazenamento externos.
DataFrameStatFunctions	Funcionalidade para funções estatísticas com um DataFrame.
DataFrameWriter	Interface usada para gravar um DataFrame em sistemas de armazenamento externos.
DataFrameWriterV2	Interface usada para gravar um DataFrame no armazenamento externo (versão 2).
DataSource	APIs para implementar fontes de dados personalizadas a serem lidas de sistemas externos. Para obter informações sobre fontes de dados personalizadas, consulte fontes de dados personalizadas do PySpark.
DataSourceArrowWriter	Uma classe base para gravadores de fonte de dados que processam dados usando pyArrow's `RecordBatch`.
DataSourceRegistration	Um wrapper para registro de fonte de dados.
DataSourceReader	Uma classe base para leitores de fonte de dados.
DataSourceStreamArrowWriter	Uma classe base para gravadores de fluxo de dados que processam dados usando pyArrow's `RecordBatch`.
DataSourceStreamReader	Uma classe base para leitores de fonte de dados de streaming.
DataSourceStreamWriter	Uma classe base para gravadores de fluxo de dados.
GroupedData	Métodos para agrupar dados e executar operações de agregação em DataFrames agrupados.
Observação	Coleta métricas e observa DataFrames durante a execução da consulta para monitoramento e depuração.
PlotAccessor	Acessador para funcionalidade de plotagem de DataFrame no PySpark.
ProtoBuf	Suporte para serialização e desserialização de dados usando o formato Protocol Buffers.
Linha	Representa uma linha de dados em um DataFrame, fornecendo acesso a valores de campo individuais.
RuntimeConfig	Opções de configuração de runtime para o Spark SQL, incluindo configurações de execução e otimizador. Para obter informações sobre a configuração disponível apenas no Databricks, consulte Definir propriedades de configuração do Spark no Azure Databricks.
sparkSession	O ponto de entrada para ler dados e executar consultas SQL em aplicativos PySpark.
Processador com estado	Gerencia estados em lotes de streaming para operações com estado complexas no streaming estruturado.
UserDefinedFunction (UDF)	Funções definidas pelo usuário para aplicar lógica python personalizada a colunas DataFrame.
UDFRegistration	Wrapper para registro de função definido pelo usuário. Essa instância pode ser acessada por `spark.udf`.
UserDefinedTableFunction (UDTF)	Funções de tabela definidas pelo usuário que retornam várias linhas para cada linha de entrada.
UDTFRegistration	Wrapper para registro de função de tabela definido pelo usuário. Essa instância pode ser acessada por `spark.udtf`.
VariantVal	Representa dados semiestruturados com esquema flexível, que dá suporte a tipos dinâmicos e estruturas aninhadas.
Janela	Funções de janela para executar cálculos em um conjunto de linhas de tabela relacionadas à linha atual.
WindowSpec	Funções de janela para executar cálculos em um conjunto de linhas de tabela relacionadas à linha atual.

Functions

Para obter uma lista completa das funções internas disponíveis, consulte as funções do PySpark.

Comentários

Esta página foi útil?

Last updated on 2026-03-15