Nota
O acesso a esta página requer autorização. Pode tentar iniciar sessão ou alterar os diretórios.
O acesso a esta página requer autorização. Pode tentar alterar os diretórios.
Esta página fornece uma visão geral das referências disponíveis para o PySpark, uma API em Python para o Spark. Para mais informações sobre o PySpark, veja PySpark no Azure Databricks.
Tipos de dados
Para uma lista completa dos tipos de dados PySpark, veja Tipos de dados PySpark.
Aulas
| Reference | Description |
|---|---|
| Avro | Suporte para leitura e escrita de dados em formato Apache Avro. |
| Catálogo | Interface para gerir bases de dados, tabelas, funções e outros metadados de catálogo. |
| Coluna | Operações para trabalhar com colunas DataFrame, incluindo transformações e expressões. |
| tipos de dados | Tipos de dados disponíveis em PySpark SQL, incluindo tipos primitivos, tipos complexos e tipos definidos pelo utilizador. |
| DataFrame | Coleção distribuída de dados organizada em colunas nomeadas, semelhante a uma tabela numa base de dados relacional. |
| DataFrameNaFunctions | Funcionalidade para trabalhar com dados em falta num DataFrame. |
| DataFrameReader | Interface usada para carregar um DataFrame a partir de sistemas de armazenamento externos. |
| DataFrameStatFunctions | Funcionalidade para funções estatísticas com um DataFrame. |
| DataFrameWriter | Interface usada para escrever um DataFrame para sistemas de armazenamento externos. |
| DataFrameWriterV2 | Interface usada para escrever um DataFrame para armazenamento externo (versão 2). |
| Fonte de dados | APIs para implementar fontes de dados personalizadas para leitura de sistemas externos. Para informações sobre fontes de dados personalizadas, consulte PySpark fontes de dados personalizadas. |
| DataSourceArrowWriter | Uma classe base para escritores de fontes de dados que processam dados usando o RecordBatcharquivo do PyArrow. |
| DataSourceRegistration | Um wrapper para o registo da fonte de dados. |
| DataSourceReader | Uma classe base para leitores de fontes de dados. |
| DataSourceStreamArrowWriter | Uma classe base para escritores de fluxos de dados que processam dados usando o RecordBatcharquivo do PyArrow. |
| DataSourceStreamReader | Uma classe base para streaming de leitores de fontes de dados. |
| DataSourceStreamWriter | Uma classe base para escritores de fluxos de dados. |
| GroupedData | Métodos para agrupar dados e realizar operações de agregação em DataFrames agrupados. |
| Observação | Recolhe métricas e observa DataFrames durante a execução da consulta para monitorização e depuração. |
| PlotAccessor | Acessório para funcionalidade de plotamento DataFrame no PySpark. |
| ProtoBuf | Suporte para serialização e desserialização de dados usando o formato Protocol Buffers. |
| Linha | Representa uma linha de dados num DataFrame, fornecendo acesso a valores individuais de campo. |
| RuntimeConfig | Configurações em tempo de execução para Spark SQL, incluindo definições de execução e de otimização. Para informações sobre configurações que só estão disponíveis no Databricks, veja Definir propriedades de configuração do Spark no Azure Databricks. |
| SparkSession | O ponto de entrada para ler dados e executar consultas SQL em aplicações PySpark. |
| Processador com estado | Gere o estado entre lotes de streaming para operações complexas dentro de streaming estruturado. |
| UserDefinedFunction (UDF) | Funções definidas pelo utilizador para aplicar lógica Python personalizada a colunas DataFrame. |
| UDFRegistration | Wrapper para registo de funções definidas pelo utilizador. Esta instância pode ser acedida por spark.udf. |
| UserDefinedTableFunction (UDTF) | Funções de tabela definidas pelo utilizador que retornam várias linhas para cada linha de entrada. |
| UDTFRegistração | Wrapper para registo de funções de tabela definidas pelo utilizador. Esta instância pode ser acedida por spark.udtf. |
| VariantVal | Representa dados semi-estruturados com esquema flexível, que suporta tipos dinâmicos e estruturas aninhadas. |
| Janela | Funções janela para realizar cálculos ao longo de um conjunto de linhas de tabela relacionadas com a linha atual. |
| WindowSpec | Funções janela para realizar cálculos ao longo de um conjunto de linhas de tabela relacionadas com a linha atual. |
Funções
Para uma lista completa das funções incorporadas disponíveis, veja Funções PySpark.