Kommentar
Åtkomst till den här sidan kräver auktorisering. Du kan prova att logga in eller ändra kataloger.
Åtkomst till den här sidan kräver auktorisering. Du kan prova att ändra kataloger.
Skapar en ny matriskolumn från indatakolumnerna eller kolumnnamnen.
Syntax
from pyspark.sql import functions as sf
sf.array(*cols)
Parameterar
| Parameter | Typ | Description |
|---|---|---|
cols |
pyspark.sql.Column eller str |
Kolumnnamn eller Kolumnobjekt som har samma datatyp. |
Retur
pyspark.sql.Column: En ny kolumn av matristyp, där varje värde är en matris som innehåller motsvarande värden från indatakolumnerna.
Examples
Exempel 1: Grundläggande användning av matrisfunktionen med kolumnnamn.
from pyspark.sql import functions as sf
df = spark.createDataFrame([("Alice", "doctor"), ("Bob", "engineer")],
("name", "occupation"))
df.select(sf.array('name', 'occupation')).show()
+-----------------------+
|array(name, occupation)|
+-----------------------+
| [Alice, doctor]|
| [Bob, engineer]|
+-----------------------+
Exempel 2: Användning av matrisfunktion med kolumnobjekt.
from pyspark.sql import functions as sf
df = spark.createDataFrame([("Alice", "doctor"), ("Bob", "engineer")],
("name", "occupation"))
df.select(sf.array(df.name, df.occupation)).show()
+-----------------------+
|array(name, occupation)|
+-----------------------+
| [Alice, doctor]|
| [Bob, engineer]|
+-----------------------+
Exempel 3: Enskilt argument som lista över kolumnnamn.
from pyspark.sql import functions as sf
df = spark.createDataFrame([("Alice", "doctor"), ("Bob", "engineer")],
("name", "occupation"))
df.select(sf.array(['name', 'occupation'])).show()
+-----------------------+
|array(name, occupation)|
+-----------------------+
| [Alice, doctor]|
| [Bob, engineer]|
+-----------------------+
Exempel 4: Användning av matrisfunktion med kolumner av olika typer.
from pyspark.sql import functions as sf
df = spark.createDataFrame(
[("Alice", 2, 22.2), ("Bob", 5, 36.1)],
("name", "age", "weight"))
df.select(sf.array(['age', 'weight'])).show()
+------------------+
|array(age, weight)|
+------------------+
| [2.0, 22.2]|
| [5.0, 36.1]|
+------------------+
Exempel 5: matrisfunktion med en kolumn som innehåller null-värden.
from pyspark.sql import functions as sf
df = spark.createDataFrame([("Alice", None), ("Bob", "engineer")],
("name", "occupation"))
df.select(sf.array('name', 'occupation')).show()
+-----------------------+
|array(name, occupation)|
+-----------------------+
| [Alice, NULL]|
| [Bob, engineer]|
+-----------------------+