Kommentar
Åtkomst till den här sidan kräver auktorisering. Du kan prova att logga in eller ändra kataloger.
Åtkomst till den här sidan kräver auktorisering. Du kan prova att ändra kataloger.
Det här är en särskild version av parse_url som utför samma åtgärd, men returnerar ett NULL-värde i stället för att generera ett fel om parsningen inte kan utföras.
Syntax
from pyspark.sql import functions as sf
sf.try_parse_url(url, partToExtract, key=None)
Parameterar
| Parameter | Typ | Description |
|---|---|---|
url |
pyspark.sql.Column eller str |
En kolumn med strängar som var och en representerar en URL. |
partToExtract |
pyspark.sql.Column eller str |
En kolumn med strängar som var och en representerar den del som ska extraheras från URL:en. |
key |
pyspark.sql.Column eller str, valfritt |
En kolumn med strängar som var och en representerar nyckeln för en frågeparameter i URL:en. |
Retur
pyspark.sql.Column: En ny kolumn med strängar som var och en representerar värdet för den extraherade delen från URL:en.
Examples
Exempel 1: Extrahera frågedelen från en URL
from pyspark.sql import functions as sf
df = spark.createDataFrame(
[("https://spark.apache.org/path?query=1", "QUERY")],
["url", "part"]
)
df.select(sf.try_parse_url(df.url, df.part)).show()
+------------------------+
|try_parse_url(url, part)|
+------------------------+
| query=1|
+------------------------+
Exempel 2: Extrahera värdet för en specifik frågeparameter från en URL
from pyspark.sql import functions as sf
df = spark.createDataFrame(
[("https://spark.apache.org/path?query=1", "QUERY", "query")],
["url", "part", "key"]
)
df.select(sf.try_parse_url(df.url, df.part, df.key)).show()
+-----------------------------+
|try_parse_url(url, part, key)|
+-----------------------------+
| 1|
+-----------------------------+
Exempel 3: Extrahera protokolldelen från en URL
from pyspark.sql import functions as sf
df = spark.createDataFrame(
[("https://spark.apache.org/path?query=1", "PROTOCOL")],
["url", "part"]
)
df.select(sf.try_parse_url(df.url, df.part)).show()
+------------------------+
|try_parse_url(url, part)|
+------------------------+
| https|
+------------------------+
Exempel 4: Extrahera värddelen från en URL
from pyspark.sql import functions as sf
df = spark.createDataFrame(
[("https://spark.apache.org/path?query=1", "HOST")],
["url", "part"]
)
df.select(sf.try_parse_url(df.url, df.part)).show()
+------------------------+
|try_parse_url(url, part)|
+------------------------+
| spark.apache.org|
+------------------------+
Exempel 5: Extrahera sökvägsdelen från en URL
from pyspark.sql import functions as sf
df = spark.createDataFrame(
[("https://spark.apache.org/path?query=1", "PATH")],
["url", "part"]
)
df.select(sf.try_parse_url(df.url, df.part)).show()
+------------------------+
|try_parse_url(url, part)|
+------------------------+
| /path|
+------------------------+
Exempel 6: Ogiltig URL
from pyspark.sql import functions as sf
df = spark.createDataFrame(
[("inva lid://spark.apache.org/path?query=1", "QUERY", "query")],
["url", "part", "key"]
)
df.select(sf.try_parse_url(df.url, df.part, df.key)).show()
+-----------------------------+
|try_parse_url(url, part, key)|
+-----------------------------+
| NULL|
+-----------------------------+