PySparkで行をフィルタリングする

+---+---+
|  a|  b|
+---+---+
|  1| 10|
|  2| 20|
|  3| 30|
+---+---+

元のデータから20以上の条件で絞ってみます。

from pyspark.sql.functions import col

df = spark.createDataFrame([
        (1, 10),
        (2, 20),
        (3, 30)
    ],
    ["a", "b"])

df = df.filter(col("b") >= lit(20))
df.show()

filterメソッドで条件を指定するだけで絞り込むことができます。

+---+---+
|  a|  b|
+---+---+
|  2| 20|
|  3| 30|
+---+---+