+---+---+
| a| b|
+---+---+
| 1| 10|
| 2| 20|
| 3| 30|
+---+---+
元のデータから20以上の条件で絞ってみます。
from pyspark.sql.functions import col
df = spark.createDataFrame([
(1, 10),
(2, 20),
(3, 30)
],
["a", "b"])
df = df.filter(col("b") >= lit(20))
df.show()
filterメソッドで条件を指定するだけで絞り込むことができます。
+---+---+
| a| b|
+---+---+
| 2| 20|
| 3| 30|
+---+---+