PySparkでDataFrameの指定したカラムのnullを特定の値で埋める

+----+----+
|   a|   b|
+----+----+
|   1|null|
|null|   2|
|   3|   4|
|null|null|
+----+----+

この様なデータのaカラムのnullに0を入れてみます。

df = spark.createDataFrame([
        (1, None),
        (None, 2),
        (3, 4),
        (None, None)
    ],
    ['a', 'b'])

df = df.fillna(0, subset=['a'])

df.show()

fillnaメソッドのsubsetオプションで適用カラムを指定できます。また、複数のカラムも指定可能です。

+---+----+
|  a|   b|
+---+----+
|  1|null|
|  0|   2|
|  3|   4|
|  0|null|
+---+----+

参照