20210117

PySparkでS3のParquetファイルを再帰的に読み込む

optionでrecursiveFileLookupを指定することでparquetsディレクトリ以下を再帰的に読み込む様になります。

s3_path = "s3://bucket-name/parquets"
df = spark.read.format("parquet").option("recursiveFileLookup", "true").load(s3_path)

参照