プログラムや日常のこととか書いてます
GlueのPySparkでパーティション一覧を取得する
PySpark
Spark
Glue
Python
PySparkで特定の列の出現回数をカウントしてmap型でまとめる
PySpark
Glue
Spark
Python
PySparkで配列を展開してそれぞれの行にする
PySpark
Glue
Spark
Python
PySparkでgroupbyで集計したデータを配列にして一行にまとめる
PySpark
Glue
Python
Spark
CDKでGlueJobの一時ディレクトリや参照されるファイルパスやPythonライブラリパスなどを設定する
Glue
GlueJob
AWS
CDK
PySparkのJOINのhowオプション全部試してみた
PySpark
spark
Dockerでparquet-toolsを使ってsnappy圧縮されたparquetファイルの中身を確認する
Athena
Glue
parquet
snappy
Glueで共通の処理を別ファイルにして読み込む
Glue
PySpark
GlueJob
PySparkでJSON文字列が入った列のデータを取り出す
PySpark
Glue
Python
Spark
PySparkのDataFrameをSQLで操作する
PySpark
Glue
Python
Spark
Prev
1
2
3
4
5
Next