プログラムや日常のこととか書いてます

  1. GlueのPySparkでパーティション一覧を取得する

  2. PySparkで特定の列の出現回数をカウントしてmap型でまとめる

  3. PySparkで配列を展開してそれぞれの行にする

  4. PySparkでgroupbyで集計したデータを配列にして一行にまとめる

  5. CDKでGlueJobの一時ディレクトリや参照されるファイルパスやPythonライブラリパスなどを設定する

  6. PySparkのJOINのhowオプション全部試してみた

  7. Dockerでparquet-toolsを使ってsnappy圧縮されたparquetファイルの中身を確認する

  8. Glueで共通の処理を別ファイルにして読み込む

  9. PySparkでJSON文字列が入った列のデータを取り出す

  10. PySparkのDataFrameをSQLで操作する