Glue

  1. PySparkでUTCで入っている時刻をJSTに変換する

  2. GlueのgetResolvedOptionsで任意の引数でもエラーが出ないようにする

  3. GlueのPySparkでパーティション一覧を取得する

  4. PySparkで特定の列の出現回数をカウントしてmap型でまとめる

  5. PySparkで配列を展開してそれぞれの行にする

  6. PySparkでgroupbyで集計したデータを配列にして一行にまとめる

  7. CDKでGlueJobの一時ディレクトリや参照されるファイルパスやPythonライブラリパスなどを設定する

  8. Dockerでparquet-toolsを使ってsnappy圧縮されたparquetファイルの中身を確認する

  9. Glueで共通の処理を別ファイルにして読み込む

  10. PySparkでJSON文字列が入った列のデータを取り出す

  11. PySparkのDataFrameをSQLで操作する

  12. PySparkで重複行を削除する

  13. PySparkで行をフィルタリングする

  14. PySparkで日付情報を別カラムに分割する

  15. PySparkでDataFrameの指定したカラムのnullを特定の値で埋める

  16. PySparkで追加したカラムにリテラル値を追加する

  17. GlueでDynamoDBに書き込む方法

  18. AWS Glueで日付の文字列をUnixtimeに変換する