Glue

  1. PySparkで日付データを0パディングして別カラムに分ける

  2. PySparkでUTCで入っている時刻をJSTに変換する

  3. GlueのgetResolvedOptionsで任意の引数でもエラーが出ないようにする

  4. GlueのPySparkでパーティション一覧を取得する

  5. PySparkで特定の列の出現回数をカウントしてmap型でまとめる

  6. PySparkで配列を展開してそれぞれの行にする

  7. PySparkでgroupbyで集計したデータを配列にして一行にまとめる

  8. CDKでGlueJobの一時ディレクトリや参照されるファイルパスやPythonライブラリパスなどを設定する

  9. Dockerでparquet-toolsを使ってsnappy圧縮されたparquetファイルの中身を確認する

  10. Glueで共通の処理を別ファイルにして読み込む

  11. PySparkでJSON文字列が入った列のデータを取り出す

  12. PySparkのDataFrameをSQLで操作する

  13. PySparkで重複行を削除する

  14. PySparkで行をフィルタリングする

  15. PySparkで日付情報を別カラムに分割する

  16. PySparkでDataFrameの指定したカラムのnullを特定の値で埋める

  17. PySparkで追加したカラムにリテラル値を追加する

  18. GlueでDynamoDBに書き込む方法

  19. AWS Glueで日付の文字列をUnixtimeに変換する