Python

  1. [boto3]S3の特定のディレクトリ以下にディレクトリかファイルが存在するか確認

  2. PySparkでUTCで入っている時刻をJSTに変換する

  3. GlueのgetResolvedOptionsで任意の引数でもエラーが出ないようにする

  4. GlueのPySparkでパーティション一覧を取得する

  5. PySparkで特定の列の出現回数をカウントしてmap型でまとめる

  6. PySparkで配列を展開してそれぞれの行にする

  7. PySparkでgroupbyで集計したデータを配列にして一行にまとめる

  8. PySparkでJSON文字列が入った列のデータを取り出す

  9. PySparkのDataFrameをSQLで操作する

  10. PySparkで重複行を削除する

  11. PySparkで行をフィルタリングする

  12. PySparkで日付情報を別カラムに分割する

  13. PySparkでDataFrameの指定したカラムのnullを特定の値で埋める

  14. PySparkで追加したカラムにリテラル値を追加する