Simple is Beautiful.

プログラムや日常のこととか書いてます

GlueのPySparkでパーティション一覧を取得する

PySpark

Spark

Glue

Python
PySparkで特定の列の出現回数をカウントしてmap型でまとめる

PySpark

Glue

Spark

Python
PySparkで配列を展開してそれぞれの行にする

PySpark

Glue

Spark

Python
PySparkでgroupbyで集計したデータを配列にして一行にまとめる

PySpark

Glue

Python

Spark
CDKでGlueJobの一時ディレクトリや参照されるファイルパスやPythonライブラリパスなどを設定する

Glue

GlueJob

AWS

CDK
PySparkのJOINのhowオプション全部試してみた

PySpark

spark
Dockerでparquet-toolsを使ってsnappy圧縮されたparquetファイルの中身を確認する

Athena

Glue

parquet

snappy
Glueで共通の処理を別ファイルにして読み込む

Glue

PySpark

GlueJob
PySparkでJSON文字列が入った列のデータを取り出す

PySpark

Glue

Python

Spark
PySparkのDataFrameをSQLで操作する

PySpark

Glue

Python

Spark

2

©2014-2020 Goki MORI