AWS Glue

AWS Glue ETLライブラリにて、ローカルPCにGlue開発環境をつくる

aws-glue-libs を利用するば、ローカルPC上でGlue開発環境を用意できるとのこと、試してみます。 aws-glue-libs This repository contains libraries used in the AWS Glue service. These libraries extend Apache Spark with additional data types and op…

GlueのCustom Classifierの使い方

Glueのデータカタログ機能て、すごい便利ですよね。 Glueデータカタログとは、DataLake上ファイルのメタ情報を管理してくれるHiveメタストア的なやつで、このメタストアを、AthenaやRedshift Spectrumから簡単に参照出来ます。マネージドサービスとなるので…

Glue 開発エンドポイントを、ローカルWindows PC上のZeppelinから操作する

Apache Zeppelin とは、Sparkをサポートするnotebookで、SparkをいじるためのJupyter notebookみたいなやつです。これを利用して、GlueのSparkを操作してみます。 Glueのコンソールには、EC2のZeppelinサーバをLaunchするための設定が用意されていますが、結…

AWS Glueの開発エンドポイントの利用方法

GlueでPySparkプログラムを開発するための、開発エンドポイント作成方法について記載します。 公開鍵/秘密鍵の作成 Glueエンドポイントへのアクセスは、公開鍵/秘密鍵が必要となります。ので、OpenSSH形式の公開鍵/秘密鍵を、事前に作成しておきます。 エン…