AWS Glue
aws-glue-libs を利用するば、ローカルPC上でGlue開発環境を用意できるとのこと、試してみます。 aws-glue-libs This repository contains libraries used in the AWS Glue service. These libraries extend Apache Spark with additional data types and op…
Glueのデータカタログ機能て、すごい便利ですよね。 Glueデータカタログとは、DataLake上ファイルのメタ情報を管理してくれるHiveメタストア的なやつで、このメタストアを、AthenaやRedshift Spectrumから簡単に参照出来ます。マネージドサービスとなるので…
Apache Zeppelin とは、Sparkをサポートするnotebookで、SparkをいじるためのJupyter notebookみたいなやつです。これを利用して、GlueのSparkを操作してみます。 Glueのコンソールには、EC2のZeppelinサーバをLaunchするための設定が用意されていますが、結…
GlueでPySparkプログラムを開発するための、開発エンドポイント作成方法について記載します。 公開鍵/秘密鍵の作成 Glueエンドポイントへのアクセスは、公開鍵/秘密鍵が必要となります。ので、OpenSSH形式の公開鍵/秘密鍵を、事前に作成しておきます。 エン…