goodbyegangsterのブログ

備忘録的な

AWS-Glue

GlueのCustomClassfierの使い方

Glueのデータカタログ機能て、すごい便利ですよね。 Glueデータカタログとは、DataLake上ファイルのメタ情報を管理してくれるHiveメタストア的なやつで、このメタストアを、AthenaやRedshift Spectrumから簡単に参照出来ます。マネージドサービスとなるので…

Glue 開発エンドポイントを、ローカルWindows PC上のZeppelinから操作する

Apache Zeppelin とは、Sparkをサポートするnotebookで、SparkをいじるためのJupyter notebookみたいなやつです。これを利用して、GlueのSparkを操作してみます。 Glueのコンソールには、EC2のZeppelinサーバをLaunchするための設定が用意されていますが、結…

AWS Glueの開発エンドポイントの利用方法

GlueでPySparkプログラムを開発するための、開発エンドポイント作成方法について記載します。 公開鍵/秘密鍵の作成 Glueエンドポイントへのアクセスは、公開鍵/秘密鍵が必要となります。ので、OpenSSH形式の公開鍵/秘密鍵を、事前に作成しておきます。 エン…