2018-08-01から1ヶ月間の記事一覧
Glueのデータカタログを使用して、Redshift Spectrumを利用する方法について、まとめておきます。 公式のマニュアルはこちら。 Amazon Redshift Spectrum を使用して外部データにクエリを実行する - Amazon Redshift 利用にあたり前提条件 Redshift Cluster…
Apache Zeppelin とは、Sparkをサポートするnotebookで、SparkをいじるためのJupyter notebookみたいなやつです。これを利用して、GlueのSparkを操作してみます。 Glueのコンソールには、EC2のZeppelinサーバをLaunchするための設定が用意されていますが、結…
Redshiftにデータを投入する方法は色々用意されていまうが、一般的には(且つ推奨されている方法では)、RedshiftのCOPYコマンドを利用する方法です。 基本的にロードしたいファイルをS3上に置いておき、COPYすることになるのですが、COPYコマンドのみでの実…
Redshiftには、マテリアライズド・ビューを作成する方法は用意されていません。Redshiftはデータウェアハウス向けに設計されたデータベースであるが故、以下の様な理由により、その機能を用意していないのだと考えています。 データウェアハウスは、恒常的に…
GlueでPySparkプログラムを開発するための、開発エンドポイント作成方法について記載します。 公開鍵/秘密鍵の作成 Glueエンドポイントへのアクセスは、公開鍵/秘密鍵が必要となります。ので、OpenSSH形式の公開鍵/秘密鍵を、事前に作成しておきます。 エン…