goodbyegangsterのブログ

備忘録的な

Redshiftで、クラスターのノード数により、テーブルのデータサイズが増減するという話

題名の通りなのですが、増減します。詳しい解説は、以下のナレッジページにあります。 Redshift クラスターのストレージスペースについて理解する Redshiftのテーブルサイズを決定する要員として下記があります。 The number of populated slices on each Am…

RHEL7のEC2でルート領域を拡張する

EC2上のRedHat Enterprise Linux 7にて、ルート領域を拡張します。rootユーザで作業してます。 事前確認 今は10GBです。 # df -h | grep /dev/xvda2 /dev/xvda2 10G 924M 9.1G 10% / # # lsblk NAME MAJ:MIN RM SIZE RO TYPE MOUNTPOINT xvda 202:0 0 10G 0 …

ACMにて、サブドメインまたはワイルドカードを利用してパブリック証明書の発行

ACMの証明書発行をたまに実施するのですが、たまに実施するが故に細かい所をいつも忘れているので、備忘録として記載しておきます。 サブドメインのパブリック証明書発行作業 ACMでのパブリック証明書発行のためには、ドメイン検証処理を行う必要があり、サ…

Redshiftにおいて監査ログを出力する方法

Redshiftにおいても、一般のRDBと同等レベルのAuditLogを取得可能です。その方法について、まとめておきます。基本的にマニュアルの記載をざっくりまとめたものなので、詳細については以下の公式マニュアルを見てみて下さい。 データベース監査ログ作成 - Am…

EMRでSpark環境を用意する

AWSのEMRを利用して、Apach Spark環境を作成してみます。EMRのバージョンは、5.14.0です。 EC2キーペアの用意 EMRで作成されたEC2で利用する、EC2キーペアを用意しておきます。 EMRでクラスタ作成 advanced optionsを選択 AWSコンソールのEMRコンソールに移…

Data Pipeline の ShellActivity で利用されるOSユーザについて

結論から言ってしまうと、 ec2-user です。「当たり前だろ」って感もありますが、マニュアルには書いてくれていないので。 尚、Task RunnerのEC2として利用できるAMIは、独自にも設定でき(LaunchさせたいAMIの指定パラメータ部分で、自分で作ったamiのidを指…

Redshiftを構築しながら思ったこと

Redshiftを触りつつ、思ったことを資料にまとめたので貼っておきます。以下のslideshareとなります。 Redshift構築メモ from goodbyegangster www.slideshare.net Redshiftに関しては、上記以外にも色々まだ書きたいことがあるので、ブログにメモしていきま…

WindowsでSpark(PySpark)環境をつくる

Windows10でPySparkを動かします。 JDKのインストール SparkそのものはScalaで作られているのでJavaの環境が必要です。Java Deployment Kit のバージョン7以降をインストールしておきます。Oracleのサイトからインストールexeファイルをダウンロードして実行…

WindowsのVargrantでCentOSを起動する

環境は以下です。 Windows10 VirtualBox 5.2.12 Vargrant 2.1.1 CentOS7 VirtualBoxのインストール 以下のサイトから、Windows用のVirutalBoxのモジュールを持ってきてインストール。 Oracle VM VirtualBox - Downloads | Oracle Technology Network | Oracl…

Data PipelineのSQL Activityで実行するSQLファイルに、複数のクエリを記載する

マニュアルには記載がないようなので、書いておきます。 Data PipelineのSQL Activityで、1度に複数のSQLクエリを実行できるか、という話です。S3に置いた1つのSQLファイルに、複数のステートメントを書いて実行きるのか否か、という話。結論からすると、 …

psqlで、パスワード入力を省略して、Redshiftに接続する

postgresqlと同じ方法で対応可能です。 方法1 環境変数を利用する PGPASSWORD という環境変数にパスワードを、事前に設定することで対応できます。ただし、この方法は推奨されていません。 この環境変数の使用は、セキュリティ上の理由から現在では推奨され…

Data Pipeline に関する備忘録

Data Pipeline を触っていた時の備忘録です。 (1) Data Pipelineコンソールからは、作成できない設定が多数 GUIからは Preconditions や Resourcesは設定できない。JSONの定義ファイルを作成して、インポートしてあげる。というか、GUIがそもそも分かりにく…

RedshiftのVacuumをしたら、全然終わらず、DISK FULLになって絶望した話

絶望しましたねえ。 レコード数は1億レコードは優に超えていたと思います。インターリーブソートキーを利用していて、全くVacuumしていないテーブルをVacuumしたところ、全く処理が終わらず、終らないどころかディスク使用率が100%に到達してしまいました。…

Linux系HULFTの動作ログ

HULFTのシスログってどこにあるんだよ、って調べた時のメモです。設定ファイル /usr/local/HULFT/etc/hulenv.conf に記載あるとのこと。 デフォルトだと、こんな感じですね。 # トレース出力ファイル名 tlogfile = /usr/local/HULFT/etc/trace 処理エラー発…

AWS EC2 に Python 3.6.5 と Pandas をインストールする

題名の通りです。 Amazon Linuxにデフォルトで入っているPythonは、2系のかなり古いものなので、3系の新し目のPythonを入れて、併せてpndasも入れます。 Amazon Linux用yumのリポジトリに Python 3.6.5 がいるので、それを引っ張ってくればいいようです。昔…

sedコマンドで、正規表現で一致した値を再利用して置換する

置換対象の文字列の箇所にて、再利用したい文字列を () で囲むと、置換後文字列にて、値を再利用できます。置換後文字列の部分にて、再利用したい文字を \1 \2 みたく指定してあげます。知らなかったのでメモ。 こちらのQiitaの記事を参考にさせて貰いました…

Redshiftにて、作成したDBユーザのSYSLOG ACCESS UNRESTRICTEDが正しく設定されているか調べる方法

Redshiftにて、ユーザのSYSLOG ACCESS UNRESTRICTEDが正しく設定されているかどうか、カタログテーブルや管理ビューで確認する方法はないそうです。 SYSLOG ACCESS UNRESTRICTED/RESTRICTED とは、 Amazon Redshift のシステムテーブルとビューに対するユー…

Windowsにpsqlをインストールして、Redshiftへ接続する方法

Windows10で利用する時の方法です。尚、SQL Workbench/Jをインストールする方法はこちら。 SQL workbench/JからRedshiftに接続して、テーブルが作成できない件 - goodbyegangsterのブログ psqlをダウンロードします。Windowsでは、psql単体のみでインストー…

CloudFormationのStackをCLIより作成時、1つのパラメータに複数の値を入力する方法

地味に困ったので、メモ。 以下みたいなCloudFormationのテンプレートを作成時。 AWSTemplateFormatVersion: 2010-09-09 Parameters: (略) SecurityGroupIdsParm: Description: Select SecurityGroupIds Type: 'List<AWS::EC2::SecurityGroup::Id>' (略) Resources: EC2Instance: Type: 'A</aws::ec2::securitygroup::id>…

fstabを編集するシェルスクリプト

AWSのEC2にて、UserDataに記載することをイメージしています。 基本的な手順はAWSのマニュアル通り、それをスクリプトにしているだけです。 Amazon EBS ボリュームを使用できるようにする - Amazon Elastic Compute Cloud DiskSize="10G" MountPoint="/data"…

SQL workbench/JからRedshiftに接続して、テーブルが作成できない件

SQL workbench/J からRedshiftに接続して create table をすると、以下エラーが出てきて作成してくれませんでした。 Amazon Invalid operation: current transaction is aborted, commands ignored until end of transaction block DDL文に間違いはないはず…

WindowsにSQLworkbench/J インストールして、Redshiftへ接続する方法

Redshiftのマニュアルを読んでいると、SQLworkbench/Jなるものを利用してアクセスして欲しいっぽいので、自分のWindows10に設定してみます。下記の公式のマニュアルを参考に作業。 4. Installing and starting SQL Workbench/J SQLworkbench/J のダウンロー…

PowershellスクリプトをWindowsタスクで実行する

当たり前の話なのかもしれませんが、知らなかったのでメモ。WindowsでPowershellスクリプトをWindowsタスクで実行する場合の書き方。 こちらの@itの記事を参考にしています。 WindowsのタスクスケジューラーでPowerShellのスクリプトを実行する際には「パス…

Redshiftにて「allow-version-upgrade」の設定値を変更する方法

AWSコンソールからRedshiftを触っていて、メジャーバージョンアップを許可する"allow-version-upgrade"というパラメータがあるんですが、それを変更するような方法が見つからず、あれっとなりました。 AWS CLIのリファレンスを見に行って、modify-cluster と…

Amazon Linux でのHULFT自動起動/停止スクリプト

久しぶりにHULFT触ったのですが、Unix系のHULFTは、OS起動/停止時のスクリプトが用意されていないのですね。思い出しました。 なので、作成したものが下記です。 /etc/init.d/hulft に、以下のスクリプトを作成。 #!/bin/sh # chkconfig: - 99 1 # descripti…

オンプレSQLServerをRDSへ移行した話

最近、オンプレにあったSQLServer2008をRDS(SQLServer2012)へ移行したので、その時のメモです。 SQLServer2012 Upgrade Advisor を利用して事前確認 SQLServer自体のバージョンアップにもなるので、MSが提供しているUpgrade Advisorを利用してバージョン上げ…

ローカルに置いたテンプレートファイルを利用して、PowershellでCloudFormationスタックを作成する

ローカルにあるCloudFormationテンプレートを利用して、PowershellからCloudFormationスタックを作成するコマンド。地味にハマったので、メモ。 CloudFormationスタック作成用のコマンドレットはこちら。 AWS CloudFormation: New-CFNStack Cmdlet | AWS Too…

EC2のRedHatEnterpriseLinux7.4にxrdpを設定する

AWSでナレッジを公開してくれています。手順はxrdpをインストールして、起動設定しているだけ。サイトの情報は7.3ですが、7.4でも問題ありませんでした。 Windows から Amazon EC2 RHEL 7.3 デスクトップに接続する 以下は、EC2のユーザーデータに設定したス…

powershell:IPv6を無効にする

IPv6を無効にするPowershell。 Get-NetAdapterBinding | ? {$_.DisplayName -match 'ipv6'} | Set-NetAdapterBinding -Enabled $false

「データウェアハウスがわかる本」を読んだメモ

「データウェアハウスがわかる本」を読んだので、まとめ。 データウェアハウスがわかる本作者: 鈴木健司出版社/メーカー: オーム社発売日: 2000/06/01メディア: 単行本購入: 3人 クリック: 1回この商品を含むブログ (1件) を見る データウェアハウスの概念 …