LakeFormationで作るデータレイク

こんにちは、開発チームのmです。今回はAWSのサービスであるLakeFormationを使ったデータレイクづくりについてご紹介いたします☺️

データレイクとは
LakeFormationとは
早速つくってみる
おわりに
参考資料

データレイクとは

ざっくりいうと、構造化データ（DBのデータなど）も非構造化データ（動画など）もまるっといれて置いておける場所です。 DWH（データウェアハウス）と違い、整形したものではなく生のままのデータを入れられるため、分析や機械学習など利用シーンを限定しません。 aws.amazon.com

LakeFormationとは

AWSのサービスの一つで、データレイクの構築を簡単に行うことができます。 aws.amazon.com LakeFormationは、AWS Glue*1 のラッパーで、より簡単にデータレイクを構築できるようになっています。特にBlueprintsという機能では、ポチポチっとするだけでワークフローを自動で生成することができます。

今回はBlueprintsを使って、DBデータをデータレイクに入れるワークフローを作成し、Athenaからデータを参照できるようにしました。

早速つくってみる

事前準備

VPC内で構築する場合、下記の設定が必要になります。

RDSのセキュリティグループのインバウンドルールに自己参照ルールを追加
RDSがあるVPCにS3のエンドポイントを作成 docs.aws.amazon.com

LakeFormationの初期設定

Lake Formation の使用の開始 - AWS Lake Formationに従ってに設定します。操作する方はIAM作成などの権限を持っている必要があります。

S3バケットの作成

データレイクとなるS3バケットをあらかじめ作成しておきます。

データベース作成

Glueのデータカタログのメタデータを保存するデータベースです。Athenaでの参照時に使われます。

DBへの接続設定（Glue）

抽出したいDBに接続できるように、接続先の設定を行います。接続先はRDSなどの各種DBサービスから選べます。JDBCを選んで自分で設定することも可能です。

Permissionの設定

ここが一番ややこしく感じました。

設定することで、データベース・テーブル・カラム × アカウント・ロール単位といった細かい粒度でのデータへのアクセス制御を行えます。全てのデータを入れることのできるデータレイクだからこそ、アクセスできるデータとできないデータを細かく設定することでセキュリティリスクを低減させます。

AWS Lake Formationより

テーブル・カラムとアカウントそれぞれにタグをつけて管理するイメージです。

タグを作成します

データベース・テーブル・カラムごとにタグを付与します

IAM（もしくはrole）にタグを付与し、許可する操作を選択します

BluePrintsの設定

BluePrintsのタイプを選択します

今回は、実行時に全てのデータを更新したかったので Database snapshot にしました。 Incremental database を選ぶと増分アップデートが可能なので、データ内容によってはこちらでも○

Database Connection: Glue上で設定した、DBの接続情報を選びます。
Source data Path: 抽出したいデータベース、テーブルを設定します。ワイルドカード（%）の指定も可能です。sample-database/% とすると、sample-databaseの中の全てのテーブルが抽出されます。
Exclude pattern: 上で指定したものの中で、抽出したくないデータベース、テーブルが設定できます。パスワード情報や管理者情報など、データ活用に必要なくセキュリティリスクの高いデータはここで除外すると良さそうです。