はじめに
データレイクという言葉も下火になりつつありますが、今更ながらデータレイク初学者が3時間で学習した内容をまとめます。
やりたいこと
- データレイクやデータ分析初学者向けのコンテンツの作成
- ハンズオン体験でデータレイクの概要を理解する
実際やったこと
1.公式動画視聴
まず手始めにAWS SkiilBuilderでデータ分析入門用の動画を見ました。
https://explore.skillbuilder.aws/learn/course/606/play/38824/data-analytics-fundamentals-japanese-112
データ分析における考え方や課題解決について包括的に効率よく学習することができます。
ちなみに日本語吹き替え版なのも良ポイント!
2.データ分析の勉強法
こちらも調べるときは基本的に情報ソースが大事なので公式サイトから探します。
いくつかありますが以下が勉強法についてわかりやすく纏まっているのでおすすめの記事です。
https://aws.amazon.com/jp/builders-flash/202209/way-to-learn-data-analysis/?awsf.filter-name=*all
公式以外だとクラスメソッドさんのDevelopersIOもおすすめ。
私の場合は実際に手を動かしながら学習した方が効率的に知識として定着するので、以下の動画を見ながら実践してみました。
https://dev.classmethod.jp/articles/developersio2021-decade-try-aws-lake-formation-for-the-first-time/
3.知識のアウトプット
ここまでで、データ分析についての概要をなんとなく理解したので、初学者向けに、どのようなコンテンツにするか検討。
- データ分析とは
- なぜデータ分析が必要なのか
- 身近にあるデータ分析の事例紹介
- データレイクについて
- データレイクのつくりかた
- データレイクVSデータウェアハウス
- データレイク設計のベストプラクティス
- AWS Glueについて
- ハンズオン
このような構成でコンテンツを作成していくのですが、知識として足りない部分は必要に応じてGPTへ聞いたり、公式サイトを確認しながら作成していきます。
詳細はここには書けないのであしからず・・・。
ハンズオンとしては購買履歴のダミーデータを使って以下を実施することにしました。
- 実運用でのデータインプットの代わりにLambdaでダミーデータ作成
- 作成したダミーデータをS3へ保存(csv,tsv,jsonそれぞれの形式で)
- 保存されたデータをGlueでクローリング
- クローリングしたテーブル情報をLakeFormationで読み込み
- Athenaで分析
- QuickSightで可視化
テーブルレイアウトは以下(※ダミーデータです)
Name | Address | Age | Sex | Product | Price | PurchaseDate |
---|---|---|---|---|---|---|
Ryan Gentry | 447 Foster Place Apt | 72 | Female | such | 38.5 | 2023-01-22 |
作成したダミーデータをQuickSightで可視化し、購入した商品の年代を分析したり、性別を分析したりして、実際のデータ分析の活用方法をイメージできるようなコンテンツにしました。
あとは全体のバランス(章ごとのスライド枚数)を整えて社内の初学者を集めて講義を行いました。
実際やってみて得られたこと
以上が私なりの新しい分野に対する勉強法ですが、膨大な情報量がネットですべて解決できる現代において、以下がスピードラーニングであると考えています。
- いかに自分にとっての必要な情報を見つけられるか
- その情報を基にアウトプットできるか。
こうすることで知識が技術となって自身のスキルとして蓄えられることを体験できました。
みなさんの新しい分野に対する勉強法があればコメントで教えてください!