はじめに
2024年の9/5(木) ~ 9/11(水)に開催されていたDATUM STUDIO株式会社のサマーインターンシップに参加してきたので、体験記を残したいと思います。と言っても半年近く前の話になりますが、、、
DATUM STUDIO株式会社のインターンを知ったきっかけはサポーターズになります。余談ですが、研究室の同期も別口から同じインターンに応募しており、何も示し合わさず同じ企業に応募していることにはびっくりしました。
DATUM STUDIO株式会社について
最先端のテクノロジーを駆使してデータ業界を牽引する企業、特にSnowflakeの導入実績は日本国内においてNo.1クラス
PyLadies Tokyo初代代表&自然言語処理のスペシャリストである分析業界の女性トップリーダー真嘉比や全世界で30名日本唯一のDATA HERO OF THE YEARを受賞したデータエンジニア菱沼等、業界のトップランナーとの距離が近く、和気藹々と楽しく一緒に働ける
幅広いかつ新しい技術領域の勉強会、研修など教育プログラムが充実&裁量がある環境であり最速成長できる
インターンの流れ
day1: s3(AWS)のデータをSnowflakeに効率よく読み込む
day2: dbtでデータを変換してパイプラインを作る
day3: 実態把握および施策立案を行うための顧客分析
day4: streamlitで可視化を行う
day5: RAGを使ったアプリケーションを作成する
となっており、一連の流れを経験することができます。
day5のうち1~4はリモート、5は対面となっていました。
取り組み際はチームになって行い、4~5人のインターン生に1人のメンターがつくような形です。
質問はその日の担当の方やメンターの方にする形でした。
day1: s3(AWS)のデータをSnowflakeに効率よく読み込む
データウェアハウスなどの講義を受けたのち実際にAWS, Snowflakeを使って課題を行います。資料に基本的なことが記載されているため、何をしたらいいか分からないということはありません。そこから効率的に読み込んだらいいか、知識を持ち寄ったり調べたりして作成します。
最後にチームごとで発表を行い、フィードバックをもらいます。
day2: dbtでデータを変換してパイプラインを作る
dbtに関することを学びながらハンズオンを行ったのち課題に取り組みます。楽天市場の購入データを使ってOBTを作成します。
最後にチームごとで発表を行い、フィードバックをもらいます。発表内容はどのように実装したか、難しかったところ、総実行時間になります。
day3: 実態把握および施策立案を行うための顧客分析
RFM分析、Snowflakeに関する講義を受けたのち実態把握および施策立案を行う目的で顧客分析を行います。課題には細かいマイルストーンがあるため、1つずつ行なっていくことでできます。
最後にチームごとで発表を行い、フィードバックをもらいます。
day4: streamlitで可視化を行う
streamlitに関する講義を受けたのち分析に適したダッシュボードを作成していきます。こちらの課題も作成するグラフの要件があるためこれに合わせて作成していきます。
最後にチームごとで作成したダッシュボードを見せながら発表を行い、フィードバックをもらいます。
day5: RAGを使ったアプリケーションを作成する
ここで対面に切り替わります。チームメンバーやメンターの方ともリアルで会いました。RAGに関する講義を受けたのち、商品に対して対話的に検索ができるRAGアプリケーションを作成します。
最後にチームごとで作成したアプリケーションを見せながら発表を行い、フィードバックをもらいます。
感想
- Snowflakeなど普段触らないサービスを扱うことができてよかったです。
- 分析などで行ったデータは実際の楽天の購入データを使っており、名寄せなどの大変さを体験できました。コンペなどでは、大文字、小文字、似た文字などを正規化することはあったもの楽天の商品名寄せではバリエーションが豊富すぎて難しかったです。
- また難しかった点は、時間的制約です。色々と試してみたいことがある中で全てを試すことができず、何を優先して試すかの経験則などがなく難しかったです。