はじめに
はじめまして、私は3年前にデータラーニングギルドでデータサイエンスを学び、現在は事業会社でデータエンジニア/データアナリストとして働いています。
今回は2025年に自己学習した内容の棚おろしをしたいと思います。自分と同じくらいのレベルの方やこれからデータサイエンスを学びたい方に何か少しでも参考になれば幸いです。
その前にちょっとだけ自己紹介やスキルセットについて触れておきます。私は文系卒、エンジニア未経験で3年前にエンジニアにジョブチェンジし、現在は事業会社でデータエンジニア兼データアナリストとして働いています。職場ではSQLやBIツール(tableau)を使うことが多く、機械学習やLLMを使うことは少ないですが、将来的には機械学習・AIエンジニアのほうにキャリアの軸足を移していきたいと今は考えてます。
学習したこと
それでは早速、2025年に学習したことを
⑴DeepLearning・LLM
⑵Kaggle
⑶その他
の3つのカテゴリに分けて紹介します。
⑴DeepLearning・LLM
まず私がディープラーニング・LLMを学習するに至った経緯から説明すると、「Kaggleのコンペに参加したかったから」という理由が大きいです。
少し話が脱線しますが、Kaggleでメダルを獲得するというのは私の強烈なモチベーションでした。なぜならKaggleでメダルを獲得することはデータサイエンス界隈では一定の価値があり、今後の自分のキャリア形成において有利にはたらいてくれると思ったからです。
話は戻りまして2025年当初、「これからつよつよKagglerになるぞ!」と意気込んでコンペテーマを見たところ「あれ、テーブルデータのコンペがないな?」(そんなことはないのですが)と当時、出鼻を挫かれたことを覚えてます。諦めの悪い私は「それならLLMを習得してやろう!」とそんな訳でLLMの沼にハマっていくのでした。
LLMを学習することは決まりましたが、自分の性格上、体系立てて学ばないと気が済まないという性格でして、「まずはディープラーニングの理論から」と、かの有名なゼロつく、ゼロつく2を読みました。こちらの本は個人的にすごく良書でした。ところどころ数式は出てきますが文系卒の私でも読み進めることができ、ディープラーニングがどのようもので、どのように学習されていくのかということがイメージとして掴めるようになりました。この本は1からディープラーニングを作るということをテーマにしており、コードも掲載されていますが自分はコードの理解は飛ばして読み進めました。1は主にディープラーニングについて書かれており、2は自然言語処理(LLM)について書かれています。私は1から読まないと2の理解は難しいのかなと思いました。またこの本を読むにあたって評価関数や損失関数、モデルの学習といった機械学習の一般的な概念が登場します。導入としてこれらの基本的な概念は理解しているほうが読み進めやすいと思いました。この2冊をどちらも2周したあとに、本の内容をスライド資料にまとめて社内でLTを行いました。
続いて、ディープラーニングの理論は理解できたので次は実装だと考え、Pytorch実践入門を学習しました。この本ではPytorchをハンズオン形式で学び、最終的に腫瘍の画像判定モデルを作成するというケーススタディを実装します。テンソルと呼ばれるディープラーニング系のデータを扱う型を操作する方法を学べたのはよかったかなと思います。
そして今は直感LLMを学習しています。こちらではLLMを使ったテキスト分類タスクの実装やファインチューニング、RAGの実装について解説されており、理論と実装を解説するバランスが良くかつ、LLM周辺のトピックスが満遍なくカバーされているので、自然言語処理の基礎知識がある前提でおすすめです。
この本で学んだことを使って、実務でテキストデータを含むテーブルデータを埋め込みに変換しモデルの前処理に利用したり、小さいサイズのテキストをナレッジとしてLLMに注入して遊んでみるといったことをしています。
⑵Kaggle
前述で私のKaggleに対する並々ならぬ思いはつづりましたが、気持ちだけではなく、ちゃんとコンペも参加してました。
ただタイタニックコンペを卒業したばかりの初学者がいきなりkaggle猛者に交じってメダル争いをするのは大変でした。(少なくとも私の場合は)そういうやる気だけは持ち寄っている私にぴったりだったのがPlaygroundと呼ばれるKaggle運営が提供する初学者向けのコンペです。
残念ながらこのコンペで勝ってもメダルはもらえませんが、こちらはテーブルデータを題材にしているので、初学者でもとても参加しやすいです。毎月新しいコンペが開催されるこのPlaygroundで、結果的に上位6%(293位/4329位)にランクインが今年の最高結果でした。(https://www.kaggle.com/competitions/playground-series-s5e7)
自分のような初学者がkaggleでコンペに参加するのはやはり一定のハードルを感じてしまいます。それでも今どきAIを活用すれば、昔に比べ参加障壁はだいぶ低くなったのかなと思います。
簡単ですが、自分がどのようにkaggleに参加しているかを紹介します。まずコンペの概要の理解ですが、初っ端から英語で書かれた概要説明は読む気を失います。そこで自分はコピペした概要文をChatGPTに丸投げし、翻訳と要約を行っています。コンペの内容が理解できたら、その次に大事なこととしてディスカッションページを読みにいきます。だいたい、多くのいいねをもらっている参加者のディスカッションには解法も載せてくれているので、まずはその解法コードを拝借させてもらい予測を出力し、サブミット(提出)します。これだけでも初めのうちはいいんじゃないかと思います。載せてくれている解法で分からないところはChatGPTに聞き、自分なりに咀嚼し、何日かに一度ディスカッションを見に行って、いいねを多く獲得しているディスカッションを拝借させてもらう。はじめのうちはこのような感じでKaggleに慣れ親しむのが、長くkaggleを継続する秘訣だと感じています。そしてコンペが終了したら、必ず上位入賞者の解法を振り返ります。上位入賞者はコンペ後に自分の解法を紹介してくれていることが多いので、自分のモデルとの差分をそこでキャッチアップします。
Kaggleの話はおすすめの書籍など紹介したいことはたくさんありますが、今回の本筋とはズレるのでまた機会があるときにご紹介します。
一応、kaggle関連で今年読んだ本はKaggle実験管理術で、こちらは初学者から中級者を目指したい方向けの本となっており、分析管理の手法などが参考になりました。
⑶その他
最後にもう一つ紹介するのはデータエンジニアリングの学習です。教材として使っているのは先輩データサイエンティストからの指南書という本で、『「Notebookで動く」だけで満足していませんか?』という帯の通り、VS Codeを使った開発環境の整備、Dockerを使った仮想環境の構築、Gitを使ったコード管理など意外とありそうでなかった観点についてまとめてくれているのでとても勉強になっています。
余談
余談にはなりますが、今年自分が聴いていたテック系ポッドキャストを3つご紹介したいと思います。
⑴ となりのデータ分析屋さん・・・DeNAなどで働く現役データサイエンティストが最新のテック事情や、社内での取り組みについて紹介しています。ライトな感じで聞きやすいです。
⑵ 白金鉱業FM・・・昔からあるポッドキャストで、データ分析の受託会社ブレインパッドの人たちが運営しているポッドキャストです。データサイエンティストが普段考えていることが聞けて面白いです。
⑶ 聴くエンジニアtype・・・エンジニアのキャリアをテーマに、毎回テック業界の著名な方を招いてディスカッションをするポッドキャストです。データサイエンス以外の分野の人も登場しますが、エンジニアのキャリアの考え方が参考になります。(※エンジニアtypeは聴くエンジニアtypeを運営するWebマガジンです)
2026年は...
2026年も引き続き技術力を磨いていきたいと思っています。具体的に取り組みたいことは
⑴引き続きKaggleに参加して来年こそはメダルを獲得
⑵ファインチューニングやRAGを使ったLLMで自作チャットボット
なんかに取り組んでみたいです。
データラーニングギルドとは?
データラーニングギルド は、株式会社データラーニングが運営する、
データサイエンスを中心とした学習者・現役データサイエンティスト・エンジニアのためのコミュニティです。
学びの共有・キャリア形成・横のつながりを大切にし、
勉強会、LT会、技術相談、キャリア支援、案件紹介など、
「データ領域で挑戦したい人を応援する活動」を幅広く行っています。
初心者から実務者まで、誰もが成長できる場づくりを目指しています。