「現場最前線から教えるデータサイエンス」2025年度講義資料の公開

Posted at 2026-04-21

2025年度に実施したデータサイエンス系講義の資料を、Speaker Deck で公開しました。

大学からの要請があったため、大学名と正式な講義名は伏せており、この記事では 「現場最前線から教えるデータサイエンス」 として紹介します。

この記事では、公開した講義資料の内容を簡単に紹介します。

この講義で扱っていること

この講義では、機械学習アルゴリズムそのものの詳細よりも、データサイエンティストとして実務で成果を出すための基礎的かつ実践的な技能 を重視しています。

扱っているテーマは、主に次の4つです。

いわゆる「モデルをどう作るか」だけではなく、実務で実際に困りやすい周辺スキルも含めて講義化した、というのがこの資料の特徴です。

今回公開しているのは、以下の4回分です。

講義全体の導入回です。ITベンダーにおけるデータサイエンティストとはどのような職種なのか、周辺ロールと何が違うのか、といった話から入っています。あわせて、後続回で使う pyenv や仮想環境の考え方もここで扱っています。

データサイエンティストを目指している学生の方だけでなく、これから Python を使った分析環境を整えたい方にも多少は参考になるかと思います。

データサイエンティストの成果物を、分析コードだけではなく ドキュメント として捉え、その重要性や基本的な考え方を説明した回です。

ビジネス文書の種類、伝わる資料のためのストーリー構成、パラグラフ・ライティングの基礎などを扱っています。データ分析や機械学習の勉強はしていても、こういった内容は後回しにされがちなので、学生向けの講義としてあえて独立した回にしました。

分析や機械学習の実験を、どのように管理していくべきかを扱った回です。CRISP-DM、EDA と実験の位置づけ、Jupyter Notebook の長所と限界、再現性・追跡性・再利用性を意識した実験コードの改善などを説明しています。

この回はスライドだけでなく、段階的に改善していくサンプルコードも用意しています。単に理屈を述べるだけでなく、悪いコードをどう直していくかという実践寄りの内容にしています。

Python の型ヒント、PEP 8、mypy、flake8、black、isort、pytest などを題材に、データサイエンティストにも必要なソフトウェアエンジニアリングの基礎を説明した回です。

データ分析やモデル構築ができるだけでは、実務では足りないことが多いです。特にチームで継続的に開発する場面では、コードの可読性や保守性、テストの考え方が重要になります。そのあたりの入口として使える内容を意識してまとめました。

講義資料の PDF だけでなく、演習用コードやサンプルコードも含めて見たい場合は、GitHub 側を見ていただくのがおすすめです。

特に 03 回目と 04 回目については、スライドだけだと伝わりきらない部分をコードと合わせて見られるようにしています。実験コードの改善例や、型ヒント・静的解析・テストのサンプルなども置いてあります。

この資料は、たとえば次のような方には参考になるかもしれません。

逆に、最新の深層学習アーキテクチャや高度な数理を体系的に学びたい方には、少し方向性が違うと思います。この講義で重視しているのは、あくまで 実務で困りやすいが見落とされがちな基礎 です。

大学の講義資料は、その場限りで閉じてしまうことも多いのですが、せっかくなので外からも参照できる形で整理して公開することにしました。まずは公開している資料をざっと眺めてもらい、必要に応じて GitHub 側の PDF やコードも見てもらえればと思います。