2025年度に実施したデータサイエンス系講義の資料を、Speaker Deck で公開しました。
大学からの要請があったため、大学名と正式な講義名は伏せており、この記事では 「現場最前線から教えるデータサイエンス」 として紹介します。
この記事では、公開した講義資料の内容を簡単に紹介します。
この講義で扱っていること
この講義では、機械学習アルゴリズムそのものの詳細よりも、データサイエンティストとして実務で成果を出すための基礎的かつ実践的な技能 を重視しています。
扱っているテーマは、主に次の4つです。
- ITベンダーにおけるデータサイエンティストの役割
- ドキュメント・コミュニケーション
- 分析・実験・検証の管理方法
- Python を用いた実践的な開発技術
いわゆる「モデルをどう作るか」だけではなく、実務で実際に困りやすい周辺スキルも含めて講義化した、というのがこの資料の特徴です。
公開している資料
今回公開しているのは、以下の4回分です。
01 ITベンダーにおけるデータサイエンティスト
講義全体の導入回です。ITベンダーにおけるデータサイエンティストとはどのような職種なのか、周辺ロールと何が違うのか、といった話から入っています。あわせて、後続回で使う pyenv や仮想環境の考え方もここで扱っています。
データサイエンティストを目指している学生の方だけでなく、これから Python を使った分析環境を整えたい方にも多少は参考になるかと思います。
02 ドキュメント・コミュニケーション
データサイエンティストの成果物を、分析コードだけではなく ドキュメント として捉え、その重要性や基本的な考え方を説明した回です。
ビジネス文書の種類、伝わる資料のためのストーリー構成、パラグラフ・ライティングの基礎などを扱っています。データ分析や機械学習の勉強はしていても、こういった内容は後回しにされがちなので、学生向けの講義としてあえて独立した回にしました。
03 分析・実験・検証の実践的管理方法
分析や機械学習の実験を、どのように管理していくべきかを扱った回です。CRISP-DM、EDA と実験の位置づけ、Jupyter Notebook の長所と限界、再現性・追跡性・再利用性を意識した実験コードの改善などを説明しています。
この回はスライドだけでなく、段階的に改善していくサンプルコードも用意しています。単に理屈を述べるだけでなく、悪いコードをどう直していくかという実践寄りの内容にしています。
04 データサイエンティストの開発技術
Python の型ヒント、PEP 8、mypy、flake8、black、isort、pytest などを題材に、データサイエンティストにも必要なソフトウェアエンジニアリングの基礎を説明した回です。
データ分析やモデル構築ができるだけでは、実務では足りないことが多いです。特にチームで継続的に開発する場面では、コードの可読性や保守性、テストの考え方が重要になります。そのあたりの入口として使える内容を意識してまとめました。
GitHub でも公開しています
講義資料の PDF だけでなく、演習用コードやサンプルコードも含めて見たい場合は、GitHub 側を見ていただくのがおすすめです。
特に 03 回目と 04 回目については、スライドだけだと伝わりきらない部分をコードと合わせて見られるようにしています。実験コードの改善例や、型ヒント・静的解析・テストのサンプルなども置いてあります。
こういう方には向いているかもしれません
この資料は、たとえば次のような方には参考になるかもしれません。
- データサイエンティストを目指している学生
- 機械学習そのもの以外の実務スキルも学びたい方
- 分析プロジェクトの進め方や実験管理の初歩を知りたい方
- データ分析寄りの人向けに、ソフトウェア開発の基礎を学びたい方
逆に、最新の深層学習アーキテクチャや高度な数理を体系的に学びたい方には、少し方向性が違うと思います。この講義で重視しているのは、あくまで 実務で困りやすいが見落とされがちな基礎 です。
おわりに
大学の講義資料は、その場限りで閉じてしまうことも多いのですが、せっかくなので外からも参照できる形で整理して公開することにしました。まずは公開している資料をざっと眺めてもらい、必要に応じて GitHub 側の PDF やコードも見てもらえればと思います。