データサイエンティスト半人前への最短ルート
さて、遅刻遅刻と急いで書くことにします。
技術書典で買ってきた本について書くときにいろいろ考えはしたのですが、やはりこの本について書くのがよさそうだと思いました。『データサイエンティスト半人前への最短ルート』という本です。大雑把に追って、データサイエンスプロジェクトの大まかな工程や関連するツールなどが書かれています。
主にRを使って作業される方なのか、Rのパッケージについてはいくつか私も情報を持っていなかったものがあり、大変に参考になりました。また、データサイエンスのプロジェクトについての見方についても参考になるものが多かったように思います。実際問題、データサイエンティスト養成講座のシラバスをベースに書かれているので、これが売られていること自体が驚きでした。
この本で紹介されているパッケージで非常に役立ちそうだなと思われるのはdlookrですね。いわゆる、EDA(探索的データ分析)に関連するパッケージで初期の統計レポートを作ってくれるパッケージです。データ分析のお手本ともいうべきCRISP-DMではビジネス課題の理解、データの理解、データの準備、モデル作成、評価、展開/共有という段階を踏んで分析を行いますが、実際には最初のデータの準備までの工程がかなり重くなるのはデータ分析者の共通認識だと思います。このパッケージは特にデータの理解に有用であると考えます。
特にこの本は工程全般において書かれていますので、データ分析者の育成に関わる方には特に有用ではないかと思いました。まあ、いろいろ書くべきことはあるかなと思ったのですが、dlookrあたりを書いたあたりでだいぶ、脳のクロックが落ちてきたように思うのでいったんここまでにしようかと思います。