Python
Excel
機械学習
分析

やってみよう分析!〜データサイエンティストもコーディング始めました〜 By Fringe81

More than 3 years have passed since last update.


はじめに

1部に入る前に、シリーズ全体の目的と構成を簡単に説明します。

このシリーズの目的は、主に次のような知識や技術を提供することです。


  • データ収集/加工/集計/可視化の技術(ツールインストールから利用方法まで)。

  • 機械学習・統計などの知識・簡単な実用例(一部、数理的な説明もあります)。

これらの知識を実務での活用シーンを念頭に提供することで、ビジネスプロセス

の自動化、高速化、安定化、スケール拡大のヒントを提供できればと考えています。

また、できるだけ丁寧な説明を心がけ、実際に自分でツールや分析手法を

使えるようになることも狙いのうちの一つです。

このシリーズは下記目次(変更の可能性あり)のように

入門編、実践編、アドバンストピック(予定)から構成されます。



入門編


第1部 イントロダクション


第2部 エクセルで学ぶ分析入門


第3部 データ可視化(ビッグデータに限らない)


実践編


第4部 Python/Scalaで分析ことはじめ


第5部 数値計算ライブラリを使ってみよう


第6部 Hadoop (Streaming)を使ってみよう


第7部 ScalaのSpark/Sharkと戯れる


第8部 twitter APIをいじってみよう


第9部 Facebook APIをいじってみよう


第10部 最適化分析


第11部 時系列分析(自己相関分析、相互相関分析)


第12部 ネットワーク分析


第13部 機械学習 教師あり学習(クラスタリング)


第14部 機械学習 教師なし学習(強化学習)


第15部 モンテカルロシミュレーション


アドバンストピック(仮)


第16部 金融工学と素粒子物理学(理論)


第17部 経済物理学(理論)


Appendix



これから

入門編では多くの方に馴染みがあると思われるエクセルの利用からはじめます。

分析ツールやソルバーの活用、MySQL連携と徐々にステップアップしていきます。

ツールの活用方法の説明の後、それらを使って分析手法を解説していきます。

入門編の最後では可視化ツールも紹介する予定です。入門編に続く実践編では、

スクリプト言語やAPIなどを活用して、より複雑なデータ処理に対処できる

分析技術を紹介します。

アドバンストピックは入門編、実践編とは趣が異なり、確率過程について

理論的側面を取り上げる予定です。これは世の中の時間とともに変化する

データは確率的な振る舞いを持っており、この概念の知見がビジネスシーン

でも参考になるのではないかと考えられるからです。

以上が、本シリーズの全体像です。

本シリーズの目的は具体的な分析スキルの紹介にありますが、

詳細に入る前に引き続く第1部残りの章で下記を簡単に説明します。


  • ビジネスサイクルへの分析手法活用メリット。

  • 様々な分析手法の概観。

第2部以降の記事では具体的に個々のツール活用方法や

個別の分析手法の解説に入ります。