LoginSignup
12
21

More than 5 years have passed since last update.

Jupyter Notebook を使った大規模データの可視化と機械学習 1日体験コース

Last updated at Posted at 2018-11-09

Jupyter Notebook を使った大規模データの可視化と機械学習

本実験では、Jupyter Notebook を使って大規模データの可視化と機械学習を行います。数値データを可視化し俯瞰することは解析の基礎であり、どのようなデータであれ非常に大切なことです。

Jupyter Notebook (IPython Notebook) とは

  • Python という名のプログラミング言語が使えるプログラミング環境。計算コードと計算結果を同じ場所に時系列で保存できるので、実験系における実験ノートのように、いつどんな処理を行って何を得たのか記録して再現するのに便利。

本実習で用いるデータ

詳細
* 「ニューヨークの大気状態観測値」
* 「合州国の州別暴力犯罪率」
* 「スポーツテストデータ」
* 「好きなアイスクリームアンケート」
* 「新国民生活指標データ」
* 「都道府県別アルコール類の消費量」
* 「スイス銀行紙幣データ」
* 「あやめのデータ」
* 「ピマ・インディアンの糖尿病診断」
* 「パーキンソン病診断データ」
* 「大腸菌タンパク質の細胞内局在」
* 「酵母タンパク質の細胞内局在」
* 「ワインの品質」(赤ワイン)
* 「ワインの品質」(白ワイン)

Step1 から Step6 まで、とりあえず見よう見まねで計算を実行する(コピペでOK)。

Step 1. まずは、ウォーミングアップから

まずは次のリンクをクリックして、Pythonで簡単な計算をしてみましょう。

Step 2. Pandas を用いた演算

Pythonでは、皆がよく使う関数などをライブラリとしてまとめてあり、それをインポートして使います。行列データの取り扱いについて、Pandas というライブラリを使って学んでみましょう。

Step 3. タブ区切りデータ、コンマ区切りデータ等の読み込み

インターネット上にあるテキストファイル(タブ区切りデータ、コンマ区切りデータ等)をダウンロードし、Pandasに読み込む方法を会得しましょう。

Step 4. 読み込んだデータの可視化

大規模データを可視化する方法はいくつかありますが、本実習では以下の方法を学んでください。

Step 5. 機械学習(教師なし)

教師なし学習(Unsupervised Learning)とは、機械学習の手法の一つで、データの背後に存在する本質的な構造を抽出するために用いられます。本実習ではこれを少しだけ体験してみましょう。

Step 6. 機械学習(教師あり)

教師あり学習(Supervised learning)とは、機械学習の手法の一つで、事前に与えられたデータを「例題(=先生からの助言)」(training data)とみなして、それをガイドに学習(=データへの何らかのフィッティング)を行うところからこの名があります。本実習ではこれも少しだけ体験してみましょう。

課題

実習用データの中から1つを選び、データの可視化と機械学習を用いながら解析し、結果を考察してください。

解析例

12
21
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
12
21