##はじめに
以下のUdemy講座の学習メモです。
やさしい実用統計 Pythonによるデータ分析入門
##統計の分野
大きく4つあります。企業で一般的に利用される統計は記述統計です。
-
記述統計(ほかの統計分野の基礎でもある)
データの情報収集 -
推測統計(統計の中心的な理論)
部分から全体を推定 -
ベイズ統計
データに基づく確率的推移 -
多変量解析
多変量データのモデリング
##記述統計
データの情報収集。データを集約して情報を抽出する方法の総称。
主な方法は次の通り。
- データの分布を確認する
- 代表値を調べる
- 散布度を調べる
- 変量を標準化する
##データ分析の目的
データ分析は必ずおおもとの課題につながるものでなければならない。
データ分析の結果から施策が立案・実行されることが大切。施策が実行されて初めてデータ分析が成功したか否かがわかる。
##データ分析の種類
2種類に分類できます。
- 求解:求める結果が明確に定義されている
- 探索:データの中から何かを発見する調査
##データ分析プロジェクトの作業と作業量
- 計画(5%)
- データ収集(5%)
- データクレンジング(60%)
- 本格的なデータ分析(20%)
- 結果解釈~活用への提言(10%)
##必要なスキルと知識
- 本来業務の知識
- 統計の知識
- プログラミングスキル
- データ分析ツールの知識
- プロジェクト管理
##データプロファイリング
いつどこでだれが何のためにどのようにして集めたのかを調べてデータの前提を明確にすることが大切
####データの発生目的
- 今回のデータ分析のために集められたデータ
- 別の目的のために集められたデータの流用
####母集団と標本
- 母集団:分析対象全体
- 標本(サンプル):分析対象の一部
####紙データと電子データのギャップ
####データ発生システムの特徴
##変数名の規則
- 英字で始まる半角英数字を使用する
- 特殊文字や全角文字は使用しない
- 英語で意味の通じる名称にする
- 複数の単語をつなげる場合はcamelCaseにする
##データ加工の原則
データの修正・加工のプロセスにおいて、加工ミスの防止と再現性の保証のためルールを守ります。
- オリジナルデータの保管
- プログラムによる加工(再現性のない手作業は行わない)
- 履歴管理
##Pythonの重要なライブラリー
-
NumPy(import numpy as np)
- 用途:高速の配列計算。
- 通常の配列ではできない計算を行うためのメソッドがたくさん用意されています。計算精度と計算速度に配慮されているため科学技術計算での利用に適しています。
-
pandas(import pandas as pd)
- 用途:データフレーム
- 表形式のデータ構造で、データ分析に必要な様々な機能を備えています。
-
matplotlib(import matplotlib.pyplot as plt)
- 用途:グラフ描画
##用語
-
代表値
データの特徴を一つの値で表したモノです。
主な代表値として、平均値、中央値、最頻値、その他の代表値として最大値、最小値、トリム平均、分位数があります。 -
散布度
データのばらつき度合いをあらわす指標で、代表値を補足する情報。 -
変量の標準化
異なる変量を比較するためにデータの標準化を行います。
変量の標準化には、標準化変量、偏差値、正規化があります。 -
変量
異なる値をとり得る量 -
平均値
算術平均、幾何平均、調和平均があります。 -
階級化
数値データの範囲をいくつかの区間に区切ることを階級。各階級の中心の値を階級値。
データの値を所属する区間の階級値で表すことを階級化と言います。 -
度数分布表
階級化したデータを各階級で集計した結果をまとめた表を度数分布表と言います。
項目としては、階級値、度数、相対度数、累積度数、相対累積度数があります。 -
散布度
データのばらつき度合いを示す統計量 -
ヒストグラム
度数分布表の内容を横軸に数値データの範囲、縦軸に度数あるいは相対度数の値をとったグラフ。 -
中央値
数値データを昇順にソートして並び順の真ん中にくる値 -
分位数
数値データを昇順にソートして、同じ個数のK個のグループに分けた時の区切り地をK分位数と言います。主な分位数として、中央値(二分位数)、四分位数、パーセンタイル(百分位数)があります。 -
最頻値
度数分布表において、頻度が最大となる階級値のこと。 -
トリム平均
データの最大値側と最初内側から数個を除外したデータの平均をとったモノ -
平均偏差
各変量の値と平均値の差の絶対値の平均 -
中央値絶対偏差
各データと中央値の差の絶対値をとり、その値を照準に並べた時の中央値 -
外れ値
その値が他の値に比較して極端に大きくは離れている値。統計手法により何を外れ値とするかは異なる。 -
有限事象
何かの事象が発生する可能性があるとして、可能な事象のパターンが有限個である場合