#勉強ログ
以下羅列する
#データサイエンス技術を取得して目指す姿
データを用いて現在の状況を把握し、状況に対して効果的な策を取ることができる対応ができる
#データサイエンス
データサイエンスでのアプローチ
- データのラベル付け
- データに対してアルゴリズムをあてはめる
- 洞察がしやすいようにデータを分類する
- 分類したそれぞれに対して効果的な策を提案する
#データサイエンスにおけるWord
分析:データ調査のこと(過去に起きた事象に対して)
分析論:データによって得られたものを活かして潜在的な将来を分析(未来の分析)
データサイエンスとビジネス差:目的がビジネスでない分析
データ分析論:ビジネスでないかつデータの分析ではない領域(データの最適化とか)
ビジネスインテリジェンス(BI):過去のビジネスデータを分析することで有益なビジネス上の見解を取得すること
機械学習:ビックデータを用いて、明示的にプログラムせずとも、過去/将来を予想する。
従来のデータ分析:従来のデータについて、統計的手法に基づいて将来を予想する。
ビジネスインテリジェンス:過去のビジネスデータを整理、分析、理論する手順で、意思決定や洞察の考察をする。
#データサイエンスにおける考え方
データ分析の際はデータの構造化(整理や処理)が必要
生データを意味がある"情報"に変えるために、以下手順で処理をする
生データ→前処理→処理→情報
データサイエンスは、確率+統計の考え方を駆使した方法
確率・統計学の拡張と演算能力を有するプログラム言語の活用により、より高度な問題を解くことができる
将来や過去データは不完全性を含むため、確率や統計のアプローチが必要
【生データ】
・従来のデータ
過去の構造化されているデータ(量的変数・カテゴリ変数(ラベルのような物))
・ビックデータ
構造化されていない、形式が定まっていないデータ(テキストデータや画像データも含まれる)
※多様性/変動性があるもの
必要に応じて以下対応を実施する
データマイニング:いろいろな媒体から適切な情報を引っ張ってくる方法
データマスキング:個人情報を防ぐために、プライバシーを保護するための処理
※ビックデータはテラバイト程度の非常に多くのデータ量を示しており、多様性を持つ
【データの種類】
カテゴリ変数:A/B・はい/いいえ・0/1(フラグ)等
→クロス集計表/頻度分布/円グラフ/パレート図等を使用してデータの比較を行ったりする
パレートの法則:全体の80%の原因は20%の要素が生み出している
量的変数:離散変数, 連続変数
→度数分布表を
【測定尺度】
量的(定量)データ:比例尺度/間隔尺度
比例尺度:絶対値に意味があるもの (0に意味がある)
間隔尺度:絶対値に意味がないもの(0が意味を持たない)
質的(定性)データ:名義尺度/順序尺度
名義尺度:ブランド名等
順序尺度:A>B>C>Dのランク等
【指標値】
平均値:平均計算した値(外れ値の影響を大きく受ける)
中央値:データを並べた時の中央の順に位置する値
最頻値:最も多く出てくる値
歪度:データの対称性を示す指標(データの分布がどう歪むのかを見るもの)
変動係数:標準偏差/平均 2つ以上のデータの関係性を比較するのに有効
共分散:2つの係数の傾向について確認
相関係数:(x,y)共分散/(x分散*y分散) 傾向の方向性については考慮できない
【データの前処理】
データを正しい値に変える
クラス/ラベリング:類似ワードを統一等)
データクレンジング:スペルミスへの対応
欠損値の扱い
バランシング:アンケート上の男女の偏り等
【ビジネスインテリジェンスを扱う上でのテクニック】
1.データの整理:定量化する
2.指標を作成する:基準を設けることで評価をすることが可能(KPI等)
KPI:Key Performance Indicator ビジネス上の目的に応じたある特定期間においての成果
例:ビジネス上で実施したイベントでの入場者数
3.作成した指標(KPI)をわかりやすい形で図示
具体例:価格の最適化(ホテルの値段等), 在庫の管理()
【従来の統計学を用いた予想分析手法】
回帰分析:線形なモデルに対して適応する
ロジスティクス回帰:非線形なモデルに対して適応する
クラスター分析:似た特徴同士を同じグループとして、分類する手法
因子分析:複数の説明変数がある状態で、似た性質を持つ説明変数を一緒にするというもの
具体例:売上予測(トレンド見つける)
【近年の予想分析手法】
機械学習:アルゴリズムと目的を渡して、目的に対して最も当てはまりが良くなるようなモデルを作成して、そのモデルに基づいて高い精度で予想をすること(目的関数を用いてモデルのパフォーマンスを向上する最適化アルゴリズムを含むもの)
アルゴリズム:試行錯誤のプロセスで、モデルによる試行を繰り返して最適な方法を見つけること
機械学習の3つの種類
【教師あり学習】
データのラベル付けがされており、目的が分かっているデータについて目的の最適化を図る
【教師なし学習】
データのラベル付けがされておらず、目的が分かっていない状態で関係性を見つける方法
まず初めに教師なし学習で分類をした後に、教師あり学習で目的を満たすための最適化を図るという方法がある
【強化学習】
目的を明確化して、更に最適な解を目指すための手法
具体例:不正検出(詐欺を防ぐ) 正しい場合を学習させてあげることで誤った場合を
#機械学習にまつわる業務
データアーキテクト:データベースの作成、どのように取り組んで処理するのか検討する
データエンジニア:分析に活用できるようにデータを処理する
データベースアドミニストレーター:データの管理(従来のデータ管理)
ビジネスインテリジェンス(BI):分析してレポートを作成する
BIデベロッパー:プログラムを使って問題を解決する
データサイエンティスト:従来の統計学的な手法/機械学習手法を使って将来を予想する
データアナリスト:高度な分析を行う
機械学習エンジニア:機械学習の高度なモデルを作成する
#確率の公式
確率とは:ある事象(結果)の起こりやすさ
例:事象=A, 確率=P(A) = 対象とする事象/標本空間(全事象)
試行:事象に関して1回実施すること
結果:試行を繰り返したものを記録したもの
期待値:試行を複数繰り返した場合の期待される結果の値(確率×結果)
経験的確率:実データで用いた確率
理論的確率:大量のデータで計算した確率
確率頻度分布:それぞれの起こりえる確率を整理したもの
余事象:ある事象以外の全てのこと 事象+余事象=標本空間 余事象=事象'(アポストロフィ)で示す
※すべての事象の起こりやすさを数えて1.0を超える or 1.0を下回る場合は、カウントしすぎ/カウントしていないといった問題があるので注意する
#記述統計
母集団
#離散分布
一様分布:どの確率変数の同じ確率で出力されるケース
ベルヌーイ分布:はい/いいえ, 0/1のように2択となるケース
二項分布:ベルヌーイ過程を翠回実施するときのケース
ポアソン分布:ある特定の期間に事象がどの程度起こるかを表したケース
#連続分布
正規分布:鐘のような平均個所に集まる分布
※平均値μから±μの範囲に入る確率:68%
※平均値μから±2μの範囲に入る確率:95%
※平均値μから±3μの範囲に入る確率:99.7%
標準正規分布:N(0, 1) 平均値=0, 分散値=1となる正規分布
正規分布スチューデントのT分布:正規分布に近いが、平均から離れた値の確立も高いケース
※試行回数が少ないため、1点に占める割合が大きい
カイ二乗分布:標準正規分布の2乗を足し合わせで示される分布
正規分布スチューデントのT分布を二乗するとカイ二乗分布になる。
カイ二乗分布の期待度:自由度
カイ二乗分布の分散値:自由度×2
#推測統計
統計的なデータを使用して、母集団の母数を推測するときに使用する
分布=確率分布
分布:取りえる値と、その確立を示したもの
正規化とは
データに対して何らかの計算を行い、全てのデータが0~1の間の大きさにすること
標準化とは
データに対して平均値が0、標準偏差が1になるように計算すること 理由は数学の世界になるので省きますが、全ての値から平均値を引いて標準偏差で割れば平均値=0、標準偏差=1になります
標準誤差:標本平均によって作られた標準偏差
σ/√n
標本から母集団を検討することを推定
点推定:推定範囲の平均値
推定には、"有効性" "バイアス"が必要
→有効性が高くバイアスがかからないのが必要
バイアス:母集団と標本で平均が同じ 普遍性 偏りがない
有効性:結果の分散が小さいということ
統計量:一般的な言葉
推定量:統計量の一種 標本から得たデータをもとに母集団のパラメータを推定するとき、標本の統計量のこと
推定値:標本から得たデータをもとにパラメータを推定した時の統計量のこと
→実際のデータからいろいろ導いていることが多く、ほとんどの場合こっちを使う
点推定:1点の推定で信頼区間の間
区間推定:推定量の区間のことで、こちらの方が現実で使える
→区間を用いてもすべてを網羅できているわけではなく、点推定よりは現実的な値
#母分散が既知の場合の信頼区間
基本的に母集団のデータはないので、標本のデータを使って計算をする場合が多い
母集団の分布は基本的に正規分布として考えるケースが多い
標本の平均が母集団の平均として計算
#仮説検定
- 仮説を立てる
- 適切な検証方法を選ぶ
- 仮説を検証する
- 意思決定する
帰無仮説:棄却したい仮説のことを意味する(例: A=特定の値である)
対立仮説:対立する仮説
A=特定値であることを確認したい場合は、A≠0を帰無仮説として検証する
有意水準:α棄却する確率で0.01, 0.05, 0.1という値(棄却域)を用いる
※偶発的なもの(人の行動等)は確率を大きくする場合が多い
第一種の過誤
正しい帰無仮説が棄却される:αの確立
→誤判定
第二種の過誤
誤った帰無仮説が採択される確率:1-β(β: p値)
→検出漏れ
母分散が既知:z値を使用
p値: 帰無仮説を棄却できない最小の有意水準 低いほど標本がまれなケースであるといえる
母分散が未知:t値を使用
ほとんどの事例がこっち、ただし標本数が多い場合はz値を使うケースが多い
標本複数で従属の場合(母分散が未知で2つは同じ母分散に従う):
標本複数で独立の場合(母分散が未知で2つは同じ母分散に従う):
有意:偶然起こったといい難い
基本的に平均値の分布は50個以上データがある場合は、正規分布に従うといってよい
#勉強ログ
以下羅列する
#データサイエンス技術を取得して目指す姿
データを用いて現在の状況を把握し、状況に対して効果的な策を取ることができる対応ができる
#データサイエンス
データサイエンスでのアプローチ
- データのラベル付け
- データに対してアルゴリズムをあてはめる
- 洞察がしやすいようにデータを分類する
- 分類したそれぞれに対して効果的な策を提案する
#データサイエンスにおけるWord
分析:データ調査のこと(過去に起きた事象に対して)
分析論:データによって得られたものを活かして潜在的な将来を分析(未来の分析)
データサイエンスとビジネス差:目的がビジネスでない分析
データ分析論:ビジネスでないかつデータの分析ではない領域(データの最適化とか)
ビジネスインテリジェンス(BI):過去のビジネスデータを分析することで有益なビジネス上の見解を取得すること
機械学習:ビックデータを用いて、明示的にプログラムせずとも、過去/将来を予想する。
従来のデータ分析:従来のデータについて、統計的手法に基づいて将来を予想する。
ビジネスインテリジェンス:過去のビジネスデータを整理、分析、理論する手順で、意思決定や洞察の考察をする。
#データサイエンスにおける考え方
データ分析の際はデータの構造化(整理や処理)が必要
生データを意味がある"情報"に変えるために、以下手順で処理をする
生データ→前処理→処理→情報
データサイエンスは、確率+統計の考え方を駆使した方法
確率・統計学の拡張と演算能力を有するプログラム言語の活用により、より高度な問題を解くことができる
将来や過去データは不完全性を含むため、確率や統計のアプローチが必要
【生データ】
・従来のデータ
過去の構造化されているデータ(量的変数・カテゴリ変数(ラベルのような物))
・ビックデータ
構造化されていない、形式が定まっていないデータ(テキストデータや画像データも含まれる)
※多様性/変動性があるもの
必要に応じて以下対応を実施する
データマイニング:いろいろな媒体から適切な情報を引っ張ってくる方法
データマスキング:個人情報を防ぐために、プライバシーを保護するための処理
※ビックデータはテラバイト程度の非常に多くのデータ量を示しており、多様性を持つ
【データの種類】
カテゴリ変数:A/B・はい/いいえ・0/1(フラグ)等
→クロス集計表/頻度分布/円グラフ/パレート図等を使用してデータの比較を行ったりする
パレートの法則:全体の80%の原因は20%の要素が生み出している
量的変数:離散変数, 連続変数
→度数分布表を
【測定尺度】
量的(定量)データ:比例尺度/間隔尺度
比例尺度:絶対値に意味があるもの (0に意味がある)
間隔尺度:絶対値に意味がないもの(0が意味を持たない)
質的(定性)データ:名義尺度/順序尺度
名義尺度:ブランド名等
順序尺度:A>B>C>Dのランク等
【指標値】
平均値:平均計算した値(外れ値の影響を大きく受ける)
中央値:データを並べた時の中央の順に位置する値
最頻値:最も多く出てくる値
歪度:データの対称性を示す指標(データの分布がどう歪むのかを見るもの)
変動係数:標準偏差/平均 2つ以上のデータの関係性を比較するのに有効
共分散:2つの係数の傾向について確認
相関係数:(x,y)共分散/(x分散*y分散) 傾向の方向性については考慮できない
【データの前処理】
データを正しい値に変える
クラス/ラベリング:類似ワードを統一等)
データクレンジング:スペルミスへの対応
欠損値の扱い
バランシング:アンケート上の男女の偏り等
【ビジネスインテリジェンスを扱う上でのテクニック】
1.データの整理:定量化する
2.指標を作成する:基準を設けることで評価をすることが可能(KPI等)
KPI:Key Performance Indicator ビジネス上の目的に応じたある特定期間においての成果
例:ビジネス上で実施したイベントでの入場者数
3.作成した指標(KPI)をわかりやすい形で図示
具体例:価格の最適化(ホテルの値段等), 在庫の管理()
【従来の統計学を用いた予想分析手法】
回帰分析:線形なモデルに対して適応する
ロジスティクス回帰:非線形なモデルに対して適応する
クラスター分析:似た特徴同士を同じグループとして、分類する手法
因子分析:複数の説明変数がある状態で、似た性質を持つ説明変数を一緒にするというもの
具体例:売上予測(トレンド見つける)
【近年の予想分析手法】
機械学習:アルゴリズムと目的を渡して、目的に対して最も当てはまりが良くなるようなモデルを作成して、そのモデルに基づいて高い精度で予想をすること(目的関数を用いてモデルのパフォーマンスを向上する最適化アルゴリズムを含むもの)
アルゴリズム:試行錯誤のプロセスで、モデルによる試行を繰り返して最適な方法を見つけること
機械学習の3つの種類
【教師あり学習】
データのラベル付けがされており、目的が分かっているデータについて目的の最適化を図る
【教師なし学習】
データのラベル付けがされておらず、目的が分かっていない状態で関係性を見つける方法
まず初めに教師なし学習で分類をした後に、教師あり学習で目的を満たすための最適化を図るという方法がある
【強化学習】
目的を明確化して、更に最適な解を目指すための手法
具体例:不正検出(詐欺を防ぐ) 正しい場合を学習させてあげることで誤った場合を
#機械学習にまつわる業務
データアーキテクト:データベースの作成、どのように取り組んで処理するのか検討する
データエンジニア:分析に活用できるようにデータを処理する
データベースアドミニストレーター:データの管理(従来のデータ管理)
ビジネスインテリジェンス(BI):分析してレポートを作成する
BIデベロッパー:プログラムを使って問題を解決する
データサイエンティスト:従来の統計学的な手法/機械学習手法を使って将来を予想する
データアナリスト:高度な分析を行う
機械学習エンジニア:機械学習の高度なモデルを作成する
#確率の公式
確率とは:ある事象(結果)の起こりやすさ
例:事象=A, 確率=P(A) = 対象とする事象/標本空間(全事象)
試行:事象に関して1回実施すること
結果:試行を繰り返したものを記録したもの
期待値:試行を複数繰り返した場合の期待される結果の値(確率×結果)
経験的確率:実データで用いた確率
理論的確率:大量のデータで計算した確率
確率頻度分布:それぞれの起こりえる確率を整理したもの
余事象:ある事象以外の全てのこと 事象+余事象=標本空間 余事象=事象'(アポストロフィ)で示す
※すべての事象の起こりやすさを数えて1.0を超える or 1.0を下回る場合は、カウントしすぎ/カウントしていないといった問題があるので注意する
#記述統計
母集団
#離散分布
一様分布:どの確率変数の同じ確率で出力されるケース
ベルヌーイ分布:はい/いいえ, 0/1のように2択となるケース
二項分布:ベルヌーイ過程を翠回実施するときのケース
ポアソン分布:ある特定の期間に事象がどの程度起こるかを表したケース
#連続分布
正規分布:鐘のような平均個所に集まる分布
※平均値μから±μの範囲に入る確率:68%
※平均値μから±2μの範囲に入る確率:95%
※平均値μから±3μの範囲に入る確率:99.7%
標準正規分布:N(0, 1) 平均値=0, 分散値=1となる正規分布
正規分布スチューデントのT分布:正規分布に近いが、平均から離れた値の確立も高いケース
※試行回数が少ないため、1点に占める割合が大きい
カイ二乗分布:標準正規分布の2乗を足し合わせで示される分布
正規分布スチューデントのT分布を二乗するとカイ二乗分布になる。
カイ二乗分布の期待度:自由度
カイ二乗分布の分散値:自由度×2
#推測統計
統計的なデータを使用して、母集団の母数を推測するときに使用する
分布=確率分布
分布:取りえる値と、その確立を示したもの
正規化とは
データに対して何らかの計算を行い、全てのデータが0~1の間の大きさにすること
標準化とは
データに対して平均値が0、標準偏差が1になるように計算すること 理由は数学の世界になるので省きますが、全ての値から平均値を引いて標準偏差で割れば平均値=0、標準偏差=1になります
標準誤差:標本平均によって作られた標準偏差
σ/√n
標本から母集団を検討することを推定
点推定:推定範囲の平均値
推定には、"有効性" "バイアス"が必要
→有効性が高くバイアスがかからないのが必要
#母集団と標本
実際、母集団データを集めることは不可能に近い
定義が曖昧であるうえ、達成するのに時間とお金がかかる。
なので、標本で解析を実施する必要があるが、標本の集め方もランダム性・代表性を満たした標本を集めることが必要
#確率と統計について
統計量:あくまで標本なので、不完全な標本上のデータを使って求められるものなので、不完全性を補完するために使う手法として、確率の考え方が存在する。
確率(平均・分散・分布の種類)+統計の考え方(信頼区間等)を組み合わせて仮説を検定する
#組み合わせ論
複数の要素がとりえる方法について考える方法
例:Aさん、Bさん勝負をして勝つ/負けるパターン →2パターン(順列)
順列(階乗):(n) * (n-1) * (n-2) * ・・・・ のように与えられた数字を順番に並べるケース
※階乗 n! 1からnまで順番にかけたもの (0! = 1)
順列(P):与えられた数から、選び並べるケース
組み合わせ(C):順番は関係なく、選び方について(繰り返しの有り[標本空間が同じ]/無しでパターン数が変わる[標本空間が別])
組み合わせの対称性:取れる要素の数が増えると、選び方は減っていく
例:1~5この数字から2個選ぶケースよりも3個選ぶケースの方がパターンが少ない
#集合
x(要素) ∈ A(集合)
空集合:なにも含まない
∀:いかなる
:"そのような"という意味
事象AとBについて、AがBに含まれる場合は
A⊆Bと表す
#回帰分析モデル
線形回帰:2つ以上の変数の因果を求める
y = B0 + B1x1 + ε
B0 切片項
x1 説明変数
ε 誤差
#相関と回帰
相関:関係性,
回帰:ある変数がある変数に影響を与える大きさ, 因果関係
#分散分析
全平方和:全データの平均からの差の二乗和
回帰平方和(説明できるばらつき):回帰直線と全データの平均との差の二乗和
残差平方和(説明できないばらつき):観測されたデータと予測されたデータ(回帰直線)との差の二乗和
R二乗値(R-square) = 回帰平方和/全平方和(説明できるばらつき/全データのばらつき)
OLS:最小二乗(min 回帰平方和)
Least Squares:残差の二乗の最小値
#用語集
データベース言語(SQL)
MATLAB(プログラム言語):演算計算で有効(有料)
hadoop:プログラムが集まった集合体
Tableau:可視化プログラム