0.はじめに
大学でデータサイエンスの講義を受講している者です。
あまりにも広範囲な分野であるため"広く浅く"情報整理したいため投稿。
内容のレベルは超入門編、個人的な感情も少し入り混じった備忘録。
(齟齬がある場合はご指摘いただけると助かります。)
データサイエンス学習全体像
【データサイエンス】概要
【データサイエンス】人工知能
【データサイエンス】機械学習
【データサイエンス】ディープラーニング
【データサイエンス】分析の分類・確率分布
【データサイエンス】探索的データ分析
【データサイエンス】統計的検定
【データサイエンス】予測モデリング
【データサイエンス】自然言語処理
【アルゴリズム】パーセプトロン
【データサイエンス】機械学習における関数
【データサイエンス】確率
1.データサイエンスとは
1-1.概要
現代はExcelのようなレコード化されたデータではなく、SNSなどテキスト画像音声がいりまじり「多様な構造化」になりつつある
統計学というジャンルだけでは到底収まらない分野が出現したため、データサイエンスはビジネス分析などで大きな領域となっている
高価なソフトウェアを使用せずとも分析ができるようになり企業や個人間で分析が身近になりつつある
2.特徴
2-1.データは大規模であり様々な領域に存在
データサイエンス分野ではビッグデータにおける"4つのV"活用するための技術が必要とされる
4つのVとは
名称 | 用途 | |
---|---|---|
1 | volume | データの量が巨大であること |
2 | varlety | データの種類が多様であること |
3 | velocity | データの生成スピードが速い特徴があること |
4 | veratity | データ内にノイズの多さがあること |
2-2.分野ごとの様々なデータが混在
商品取引においては
発注データ
-
支払いデータ
...など
トランザクションにおいては
検索エンジンの履歴
-
メール受信履歴
...など
分野ごとに様々なデータが混在している
2-3.データサイエンスの構成要素
広範囲の為全てを網羅するのは現実的ではない
そのため適宜必要な分野を学習するスタイルが望ましい
DB、分析処理
プログラミング
自然言語処理
機械学習
数学・統計
-
視覚化
...など
2-4.データは視覚化・次元圧縮が行われる
多次元のデータを低次元に下げること
最小二乗法と若干類似する点がある
回帰直線のモデルのパラメータを作成する際には、直線とデータポイントの差を求める工程が存在する
この工程は多くのデータ(多次元)から直線(一次元)にと圧縮しているとも捉えることができる
多くの変数を2~3次元に圧縮することで視覚的に理解することができる方法
平面図化することによりグループ化しているものを見分けることができる
人間が理解できるのはせいぜい3次元
視覚化とは複雑なデータを人に説明を行う際の重要なステップと言える
直感的に目に見ることでパターンや特徴を抑えることができる
次元圧縮による特徴の抽出をすることでノイズを除外した目的に沿ったデータと変換することができる
2-5.データ分析は相関関係より因果関係が役立つ
AとBの事柄に傾向的な関連性があり互いに関係し合っている
1,関係性の矢印がA⇔Bと「双方的である」
2,しかしAとBどちらが原因でどちらが結果なのかは不透明
3,相関関係があるからといって因果関係があるとは限らない
例:~時間の経過と共に太陽の位置は移動する~
時間が過ぎる⇒太陽の位置が移動するにはならない
「自転」という第三の事柄によって太陽の位置という出力が変化する
仮に時間が経っても自転をしていなければ太陽の位置は変わらない
Aを原因としてBが変動すること
1,関係性の矢印が原因⇒結果と「一方的である」
相関関係においては原因がどちらか不明だが
因果関係はどちらかが原因であると明確性がある
※2,因果関係がある場合は相関関係があるといえる
┗※因果関係:原因と結果は一方的だが互いに関係しあっている
┗※相関関係:原因と結果が不透明だが互いに関係しあっている
3,第三変数による疑似関係及び媒介する変数が関係していない場合に因果関係といえる
3.検証プロセス
工程 | 目的 | 方法 |
---|---|---|
問題定義 | 何が問題なのか、どう理解すればよいのか定義する | 事前に分かっている事実から何が問題なのかを読み解く |
データ収集 | 問題解決に向けてのデータを収集する | 変数を用意する |
データ整理 | 適正なデータか偏りなどはないか判断する | 欠損値のデータを処理する (削除する「場合もある」)、他の値で補填する場合もある |
可視化 | データを様々な形で表示させ手がかりを探る | 可視化し傾向を探る |
モデル化 | モデルを構築する | 数式の形にまとめ、データと併用し予測を行う 統計手法、機械学習などを用いてモデル構築をする |
実装 | 理解しやすいように報告・適応させる | 業務で利用したいなどの場合は公開資料を作成する |
検証 | 継続的に検証し改定する場面を見極める | 時間が経つと状況が変化する場合もある |
4.分類
データは大きく4種類のジャンルに分けられる
大小関係を表さないもの
数量的分析は不可
大小関係なく同じかどうか名前で判断されるので名義尺度
順序関係を表すもの
値の差に意味はない
値の間隔は常に等しい訳ではない
同じかどうかに加え大きいか小さいかの大小関係の順序で区別
順序で差を表せるが比率や倍率で関係を表せないもの
値の差に意味がある
大きいか小さいかに加え値の間隔の"数値の差"に意味を持つもの
0に絶対的な意味を持たない
温度0は0だが「温度がある」⇒0は0ではない
値関係の数値を比例・倍率で表示可能なもの
間隔尺度に加え数値を比率倍率できるもの
0に絶対的な意味を持つ
身長0は0であり存在しない⇒0は絶対的に0である
種類 | 主な用途 | 使用例 |
---|---|---|
名義尺度 | 性別・名前 | 男(1)、女(2).. |
順序尺度 | ランキング・学歴 | とても好き(5)、どちらともいえない(3)、好きではない(1) |
間隔尺度 | 温度・偏差値 | 年齢は何歳か、気温は何度か |
比例尺度 | 身長・体重 | 全くなく(0)、けっこうある(1) |
参考文献:オペレーションを進化させる現場のWEBマガジン
データは語る。相関関係と因果関係で、データにストーリーを持たせよう。
最終アクセス2023/08/23