概要
【世界で34万人が受講】データサイエンティストを目指すあなたへ〜データサイエンス25時間ブートキャンプ〜 | Udemy
データサイエンスとは
分析と分析論の違い
- 分析
- 過去に発生したデータについて、なぜ、どのように発生したかを説明
- 分析論
- 過去の事象に対して、合理的な説明をすること
- 定性分析: 直感やビジネス上の経験を通じて説明
- 定量分析: 公式とアルゴリズムを通じて説明
- 過去の事象に対して、合理的な説明をすること
データサイエンスのテクニック
1: 従来データの扱い
- 生データ
- そのままの事実や初期データを示す処理前のデータ
- 分析用のデータとして扱わない
- サーバーに保存する前に加工してはいけない
- データコレクションとも呼ばれる
- データの前処理
- ラベリング ( アクセス数等の量的、都道府県等のカテゴライズ )
- クレンジング ( 入力ミス等の修正 )
- 欠損データの決め ( レコードを削除?、平均値で代替え? )
- 特定ケース: データのバランシング
- 属性に着目してデータのバラツキを 50:50 へ
- ランダムに抽出 ( レコード全体から満遍なく )
2: ビッグデータの扱い
- 生データ
- 従来データに準じるが、画像やオーディオデータなどリッチなデータも含む
- 特定ケース: データマイニング
- excel,ブログ..様々なデータ形式からデータを抽出する技術
- 特定ケース: 個人情報に触れず分析するデータマスキング
- ランダム又はダミーデータで生データを隠蔽して分析
- 重要な情報は安全な場所に保管
3: ビジネスインテリジェンスの取り扱い
- 目的
- ビジネス上において、経過や進捗を測定すること
- 指標 <= 測定値 + ビジネス上の意味
- 従来データとビッグデータから分析
- 「データスキル + ビジネス上の知識経験」により過去のデータを解析
- どれくらい商品販売できたか、どの地域で最も商品販売出来たか
4: 統計手法の取り扱い
- 手法
- 回帰分析 ( 2次元上にデータをプロットして、2次関数的に線形の傾向を導出 )
- ロジスティック回帰 ( 2次元上にデータをプロットして、ロジスティック関数的に傾向を導出 )
- クラスター分析 (2次元上にデータをプロットして、グループ毎の集合を導出 )
- 因子分析 ( アンケート時において、類似質問を一つの変数にまとめる )
5: 機械学習の取り扱い
- 基本
- メリット: 人よりも効率的に目的に向けた手段を導出可能
- 活用法: 複雑な数学モデルを改善
- 種類 ( 教師あり学習 )
- ターゲット: データの意味を事前に明瞭化されている
- 目的関数: 正確性を測定する
- 最適化アルゴリズム: 手段を改善可能である
- 種類 ( 教師なし学習 )
- データの意味がわからない場合に行われる
- 教師あり学習前に、データのカテゴリ分けして意味を把握する
- 種類 ( 強化学習 )
- 損失を最小化し、報酬を最大化する
- 教師あり学習に類似
データ分析業界における職種
- データアーキテクト
- データをどのように取得するかを構築する
- データをどのように処理して、活用可能にする
- データエンジニア
- 分析に活用可能とするためデータを処理する
- データベースアドミニストレーター
- データを管理する
- 主に従来のデータを担当
- BI アナリスト
- データ分析してレポートを作成
- BI コンサルタント
- 外部の BI アナリスト
- BI デベロッパー
- プログラミングを通じて、会社特有の問題を解消
- データサイエンティスト
- 従来の手法や、機械学習の手法を通じて将来を予測
- データアナリスト
- より高度な分析を行う
- 機械学習エンジニア
- 機械学習の高度なモデルを構築する