はじめに
どうも、みなさん!ぬぇです!本日は前回から引き続きpythonを使っていきたいと思います。今回はscikit-learn(pythonの機械学習ライブラリ)を用いて、データ分析をしようと思います!
目次
第1弾
1.データ分析とは?!
データ分析とは、様々な方法でデータを収集し、収集した大量のデータを整理、加工、統計的手法やツールを使って分析し、その結果から洞察や知見を得るプロセス(道) を指します。目的に応じて、課題解決や意思決定のための情報を導き出すことが主な目標です。
2.データ分析の主なプロセス
2-1.目的の明確化
「なぜ分析するのか」、「なぜ課題解決したいのか」などの分析する目標や課題を具体的に定義する。
(例:売上を増加させる方法を探る)
2-2.データ収集
分析するために必要なデータ(例:公開データ、アンケートなど)を収集する。
2-3.データの前処理(クレンジング)
データの中には欠損値(null値)や異常値(一般的なパターンから外れた値)のある場合があります。その為にデータの正規化、統合を行う。
2-4.データ分析
統計学的手法や機械学習アルゴリズム(今回はこちら)を用いて、クレンジングしたデータを解析する。
異常値の特徴
1.ほかの値と比較して極端に低いor高い
2.データセットの分布(平均値や中央値、標準偏差など)から外れている
3.視覚的に目立つ(散布図上で他と離れた点など)
異常値の原因
1.計測エラー:センサーの故障、誤差、データ取得時の問題など
2.入力エラー:手動入力ミスやシステムのバグ
3.外部要因:一時的な環境変化や予期しないイベント(季節外れの大雪による売り上げの変動)
4.正常な異常値:データとしては性格だが、スポーツ記録での一度きりの優れたパフォーマンスなどの稀な現象
主な分析方法(一部)
番号 | 名前 | 目的 | 使用例 |
---|---|---|---|
1 | 記述統計 | データの要約、基本統計量(平均、中央値、分散など)の算出 | 売上平均、年齢分布 |
2 | 探索的データ分析 | データの可視化、パターンや異常値の発見 | 売上と気温の関係、購買行動の類型化 |
3 | 予測分析 | 過去のデータに基づいて未来の値を予測 | 売上予測、変動予測 |
4 | 因果推論 | ある事象が別の事象に与える影響を分析 | 効果測定 |
具体的な手法では、回帰分析、分類、クラスタリング、主成分分析やアソシエーション分析などの手法がある。目的に合わせて手法を変えて分析をしていこう!
2-5.結果の解釈
分析結果をもとに、目的に合った知見を得ること。また、結果を導き出し、課題解決に繋げる。
2-6.レポート・意思結果
結果の可視化を行い、わかりやすく結果を提示し、意思決定、レポートなどをする。
使用されるツールと技術
- ツール:
- Excel,Tableau,Power BI(可視化ツール)
- Python (pandas,numpy,matplotlib,seabornなど)
- R言語(統計分析向けの言語)
- SQL(データベース操作)
- 技術:
- 統計学(回帰分析、分散分析など)
- 機械学習(教師あり・教師なし学習)
- ビックデータ技術(Hadoop,Sparkなど)
休憩タイム(お茶休憩)
現在目指している職が「データサイエンティスト」なんですよ。データ分析にビックデータ、クラウド、データベースなどの知識を蓄えないといけなく、論理的思考力や常に勉強する事が必要なんです…(大変だ~)
今はずっとデータサイエンティストに向けて勉強やプログラミングの勉強中です
みなさんは勉強することが好きですか?私は大好きなんです!学校の先生が勉強嫌いだった僕を変えてくれたことが懐かしいです…(今でも感謝しています!)
ってことで、今回は座学なので最後まで頑張りましょう!
データ分析の活用例
分野 | 例 |
---|---|
ビジネス | 売上分析、顧客分析、マーケティング戦略立案 |
医療 | 疫病予測、治療効果分析 |
金融 | リスク管理、不正検知 |
科学 | 研究データ分析 |
スポーツ | 選手の能力評価、戦術分析 |
さいごに
今回の記事はデータ分析を使う上で必要な知識を書いてみました!どうだったでしょうか?
私もこれから勉強しなければいけない内容なので、しっかりアウトプット、インプットをして力を蓄えていきたいと思います!次回は、プログラムを実際書いていきたいと思います。
皆様が有益な情報を得られたと思ったら、コメント、いいね待っています!(私のモチベーションに繋がります!!)
(これはこうじゃない?間違ってない?などのコメントでも嬉しいので、ぜひ!)