#目次
1.はじめに
2.データサイエンスとは
3.データサイエンティストとは
4.必要なスキル
5.参考文献
#1. はじめに
皆さん、こんにちは!まさや(@masa__ya8)です!
今回は__2020.12.01__に大学でデータサイエンスサークル(非公認)(@plot_niigata)を設立し、新歓に向けて記事を書きました。記事に関して間違っている点などありましたら、コメントなどで指摘していただけると嬉しいです!
#2. データサイエンスとは
データサイエンスとは、
####「データを活用して課題を解決すること」
です。
インターネットの普及やIT・科学技術の発達などにより、ビックデータと呼ばれる膨大なデータも効率よく扱えるようになったことで、近年その注目が高まっています。
データサイエンスの一連のプロセスとしては、
問題設定
⇓
データ収集
⇓
データ分析
⇓
モデル構築・精度検証 ↔ 精度向上の取り組み
⇓
課題解決
となります。
ビジネスはもちろん、医療や教育など様々な場面でデータサイエンスは多くの価値を生み出しています。
#3. データサイエンティストとは
データサイエンティストとは、データサイエンスを職業として扱う人のことです。
日本では不足しており、需要が高く、__魅力的な職業__と言われています。また、様々なスキルが求められ、統計学やAIに関するスキルが必要不可欠です。
「2.データサイエンスとは」で一連のプロセスを記載しましたが、実際に例を使って説明します。また、この例は「Python実践データ分析100本ノック」の第3,4,5章の内容を使用しています。
####「スポーツジムのデータ」
問題設定・・・退会してしまうのを防ぎたい!退会してしまう人はなぜ退会するのか?
⇓
データ収集・・・ジム利用履歴や会員データなどを使用する
⇓
データ分析・・・値がないデータ(欠損値)などを処理した後、顧客データの基礎集計や顧客行動の各種統計量を把握し、グラフや表にする(可視化)
⇓
モデル構築・精度検証 ↔ 精度向上の取り組み・・・決定木というアルゴリズムを用いて、退会予測モデルを作成する。精度向上の取り組みとして、ここではモデルのパラメーターをいじっている(木構造の深さを浅くしている)
⇓
課題解決・・・構築したモデルから、どのデータが重要かがわかる。また、データを入力するだけでどの顧客が退会するのかが予測できる
#4. 必要なスキル
以下は、一般社団法人データサイエンティスト協会が公開している情報をもとに作成した3つのスキルセットです。
##データサイエンス
-
データを最適な形式で集計、可視化
-
分析結果を正しく読み取る力
-
機械学習や統計モデルの知識・スキル
など
##データエンジニアリング
-
機械学習などの高度なアルゴリズムの開発・実装
-
データ加工
-
プログラミング(Python, R, SQLなど)
など
##ビジネス力
-
課題抽出・企画提案
-
プレゼンテーション
-
コミュニケーション
など
下記の情報をもとに作成しました。詳しくはこちらをご参照ください。
AI drops -未来につながるAIメディア-
一般社団法人データサイエンティスト協会 スキルチェックリスト(PDF)
#5. 参考文献
この記事は以下の情報を参考にして執筆しました。
-
データラーニングギルド / サルでも分かるデータサイエンス(前編)~データサイエンスって一体何なの?~ (YouTube)
-
「Python 実践データ分析100本ノック」
合同会社アイキュベータ共同代表 下山輝昌・松田雄馬・三木孝行 著 (秀和システム)