More than 3 years have passed since last update.

なぜ今データサイエンスが必要なのか　非データエンジニアが考察してみた

Last updated at 2021-08-04Posted at 2021-08-04

概要

データエンジニアは、クライアント(自社の場合でも便宜上クライアントと呼称することにします)のデータ資源を付加価値のある(＝分析可能な)データにアウトプットするためのデータ基盤の構築・運用を行う
これらのデータはデータサイエンティストやクライアントの経営陣が利活用することになる
では、なぜ今データサイエンスが必要になっているのかを理解することでデータエンジニアが必要とされる理由を知ることができる

なぜ？

電子商取引、電子マネーやICカードの普及、RFIDによる物流管理、センサー技術の発展等による社会インフラの変化から取り扱うデータの量が飛躍的に増大してきている。
ソーシャルネットワークサービスや証券・金融の分野、スマートグリッド等においても大量のアクセスログやセンサーデータを解析して活用する取り組みが行われている。

このように、増え続けるデータを効率的に活用し、新たなビジネスにつなげていくことは今後の企業発展における一つのカギとなる

データは増え続けており、それを利用して企業発展を行いたい企業のニーズは高まっていくと予想されることからデータサイエンスの需要は高まっていくことが考えられる

データサイエンスの需要が高まるということは、
データサイエンスを行う基盤を構築するためのデータエンジニアの需要も高まっていくことが予想される

データ分析・活用のアプローチについて

参考：https://www.itmedia.co.jp/im/articles/0111/20/news001.html

CRISP-DM(Cross-Indstry Standard Process for Data Mining)というデータ分析・活用のためのモデルが存在する

これは
フェーズ１：ビジネス状況の理解
フェーズ２：データの理解
フェーズ３：データの準備
フェーズ４：モデル作成
フェーズ５：評価
フェーズ６：展開/共有
というフェーズに分けて行う循環型プロセスである

この中でデータエンジニアが担当する領域は

データの理解(データが使用できる状況かの調査)

データの項目・量・品質を調査し、データに欠損がないか、データ項目に欠落がないかを調査
調査結果をフェーズ１にフィードバックする(ビジネス目標を達成するのに必要十分なデータがあるかを判断)
システムインフラの課題でデータを処理するマシンスペックがデータ量に適合しているかも検討する

データの準備(使用可能なデータを分析に適したデータに整形していく→データクレンジング)

・欠損値処理
データに欠損がある場合にデフォルト値(定数)または削除する等を行う
　
・データの型整備・および正規化
データ項目のデータを後続処理に適した形に変換処理する(生年月日を年齢に変換等)

・サンプリング
大規模データを処理する際に、必要であれば標本を採ってサンプリングを行う(統計的手法)

である(もしくはBIツールなどを使用したダッシュボードの作成まで行うならモデル作成迄といえるか)
★分析に使用するデータによって結果が大きく左右されるので、結果的に全行程の大部分をこのフェーズ１・２に費やすことになる

まとめ

後半はあまり関係なかったけど、要するに
・企業が保有するデータを資源として利活用するのにデータサイエンスが必要(需要がある)
・データサイエンスのために分析するデータ資源並びにデータ資源を提供する基盤が必要
・絶え間なく、迅速に、正確に提供することでデータ分析、企業の意思決定をサポート
・データ分析基盤を構築し、運用するデータエンジニアのニーズも高まっていくよね
・データドリブンな意思決定を行うためのデータ基盤を支えるデータエンジニア(=縁の下の力持ち)って地味なようで凄い(小並感)

というお話でした。(データエンジニアではありませんが）
データエンジニアになるべくGCP資格試験勉強やこれをやってみて実践してみてます

データエンジニアなるぞー！！

＋α

・ドメイン知識の獲得方法
データサイエンティストはデータ分析をするうえで、対象の事業領域のドメイン知識が不可欠となる
→それを素早く獲得することも仕事のうち

・データマイニングについて
企業が蓄積しているデータを利用して有用なパターンやルールを発見し、マーケティング活動を支援する統計的手法、またはツールの集合体のこと

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

なぜ今データサイエンスが必要なのか 非データエンジニアが考察してみた

概要

なぜ？

データ分析・活用のアプローチについて

データの理解(データが使用できる状況かの調査)

データの準備(使用可能なデータを分析に適したデータに整形していく→データクレンジング)

まとめ

＋α

なぜ今データサイエンスが必要なのか　非データエンジニアが考察してみた