概要
データエンジニアは、クライアント(自社の場合でも便宜上クライアントと呼称することにします)のデータ資源を付加価値のある(=分析可能な)データにアウトプットするためのデータ基盤の構築・運用を行う
これらのデータはデータサイエンティストやクライアントの経営陣が利活用することになる
では、なぜ今データサイエンスが必要になっているのかを理解することでデータエンジニアが必要とされる理由を知ることができる
なぜ?
電子商取引、電子マネーやICカードの普及、RFIDによる物流管理、センサー技術の発展等による社会インフラの変化から取り扱うデータの量が飛躍的に増大してきている。
ソーシャルネットワークサービスや証券・金融の分野、スマートグリッド等においても大量のアクセスログやセンサーデータを解析して活用する取り組みが行われている。
このように、増え続けるデータを効率的に活用し、新たなビジネスにつなげていくことは今後の企業発展における一つのカギとなる
データは増え続けており、それを利用して企業発展を行いたい企業のニーズは高まっていくと予想されることからデータサイエンスの需要は高まっていくことが考えられる
データサイエンスの需要が高まるということは、
データサイエンスを行う基盤を構築するためのデータエンジニアの需要も高まっていくことが予想される
データ分析・活用のアプローチについて
参考:https://www.itmedia.co.jp/im/articles/0111/20/news001.html
CRISP-DM(Cross-Indstry Standard Process for Data Mining)というデータ分析・活用のためのモデルが存在する
これは
フェーズ1:ビジネス状況の理解
フェーズ2:データの理解
フェーズ3:データの準備
フェーズ4:モデル作成
フェーズ5:評価
フェーズ6:展開/共有
というフェーズに分けて行う循環型プロセスである
この中でデータエンジニアが担当する領域は
データの理解(データが使用できる状況かの調査)
データの項目・量・品質を調査し、データに欠損がないか、データ項目に欠落がないかを調査
調査結果をフェーズ1にフィードバックする(ビジネス目標を達成するのに必要十分なデータがあるかを判断)
システムインフラの課題でデータを処理するマシンスペックがデータ量に適合しているかも検討する
データの準備(使用可能なデータを分析に適したデータに整形していく→データクレンジング)
・欠損値処理
データに欠損がある場合にデフォルト値(定数)または削除する等を行う
・データの型整備・および正規化
データ項目のデータを後続処理に適した形に変換処理する(生年月日を年齢に変換等)
・サンプリング
大規模データを処理する際に、必要であれば標本を採ってサンプリングを行う(統計的手法)
である(もしくはBIツールなどを使用したダッシュボードの作成まで行うならモデル作成迄といえるか)
★分析に使用するデータによって結果が大きく左右されるので、結果的に全行程の大部分をこのフェーズ1・2に費やすことになる
まとめ
後半はあまり関係なかったけど、要するに
・企業が保有するデータを資源として利活用するのにデータサイエンスが必要(需要がある)
・データサイエンスのために分析するデータ資源並びにデータ資源を提供する基盤が必要
・絶え間なく、迅速に、正確に提供することでデータ分析、企業の意思決定をサポート
・データ分析基盤を構築し、運用するデータエンジニアのニーズも高まっていくよね
・データドリブンな意思決定を行うためのデータ基盤を支えるデータエンジニア(=縁の下の力持ち)って地味なようで凄い(小並感)
というお話でした。(データエンジニアではありませんが)
データエンジニアになるべくGCP資格試験勉強やこれをやってみて実践してみてます
データエンジニアなるぞー!!
+α
・ドメイン知識の獲得方法
データサイエンティストはデータ分析をするうえで、対象の事業領域のドメイン知識が不可欠となる
→それを素早く獲得することも仕事のうち
・データマイニングについて
企業が蓄積しているデータを利用して有用なパターンやルールを発見し、マーケティング活動を支援する統計的手法、またはツールの集合体のこと