データエンジニアとは
現場における課題を考え、適切な課題解決方法をデータを使用して導き出すエンジニアのこと。
データを分析可能な状態にするエンジニアのこと。
現代の膨大なデータ(不揃い、不規則)をあらゆるスキルやツールを用いて、集計・加工・集計・可視化することを主業務とする。
★名前の由来
海外ではデータラングラーと呼ばれていたりする。
ラングラーとは家畜を飼いならす人のことで、牛のように暴れまわるデータを自在に操り分析可能にするためこのようなネーミングが付いた。
具体的な内容
データはあるが、それが分析可能な状態に整理されていたリ、フォーマットされているわけでもない。
そういったデータをまとめ上げ(加工等)、ストレスなく横断して活用できるようにする。
データサイエンティストとの違い
データサイエンティストの主業務の
8割:データの準備、前処理
2割:準備されたデータに対して高度な統計数理を適用したり、機械学習モデルを作ったりといった専門性を発揮すべき分野
データエンジニアはこの8割の作業に当たる必要なデータを準備する役割になる。
実際にデータサイエンティストが分析を行うための必要なデータというものを作成することが作業内容になる。
生データに対してデータサイエンティストが分析するのに必要な状態にする(=付加価値をつける)ことに意味がある。
必要なスキル
1. RDB、SQLのスキル
データウェアハウスやデータマートなどでクエリを使用するためSQLの知識が必要
また、データウェアハウスのテーブル設計にはRDBとは違うディメンショナルモデリングというデータモデリング手法が必要となる
2. オンプレ、クラウドの知識
サーバやストレージの構築を行うことも多い
状況に応じて自社内で設備を構築するオンプレ
ネットワークを経由して接続できるクラウドの適したほうで設計するスキルが必要
3. 分散処理スキル
大規模データを使用する際にサーバー負荷権限、データの処理速度を上げるための分散処理スキル
分散処理を行うフレームワーク
必要な具体的スキル
・Hadoopに関する知識
・Sparkに関する知識
4. ネットワーク設計スキル
サーバ構築なども行うことがあるので、インフラエンジニア並みのインフラ設計、運用についてのスキルが必要
主な作業内容
「大規模データ基盤の構築・運用」
大規模データ基盤とは
→データの取得・保管・加工・分析・提供を担う一連のシステム群のこと
職種の魅力
データ基盤という大規模装置を複数人で共同で作り動かしていくところにある
異なるスキルを持ったメンバーが共同してすべてが正しく動き、クライアントのデータというあるだけでは無価値な膨大な資産から
付加価値のついた(=分析可能な)アウトプットを生む仕組みを作ることができる
参考