データアナリストとしてフリーランスで仕事をしている増田と申します。
Qiitaには初投稿になります。お手柔らかにお願いします。m(_ _)m
はじめに、データサイエンティストのキャリア問題
今年に入りエンジニアとしての活動を広げようとTwitterを始めたり、いくつかのオンラインサロンに入ったりする中で
データラーニングギルドの方にも参加させて頂いております。
https://data-learning.com/guild
今回はこちらの方から応募があり、キャリア論についてエントリーさせていただきました。
キャリア論でいうと2〜5年目ぐらいで悩んでいる人が多いと思いますので参考になればと思います。
この文章を書いている人
5年ほど前から30代でこの業界に入ったデータサイエンティスト(無免許)です。
Webアクセス解析からこの業界に入り、MA,ソーシャルゲーム,IOTのログ解析,自社メディアのユーザー解析などビックデータ界隈で分析的な仕事をさせて頂いております。
一応、大学は工学系で統計や会計関係をかじったあと、学部卒にてコンサル業界や広告業界で働き、その後転身しました遅咲き?エンジニアです。
読んでほしい人
- 2~5年ほどデータ分析、ビックデータ業界いるがこの先どうして良いかわからない。
- 実はデータサイエンスという仕事よりも依頼されたデータを集計する方が多い。
- どんどん技術は進歩しているのに自分は成長感がない。
- 過度な期待と無謀な要望で苦しんでいる。
書こうと思ったきっかけ
5年目にして自分の方向性や今後のキャリアについて悩みだしたこと。自分自身も世の中のも同じような悩みを抱えていることがわかる中で、キャリア選定としてのデータアーキテクトというロールがかなり刺さりました。
ちょうど先日もデータアーキテクト(データ整備人)を”前向きに”考える会
に参加してきました。
このデータアーキテクト(データ整備人)自体のもやもやっとしたコンセプトは夏ぐらいから語りだされ、各界隈から話題になっているような気がします。
私自身も非常に自分の仕事の近いところが多く、データアーキテクトとしてのキャリア及び、今後の目指すべき像について考えてみました。
その上でデータアーキテクトとしての役割について私なりに考えてみました。
データ分析業界の現状(中で働いている人目線)
なんだかんだで需要はあるビックデータ界隈
ここ5年ほどこの界隈で仕事をさせていただいておりますが、お陰様で案件は切れたことはございません。
基本的にはフリーランスエージェントを活用してお仕事を紹介していただきますが、定期的に各社様から稼働状況も含めてご相談をいただける状態です。利用側としてはキャズムでいうところのイノベーター、アーリアダプターは終わりになりつつ、少し大きめなメーカー様からもまだまだ案件の引き合いがあります。最近思うことはどこの会社も、特に新規で立ち上げる案件に関しては必ずといっていいほど、「データ分析基盤の構築」を目にすることがあります。
おそらくどこの会社においても、ビックデータの活用は必須。手遅れになる前に準備をして置こうといういい意味での正しい発想が根付いてきているのではないかと思います。
社員として3年ほどデータサイエンス業務をやっている方については色々とやりきって今後悩むこともあるかと思いますが、世の中的にはまだまだデータ分析をしたい企業は多数あるんだと思って下さい。
需要はあるが、分析専門の会社に頼むには高すぎる。
ここ数年で大きくなったビックデータや機械学習のモデルを開発する会社は急成長と伴い、委託単価は上がっていると思われます。一節には200万~500万と言われています。(この辺は噂レベルで実態価格はわかりません)
通常のシステム開発の人材コストの2倍以上になります。
そうなるとSIerやコンサルに近い会社のエージェントからはフリーランスのデータサイエンティストには声がかかることが多数あります。
ただし、この手の案件は内容を見極めないと苦しみます。
若手や大学院からやってくる業界新人データサイエンティストのレベルが高すぎる。
ここ数年になって本格的に大学での研究をしてきたすごい人たちが市場に大量に出回ってきました。
大学時代からKaggleで分析を行い、大学でも研究をし、最新の機械学習手法について精通しています。
データラーニングギルドでも、大学生で機械学習の勉強を初めて1年も立たずにで銀メダルを獲得した猛者もいます。(しかも文系の大学生です。)
これは、数日前のデータ分析人材のキャリア(データラーニングギルド)を是非お読み下さい。(彼らはマジで優秀でビビります)。
やはり日々の業務をやりながら新しい知識を習得していくことは、年齢を取れば取るほど難しく、時間のある若手を比べると不利になってきてしまいます。
AutoMLの驚異
これは、もう界隈では言うことはなく驚異しかなく、
Qiitaのスパム狩りをしたらAutoMLに仕事を奪われた件
などネタ的に記事は広がりつつあります。実際のところまだやるはさておき、検証として大手受託会社と比較しようと検討しているユーザー企業の話はちらほら聞きます。
どう評価するかなど様々な課題は残ると思いますが、少なくともガリガリモデルを作る時間よりもAutoMLに入れてモデルを作ればデータサイエンティストにモデルを作ってもらうのと同等ぐらいは出るんじゃないか?下手したらそれ以上?感が出ているのは感じ取れます。
分析する以前の整備に時間がかかりすぎる。
現在アサインしている案件の中でデータ分析基盤の移行というプロジェクトを行っている案件があります。
クラウドシステムからクラウドシステムへの移行をおこなっておりますが、問題になっている点は
- データの量が多すぎて定期レポート作成に間に合わない
- データの定義が曖昧無いため集計値がずれてしまう
- データ不備があった場合にレポートの再作成を行わなければならない。
データ分析をするのも大切ですが、それ以上に既存のデータ整理をする作業が膨大になっています。
最近は、DigdagやAirflowといったワークフロー管理ツールも充実してきているもののまだまだ導入しきれていない場合や最適化されておらず、月に1~2日の時間はデータリカバリー、メンテナンスなどに工数を取られているのではないかと思います。
また、大手企業に多いのですが、データはある という言葉を信じてはいけません。
(データはあるのですが、使いやすい状態になっているのかは・・・)
シングルゲームからチームプレイゲームへ
一人で頑張るの辛い・・・。
ここ1年~2年の傾向ですが、データサイエンスプレイヤーが増えるのとともにチーム体制を取るようになってきているような気がします。
数年前までは、チームがあるもののデータサイエンティスト(アナリスト)がそれぞれサービスやタイトルごとに専任的に分析をするという一人で分析をするというやり方が主流でしたが、分析業務全般をチームで受ける体制に変わってきている会社が増えているように感じます。
いままでは、一人で、
- 担当から必要な課題を聞き出し
- 必要なデータの前処理を行い、
- データ分析を行い、
- 分析結果の説明を行う。
- 更には実装まで行い定常化する。(定時レポートや機械学習実装)
といったことをやっていましたが、人数が増え、最も大きなポイントは、共通化された分析しやすいデータ基盤の構築の重要さが(過去の経験)からわかってきている企業様が多くなってきているのかと思います。
全員フォワードある必要があるのか?
さて、上記の状況が整ってきたとするとデータサイエンティストは大量に必要になるのでしょうか?
この業界の定説ですが、8割がデータの前処理です。
つまり、5人いたら4人が前処理の仕事を行い、1人がガリガリに分析やモデルを作る業務を行えばよいのです。
俗に言われるデータの3つの力
-ビジネス力(business problem solving)
-データサイエンス力(data science)
-データエンジニアリング力(data engineering)
がありますが、もっと様々に細分化されて、すべてをこなす中心を目指すのではなく、サラッと知った上で、データサイエンティストをアシストして、ビジネスゴールを決めればよいのかと思います。
チーム・データサイエンス
- クライアントや社内の他の部署との調整をするAIコンサルタント
- 分析用のサーバを構築したりデータ基盤を管理するデータエンジニア
- 高度な統計学や数理モデルを用いて問題を解決するデータサイエンティスト
- ビジネスサイドからデータで課題を解決するデータアナリスト
- データの可視化を行い多くの人にデータの姿を伝えるBIデザイナー
- データの管理を行い皆が作りやすいように管理するデータアーキテクト
といった具合にそれぞれのポジションを明確に分けてどのロールで生きていくのが大切かと思います。
といいつつ、AIコンサルタント、データアナリスト、BIデザイナー、データアーキテクトはまだまだ弱いボジションなので複数ポジションを出来る方が良いかと思います。
すでに某メガベンチャー様のあたりでは本格的に、データアーキテクト専任者を作ったとの噂も聞きます。
今度それぞれのロールがどのようにデータサイエンスのいばらの道を進むのかわかりませんが、未来はあると思います。
みんながハッピーになるためにもチームとしてどの働き方をするのか考えて見ませんか?
最後に
個人的はデータサイエンスの分野はメインプロダクト以外にもデータの活躍する場はまだまだ増えるんじゃないかなと思います。
- データを使った業務改善プロセスの実施や(シックスシグマ的なアプローチ)
- 業務の自動化(RPAをもっと身近に)
- 現状の報告書の改善(ブラックボックス化した神エクセルの討伐)
- 社内のデータ分析のサポート業務(データの民主化とクエリ警察)
など色々とデータアーキテクト視点で仕事があると思います。
若干ポジショントーク的に今後やってみたいを書きましたが、この辺はまたの機会があればまとめてみようと思います。
お読みいただきありがとうございました。
引き続き、データ分析人材のキャリア(データラーニングギルド) Advent Calendar 2019をお楽しみ下さい。