LoginSignup
7
4

More than 3 years have passed since last update.

大学生が0からデータサイエンスインターンを経験して思ったこと

Posted at

かっこの鎌倉です。インターン生として約2年ほど経験をさせて頂いております。

本記事では

  • かっこでのデータサイエンスに興味がある学生
  • データサイエンスでのビジネス現場応用に関心がある方
  • 現在インターン中のメンバー

を読み手にイメージした内容となっております。

まずはじめに

弊社では、毎月4人程度の学生をインターン生として受け入れています。

ここ1年では経験を問わず受け入れるという点が他の即戦力系インターンと差別化され、キャリアバイトを通じ非常に多くの応募が殺到しておりデータサイエンスという言葉が分野を問わず多くの大学生の内で、関心領域の1つとして考えられるようになっている、ということを実感しております。

そのためプログラミング経験がないのはもちろん、知識的にも大学の統計の授業程度という方も非常に多くいらしています。

そこで本記事では、

  • ビジネス現場でデータサイエンスってどう使われているのか、何に役に立つのか
  • データサイエンスを学ぶ上で今後何から始めればいいのか
  • かっこではどんなことをやっているのか

等について少しでも何か参考になることがあればと思い、私のこれまでのかっこでの経験や、データサイエンスについて思っていることを執筆させていただきました。

かっこでのデータサイエンス

弊社での分析案件でがっつりデータサイエンスをやるとなると大抵、「基礎集計フェーズ」と、「分析フェーズ」の2段階に分かれます。(これはどこもそうだと思われる。)

基礎集計フェーズ

ここでは、頂いたデータについての理解に努めます。クライアントの設定課題にもよりますが、基本的には次の3つです。

  • クロス集計表、ヒストグラムなどでデータの分布を確認
  • 時系列情報をもったデータについてトレンドの確認
  • KPI等重要変数を見定めるための探索的データ解析(EDA: Exploratory Data Analysis)

ここではそこまで難しい数学の理論を必要としない一方で、ビジネス的に価値のある情報がたくさん得られます。
一方で、データ分析を依頼された会社にとってのビジネスインパクトを常に考える必要があり、これは同種業界でも全く異なっていることが往々にしてあるため、これといったフレームワークはありません。

分析フェーズ

基礎集計フェーズで得られた結論をもとに、クライアントがデータサイエンスでさらなるビジネスインパクトが得られると判断するとこのフェーズに入ります。
これはもちろんですが課題設定により様々です。

ちなみに私がこれまで携わってきた案件を振り返り、簡単な目的と遂げるに当たって使ったロジックやモデルとを挙げてみると次のようなものになっています。

  • 物流倉庫における出荷量予測
    [背景]
    人間系の予測での精度限界を算出、さらに機械化した場合の精度を算出することで予測自動化の検討
    [使ったモデル]
    重回帰分析、ランダムフォレスト 、RNN、MLP

  • コールセンターの受信件数予測モデルについての時系列モデルのパフォーマンス検証
    [背景]
    既往モデルの精度が落ちていることが課題となっており新モデルの検討が求められていた
    [使ったロジック]
    ARIMA、SARIMAモデル

  • 生産計画のための需要量予測と適切な在庫数把握ロジックの提案
    [背景]
    需要予測に貢献する変数の可視化し画一的でない人間系予測を自動化
    販売機会に対して利益を最大化する生産計画の立案のための判断材料提供
    [使ったロジック]
    決定木、ランダムフォレスト 、安全在庫

  • 不正検知サービス(O-PLUX)における不正検知ルールの検討
    [背景]
    統計・機械学習を用いたビジネス的(損害額の最小化)な目線での既往ルール刷新の検討
    データ数の少ない加盟店での他の加盟店データを用いたビックデータ的不正検知予測の検討
    [使ったロジック]
    異常検知、決定木、ランダムフォレスト、MLP

  • サブスクリプションサービスにおけるユーザー理解
    [背景]
    定期的に定義したKPIの推移を報告。その他、顧客の抱いている課題への解決(継続/解約に影響する因子の解明、解約理由の解析、需給ギャップの可視化等)
    [使ったロジック]
    クラスタリング、自然言語処理、ロジスティック回帰、ランダムフォレスト

あまり強く主張するつもりはありませんが、簡単な統計的理解を済ませたのちデータサイエンスをとりあえずやってみたいという方に優先的に勉強をオススメするのは、「ロジスティック回帰」(分類)、「ランダムフォレスト」(分類・回帰)、「クラスタリング」(データの要約)といったモデルや概念です。

*その理解の確認として余裕があれば、統計検定2級やG検定の受検を推奨

結局データサイエンスってどうなの?

入社当時とのギャップ

私がインターンを始める前は、データサイエンス最強、統計最強、世の中の全て定量評価できるんじゃないか、と誇大妄想していましたが、そんなことはありません。
昨今、AIやビックデータという言葉が一人歩きしており、今でこそ落ち着いてきてるのかなとは思っていますがまだまだそれに対する期待値の波は激しいです。現に「AI・ビックデータで何かできないか」というアプローチの末、多くの失敗と見当違いのネガティブな声を耳にすることもまだまだ少なくありません。

あくまで、私が経験したことはデータサイエンスにおけるほんの一部分の領域で井の中の蛙な身分でありますが、弊社のデータサイエンスを経験して感じたことは、ビジネス意識が重要でそれを最優先に考え続けなければいけないということです。当たり前のことですが、若輩者ゆえ私にとっていまだに何よりのボトルネックと感じております。

それは他にデータサイエンスの企業での就業経験はないため、あくまで入社当時の自分の意識とのギャップということになりますが、弊社を選んで頂いた企業から耳に入ってくるこれまでの関わったデータサイエンス企業への不満や、他の企業のデータ解析の納品物を見る限り、それは当たり前に遂行されていないのではないか、と感じることがよくあります。

どんなに高尚な分析を施しても、最終的な報告会で相手が理解をし次のアクションに繋がらなければ、それは無価値ということになってしまいます。

「データ分析は前処理が全工程の8割をしめる」という常套文句は、こういった相手のビジネス的な課題意識を上手くデータ分析に落とすところに非常に大きな時間がかかる故もあるのだなということを私は学びました。

面白さ・やりがい

一方でもちろん、データサイエンスによって新たな知見を発見するという喜びも得られました。
そういったことは、どちらかというと予測モデルを設計することより、基本統計量を出したり、KPIを見定めたりする前項の基礎集計フェーズで得られることが多かったりします。

弊社に依頼をいただくような企業はこういったノウハウがまだ蓄積されておらず、これが現状のデータサイエンスのビジネス的価値であるのだと実感しました。

また売上/利益の最大化だけではなく、様々なシーンでデータサイエンスを活かせる機会がありそうだ、という実感も得られました。個人的には、自然言語処理を用いたSNSマーケティングに強い関心があります。

おまけで個人的に弊社インターンを経験しプログラミング、データ分析がある程度できるようになったことで、引っ越しの際に条件を客観的に考えるために不動産サイトをクローリングしたりとか、あるバズワードについてTwitterのデータ収集をしたりとかで、日常的にも使ったりもしています。こういうことができるというのは、技術的に何かできるようになりたいという学生にとっては自信になるのではないでしょうか。

データサイエンスの目的

最後に私がデータサイエンスのことを考え直す強いきっかけとなったのは、自分がやった分析を実際に報告会でクライアントに報告した時のことでした。

ここでの経験は、単にオフィスで分析するだけでは得られない空気を味わうことができ、自分がなんのためにデータ分析をしているのか、それは意味があることなのかどうかということを理屈ではなく、感覚として感じることで、それ以降のデータ分析に取り組む際のマインドが変わり、また「面白さ」や、「やりがい」を強く感じることが頻繁に増えました。

自分の分析を第3者に報告するという経験は非常に貴重なものです。それはデータサイエンスが分析をやり遂げることではなく、それによって相手に次のアクションが起こさせることが1番の目的だからです。

おわりに

将来私は作業員としてのデータ分析者は必要なくなると思っています。

現にハイパーパラメータを探索し無数のモデルを機械的に試すようなデータ分析ツールというのも存在しており、今後もっと手軽に使えるようになるだろうと容易に想像できるからです。

一方で、データ分析を使うことによって大きなビジネスインパクトが得られるかどうかを適切に即座に判断できたり、得られた結果を正確に理解し次のアクションに繋げられるような人材は、さらに需要が高くなると思います。

だからこそ、本気でデータサイエンスをやりたいと考えるならば、なんのために分析をするのかを常に問い続け作業員マインドから脱却する必要があると思っています。

以上、私がデータサイエンスのインターンを経験して思ったことです。

本記事は、本領域における若輩者による執筆であるため見当違い等あればご指導ご鞭撻叱咤激励のほど遠慮なくお願いいたします。


ちなみに弊社では、面接を通過した応募者に1ヶ月間弊社オフィスで、実際テーマに沿ってデータ収集・分析・報告する、という課題を与えています。

プログラミングと分析、資料作成を全てやるというところでなかなかハードルが高いですが、自分なりにデータを集め、自由に分析するという経験が得られ、そこで出した結論にフィードバックが与えられるので、データサイエンスを体験することができます。

実際にそこで合格か不合格かを判定しますが、そんなことはどうでもよく、やってよかったという声を多く頂きます。

参考までに当時取り組んだ際の私のバックグラウンドとしては、農学修士1年、プログラミング経験はpython1ヶ月のみでした。全く0から挑戦する方も多いのでもし興味がある方、是非応募してみてはいかがでしょうか?
https://careerbaito.com/corporation/1252/story?job_id=1704

7
4
1

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
7
4