#はじめに
千葉大学の米倉です.今回は技術の解説の記事ではなく,研究者として企業で行っているデータ分析で感じたことを述べたいと思います.つまりはポエムです.僕は統計学者には珍しくヘルダーリンやツェランを読んでいるのでポエムには自信がある.
#目次
1.OKOTOWARI
2.外れ値の存在
3.時系列データの扱い
4.ゴミデータなんてない
5.理解不足
6.頻度論的分析が多すぎる
7.初手ディープの危険性
8.ダメな分析の危険性
9.データの扱いが難しい
10.おわりに
#1. OKOTOWARI
今回のポエムは特定の企業などそういった話ではなく,僕が個人なり会社なりで請け負った案件を通し気づいた・思ったことや,同業者から聞かされた話,ネットで見聞きした話しについてなど,様々な話に対してのものです.また僕が所属する企業の見解でもないです.
#2. 外れ値の処理が甘いことが多い
ほぼ言い切れますが,分析するデータセットには外れ値が存在します.この外れ値の処理と言うのは地味なんですけれど,なかなか厄介です.外れ値は主に1入力ミスなどで発生したもの,2理由があって発生したもの,の2つがあると思います.1の入力ミスに関しては桁数がちょっと違ったり,データが重複したり,単位が異なってたりが典型例で,この辺は外れ値の発生理由がデータの集め方にあるので,処理と言う意味では問答無用でしていいと思います.一方で後者の理由があって発生している場合は,これを無視して分析をすると非常に危うい分析につながると感じました.
平均より中央値の方が外れ値の影響を受けないことが知られていますが,これは裏を返すと外れ値を無視することにもつながります.無視していい時は無視していいのですが,良くない時に外れ値を無視して予測の精度なりを評価するのは非常に危険です.例えば大きな地震などめったに起こらないけれど,おこると壊滅的な損害がでるイベントを無視して災害分析を行う,みたいなことと同じです.特にリスク評価の際の外れ値については,適当な処理や無視した統計分析はやらない方が良いでしょう.
両方とも共通していることは,サンプルサイズが大きくなると1つ1つのデータに処理を丁寧に行うことは不可能です.ですので何かしらの方法で外れ値を一括して処理する必要がありますが,この辺は中々難しい理論がこんにちはしてくるので,企業レベルですとこの辺のノウハウはまだ浸透してないのかなとも感じました.
#3. 時系列データの扱いが甘いことが多い
全てとは言いませんが,企業が保有している多くのデータは時系列データが多いです.例えば売り上げや,ある商品の価格など.こういったデータは初歩的な統計学に書いてある方法で分析すると,有益どころかとんでもない分析結果がほぼ確実に帰ってきます.時系列データの分析というのは,データとしては最も集まりやすいデータな一方で,その統計分析はかなり高度な知識が必要で,この意味で大きなギャップが存在します.例えば,時系列データ同士の相関係数を求めたり,時系列データに対して最小二乗をただ行って回帰分析をしても意味がほぼないです.
#4. 企業のデータ分析でゴミデータは存在しない
たまにゴミデータからはゴミみたいな分析しかできない,的な発言を見聞きします.まあ確かに研究レベルではそうなのかもしれませんが,企業で必要とされるであろうデータ分析ですと,持ってるデータがゴミでまともな分析が出来ないという事態はほぼないと思います.どちらかというと,データ分析の手法の知見が欠けているから分析できない・扱いきれていないことの方が多いと感じました.
一般的に言って,企業が持ってるデータのサンプルサイズは大きいことが多いですし,色々な系列のデータを保有しています.保有しているデータが膨大すぎるので,問いに対して重要であろう変数の目星が付けられない,適切な分析手法が分からない,この様な事の方が多いと感じました.保有しているデータの種類が多いということは,そのまま必要となってくる分析手法の数も多くなることを意味しています.研究者レベルでも多種類の統計的手法に精通している人はほぼいないので,色々な分野の専門家を集める必要があると感じました.
#5. 自分たちが行っていることを理解できていないことが多い
今では非常に多くの統計学・機械学習の入門書が増え,また自分でコードを書かなくても何かライブラリーを使えば分析が出来る環境が整っています.この様に分析のしやすさは発達していく一方で,教科書の内容をきちんと理解するという姿勢の欠如が昨今目立つように感じます.言葉は悪いですが,ぱっとみ高度な分析をしているのに,何を自分たちでしているのかが理解できていない例が多く見受けられます.
例えば少し前にGo toキャンペーンが新型コロナの新規感染者を増やしたか否かというコンテキストで,とある省庁は「グレンジャーの因果性」という概念を用いて分析を行っていました.この概念は主に時系列データの予測能力についての話なのですが,残念ながらその分析では適切に用いられれるとは言えず,自分たちが何をしている・出来ているのかが理解できていないように映りました.
#6. 頻度論的な分析が非常に多い
僕はどちらかと言うとベイズ統計学と呼ばれる手法を好みます.一方で頻度論と言う手法もあるのですが,だいたいの学部の統計学の講義や教科書はこの頻度論的な手法について解説されています.もちろんベイズと頻度論で一長一短あるのですが,企業レベルの話ですとベイズ的手法を用いたほうが,よりリッチな情報を得られそうな問題にもかかわらず,頻度論的な分析を行っている例が多くあると感じました.
1年後の売上予測を行う際に,頻度論的手法ですと例えば100万円位であろうと予測はできます.一方でベイズ的な手法ですと,95%の確率で80-120万円になると,「不確実性」をもって予測することが出来ます.
なぜそれが重要なのでしょうか?僕の肌感覚では,企業が何かを予測する際に一番気にする必要がある事は「最悪のケース」だと思います.最悪でも1年後X%の確率でY円売り上げがたちそう,この様な情報が分かれば一番ストレスをかけた状態での意思決定を行うことが可能になり,安全な意思決定が可能となります.
この様に意思決定のさいに統計分析を使うというコンテキストでは,ベイズ的手法を用いた分析が有用なことが多いにも関わらず,残念ながらそういった手法が企業レベルで浸透しているとは言えないと感じました.
#7. 何でもかんでも深層学習
時代と言うこともあり,取り合えず深層学習で何かしたいんだけれど・・・と言う話も多く見聞きしました.確かに深層学習が効果を発揮する場面と言うのは多くあると思います.個人的にはロボットに単純な作業を教え込むときなどが特に有効かなと思います.
一方でしばしば結果の解釈が難しいことが問題点としてあげられます.例えば予測の精度はいいのだけれど,理論的にはマイナスになっていないといけない変数の係数がプラスになってる,等です.この様な場合,例えばそのまま何か商品化すると,お客さんから結果がおかしいとクレームにつながる可能性があります.
また例えば単純な分類問題など,そもそも無理して深層学習を用いるのではなく例えばロジスティック回帰などクラシックな方法で十分そうな場面でも,色々な事情で兎に角にも深層学習を用いるというケースも見聞きしました.深層学習を用いること自体が目的となっていて,結果としてその後苦労することになると思います.
深層学習的モデルでも統計モデルでも,変数間の構造を考慮して適切にモデリングをすることでこの様な問題を解決できることが多いですが,これはドメインナレッジとモデリング能力どちらとも必要で,研究者レベルでも両方がそろっている人は中々国内には存在しないのが現状ですし,僕も無いです.
#8. 不適切なデータ分析は意思決定には有害
統計分析の結果と言うのは,主に意思決定の際に参照されるものだと思います.それっぽい分析をして,それっぽい数字をスライドに貼っておくと,やっぱりなんか説得力が増すと思います.その際にきちんと分析できてればこれは素晴らしいことなのですが,残念ながら出来ていないことが多いです.これは我々大学関係の人間の教育力不足もあるので,申し訳ない気持ちもあります.
例えばこの前とある会社のデータ分析部隊の本を読んだのですが,世間での高い評価とは裏腹に,分析のクオリティ自体は恐ろしく低いもので,正直びっくりしました.学部のゼミでもちょっと指導するレベルでした.
データ分析の結果をもちいて何かを言うと,ちょっと声が大きくなってしまうので,分析者は適切にデータ分析を行うべきで,その時に限りデータサイエンスが意味を持つと思います.
#9. 秘匿されるべきデータを扱う難しさ
企業が保有しているデータは,秘匿されるべき情報が含まれていることが多々あります.もちろんNDA等を結んで分析を行いますが,それでも企業からすれば取り扱い要注意のデータを全部提供するなんてことは中々怖くて出来ないと思います.一方で,分析をするとなるとなるべく詳細なデータがどうしても必要になってきて,この辺りから請負で分析結果を提供する難しさも感じました.ですのでこの辺をもっとスムースに行えれば,読んでいるページを勘違いしてるみたいな自体が減るのかなと感じました.アクセスできる情報がお互いに違うと,時たま認識にズレが生じます.
#10. おわりに
データサイエンティストという職業の知名度の向上とは裏腹に,適切な人材は非常に限られているのが現状だと思います.これは色々と理由があると思いますが,1つは大学教育というか博士課程で応用研究者を育てていないことがあるのかと思います.正直にいって,博士号位の知識が最低限ないと,中々適切なデータ分析というのは難しく,かつその様な人材が同じチームに複数人いることが望ましいです.
現状日本の統計学研究ですと,統計的手法の提案や諸性質を調べる研究に力を入れており,例えばサッカーの勝敗予測の研究みたいな応用的な研究は正直ナンセンスだとされていると感じます.
この様な状況ですと,アカデミックな知識をある程度もったデータサイエンティストなんていう人材はいつまでたっても増えていかないと思います.ですので,博士課程で応用研究を出来る人間を育てることや,いわゆる社Dとして企業でデータ分析されている方に博士課程にきて頂いて,一緒に応用研究を行うこと等が重要で,もっと企業と大学の人間の交流が活発になればいいなと個人的には思っています.