機械学習の仕組みはわかったけど、実際のサービスではどういう風に使われているんだろう?
学習の環境って、自前でGPUを買っているんだろうか。それともクラウドが主流なんだろうか?
というような実務における利用方法や開発に関する疑問は、誰しも一度は抱いたことがあるのではないかと思います。私自身疑問に思っていて、実務への活用を考えている方向けの講習を担当するにあたり、思い切ってアンケートを取ってみました。
対象は実務で機械学習を利用している方で、32の回答を得ることができました(ご回答頂いた方、ありがとうございました!)。なお、回答はTwitter/Facebookなどで募ったため、サンプリングバイアスが存在する可能性がある点についてはご留意を願います。
以下で、その結果について所見を交えながら公開をしたいと思います。
※生のアンケート結果も公開したかったんですが、自由記述の回答にプライバシー的な情報も含まれていたため、生データへのリンクを割愛しました。
Q1.機械学習の利用用途を教えてください
こちらは、「そもそもどんな目的で機械学習を利用しているのか?」を聞くための設問でした。レコメンドやカスタマーサポートの改善への利用は事例としても多いため納得の数字でしたが、製造業務の改善も結構伸びているのは意外でした。この辺りは(まことしやかな)ソリューションは多く売られているけれど実活用はまだ、という印象を持っていたのでここまで伸びてくるのは個人的には驚きでした。
Q2.顧客への機械学習の提供形態を教えてください
これは、機械学習と一口に言っても様々な提供形態があるため、それを確認するための設問でした。自社サービスへの組み込みが一位で、「自社サービスの改善に利用する」という用途が多いことが想定できます。個人的には機械学習コンサルのような形も多いかなと思っていたんですが、あまり伸びてこなかったです。
Q3.利用している機械学習の分野について教えてください
これは活用されている技術の分野を問うための設問でした。画像と自然言語がやはり二台巨塔ですが、ここで確認したかったのはGANやNeural Conversational Modelのようないわゆる「生成系」の技術がどれくらい実サービスで使用されているか、でした。結果はまだあまり例がなく、やはり認識系の活用が中心ということがわかりました。
意外だったのが強化学習も5件ほどあったことです。広告のバンディット系かロボット制御か・・・そこまでは取ってなかったのでわかりませんが、私も実務で使ってみたいです。
Q4.機械学習の学習に使用している環境について教えてください
これは機械学習の学習ってみんなどこでやっているの?というのを確認するための設問でした。結果は圧倒的に自社環境!やはりサービスで真面目に使うならしっかり環境構築を行うのが良いようです。ただ、各社GPU環境に力を入れているので、これは今後割合が変わってくるかもしれません。
Q5.機械学習のためのデータの取得先について教えてください
これは機械学習における大きな問題である、「データはどうやって用意するか?」という点について確認するための設問でした。自社データはもちろんですが、オープンデータとスクレイピングもかなり健闘しています。最初はもちろんデータがないところからスタートするので、どういった公開データがあるのか知っていること、そして(あまりおおっぴらにはやれませんが)スクレイピングの技術はデータを集める上で重要と言えると思います。
Q6.機械学習に関する頭の痛い出来事を教えてください。
これは個人的にも悩んでいる点について、どれくらい共感度があるのかを図る設問でした。やはり「データ」と「人材」の問題。これはどこでも頭の痛い問題なようです。次点として出てきた「精度が出ない」、そしてやはり出てきた「なんでもできると思われて説明に苦労する」というのも悩みどころとして多いようです。
この分野では新しい機械学習フレームワークや手法が続々登場していますが、その意味ではフレームワーク・手法の変化が速すぎる、というのがあまり伸びないのは意外でした。実務上では、おそらく決まったものが数個ありそれ以外のものを追うということはあまりないのかもしれません(個人観測範囲では、DNN系ではTensorFlow/Chainerでほぼ固まっている感じがあります(国内のみ))。
それと機械学習は成果が確約しにくいため受注金額や契約で結構問題があったりするのかなと思ったのですが、ここはあまり伸びなかったです。そもそも自社サービスに活用している割合が多いので、ここもそんなに伸びていないのかもしれません。
Q7.その他ご意見
自由記述の設問であまり記入はなかったのですが、採用・そして育成をどうやるかという問題、また人が入力したデータに含まれる一貫性のなさ(ノイズ)などが頭の痛い問題としてあげられていました。
また、自然言語では成果が出たモデルについて「日本語で通用するのか?」という問題もあるという記載もあり、確かにここは難しい点だなと思いました。
いかがだったでしょうか。この結果が、「現場の機械学習」をより具体的にイメージするのに役立てば幸いです。うちではこうしている!といったようなお声があれば、ぜひコメントを頂ければと思います。