あなたは、漫画や小説はお好きでしょうか。どんなジャンルが好きですか?
私はいろいろな分野が好きですが、とくに知能で勝負する主人公が好きです。
古いものだと、シャーロック・ホームズ。
「初歩的なことだよ、ワトソン君」
というセリフに心躍らせたモノです。
ミームにまでなったものだと、デスノートがあるでしょう。
「計画通り」というセリフと悪人の表情には、迫力がありました。
さて、AI の話を振り返ってみると、AI 研究では強力なアルゴリズムが次々と発明されています。
それに痺れすぎた人たちがいます。アルゴリズムの暗黒面といいますか、アルゴリズム原理主義、に陥ってしまった人たちをちらほら見かけます。
経験が少ない、アルゴリズム原理主義者が
「Accuracy が悪いなら、データを増やせばいいじゃない」
なんて、マリー・アントワネットみたいなことを言うわけです。
今回は、研究とビジネスのデータの違い、ということを、ポエム的に語ってみたいと思います。
研究のオープンデータセットは、オリンピック競技
とある AI 企業で、新技術のソリューションづくりのために、昔の論文を読み漁ったことがありました。たとえば検索エンジンでは、論文をデータセットにしていて、実験をしていました。
共通で利用される、データセットが少なかったのかな、と思います。
機械学習の歴史をみると、巨大なオープンデータセット ImageNet が登場するのが、2009年なんですね。斯様な巨大データセットがいくつも作られ、共有されるようになりました。その結果、研究において、データを獲得するコストがさがり、アルゴリズムの研究に集中し、評価指標を競うゲームに変わっていったように見受けられます。
ルールが整備されて、その中で勝負し、世界の頂点を競う。オリンピック競技のようになった、と言えるのではないでしょうか。
代わりに、アルゴリズム研究の論文から消えた/少なくなったものがあります。データの統計的な要約です。
そういうものは、オープンデータセットを作った人がやっています。後からアルゴリズム研究の論文を書く人が要約をしたところで、人類の知に貢献するところは少ないのでしょう。
見えないところではデータ分析をしているのでしょうが、見かけ上はデータの統計的な要約をみることが少なくなったのではないでしょうか。
ビジネスのデータセットは、政治と調整のゲーム
ビジネスでは、多くの場合、データセットをつくるところから始めます。有効なモデルをつくるには、データの質を担保する必要があります。
多くの場合、データを収集する人は機械学習の素人です。「データの質」と言われても分かりません。その結果、大きく2通りのことが起こります。
分析する人がチェックし、収集する人が再度収集という、往復が発生します。
もう一つは、分析する人が、質が低いデータから意味のあるデータを抽出します。
要は、
収集する人に「お前が集めたデータはクソ」と指摘して、何度も手を動かしてもらうか、
分析する人がデータの便所掃除をするか、
の2択なわけですね。
前者は指摘のやり方がかなり重要です。正論はときに協力者を敵に変えてしまいます。避けなければなりません。
それに、善意の協力者に何度も同じような作業をやってもらうのは忍びないし、データの便所掃除を頑張るのは分析する人が不幸なだけ。ほどよい落とし所を探ることになるのではないでしょうか。
この「ほどよい落とし所」というのは、データを収集する人が理屈と感情の両面で納得できる必要があります。分析する人がそこそこ仕事をした感が必要だし、収集する人がわからなくても仕方ないよねという言い訳も必要です。
あなたが知能無双主人公になれない理由
未知のデータと、素人のデータ収集。この二つを同時にこなすのは、なかなか大変ではないでしょうか。
一般に、知識と経験が足りないモノ・コトに取り組むとき、誰もが失敗するモノです。そんなときは謙虚になるのが大人の態度ではないでしょうか。
でも、恥をかきたくないのも人情です。まぁ、カッコつけて「計画通り」をやろうとしても、デスノートにはなりません。Spy Family のアーニャになってしまうのが関の山でしょう。
一緒に仕事をする人が、素人だと「え?そこなの?」という失敗をすることもあるでしょう。どんなに優秀な人でも、いえ、優秀な人だからこそ、脱力してしまい、挫けかけるかもしれません。
仕方ないですよね、人間だもの。
成果を上げるマインドセット
こういう話になると、スキル云々の前に、心構えが大事になってくるのではないでしょうか。
データにも収集する人にも、自分の理想を押し付けない。そうしてしまうと、データ分析をするご自身を、怒りで目を曇らせたり、追い詰めてしまったりするかもしれません。
データにも収集する人にも、自分から歩み寄ろうとする気持ち。それが、自分の身を守るためにも、一緒に仕事をする人のためにも、成果を上げるためにも、いいんじゃないかなぁ、と思う次第です。
それっぽいオチがついたようで。お粗末さまでした。