この記事は、BrainPad Advent Calendar 2018 2日目の記事です。
#データサイエンスの民主化
##5年後のデータサイエンティスト
データサイエンスやビッグ・データが世間を賑わし始めてから、だいたい5年くらいになるでしょうか。(データサイエンティスト協会が去る5月に5周年を迎えたので、そんなあたりかと思います。)
「21世紀で一番セクシーな職業」であるデータサイエンティストは今や引く手あまたの状態で、聞くところによると、求人倍率は60倍にもなるそうです。(某人材紹介会社のご担当者のお話より)そのため、産業界の要請を受け、文部科学省もデータサイエンティスト人材を大学で育てるための様々な手段を講じようとしています。(昨年には日本で初めての「データサイエンス学部」が滋賀大学に開設され、今年は横浜市立大学や、津田塾大学にもデータサイエンスを学ぶ学部や学科が作られているほか、博士人材をデータサイエンティストに転換するための取り組みが全国で展開されています。)
さて、繁栄を極めているように見えるデータサイエンス業界ですが、あと5年、つまりデータサイエンスという言葉が世間で喧伝されるようになってから10年目を迎えたときに、一体どうなっているだろうか、を想像してみようというのが今日のお話です。
##3DCGの栄枯盛衰
###ITの世界のスピードの速さ
ITの世界を”Dog Year”と評した人がいますが、確かにその変化のスピードはとても速いですね。今、40歳より若い方々は、DECやTANDEMなんて名前はご存知ないのではないかと思います。だから10年もあれば、ヒマラヤの頂から、谷底に落ちるくらいのことは、そう珍しくもないことでしょう。
私が思い浮かべるのは、1990年代に絶頂を迎えたSillicon Graphicsと、それらの製品を使って活躍した「3DCGアーティスト」という職業の顛末です。年寄りの思い出話をお聞きください。
###Sillicon Graphicsと3DCGアーティスト
今でこそ、個人が趣味で、それこそ個人のパソコンで3DCGの映像を作成することも珍しくないことですが、それこそ1990年代初頭には、3DCGの映像作成のためには、専用の何千万円もするマシンに、これまた一千万円を超えるようなソフトウエアが必要でした。そうした3Dグラフィックス用の専用マシンを開発・販売していたのがSillicon Graphicsです。
Sillicon Graphicsと3DCGの評判を一気に高めたのが、1995年に公開された映画「ジュラシック・パーク」でした。そこで、これまで着ぐるみで撮影されていた恐竜を、グラフィックス技術によって生きているかのように再現した映像に世界中が驚きました。そして、そうした映像を作り出す基盤となったのがSillicon Graphicsのマシンだったのです。
1993年には、比較的安価な(とは言え、1台300万円とかしましたが)エントリーマシンのIndyが発売され、フリーランスの3Dアーティストが誕生していました。当時の雑誌には、鎌倉の七里ガ浜にスタジオを構え、夢のような生活を送る3DCGアーティストの記事が掲載され、そうした先端の生き方を支えているのがSillicon Graphicsのマシンであると紹介されていたものでした。
INDYです。ちょっと、そそるでしょ?
でも、今は「単なる置物」以外の何物でもありません。
こんなプロモーション用グッズもありました。「INDY Bag」と言って、どこにでもINDYを持って行けるというのですが、エントリーレベルでも300万くらい。フルカラーのハイエンドだと500万を超えるようなものを、こんなのに入れて持ち運んだとは、とても思えないのですが。(ちなみに私はO2とフラットパネル・ディスプレイを持って、サン・フランシスコまで行ってプレゼンしたことがあります。笑)
しかし、1990年代末に、Intelアーキテクチャが総合的な高速化に成功し、また、Sillicon Graphicsをやめた技術者たちが、Graphicsエンジン専用のボードを作成する会社(今のNVIDIAの前身のnVIDIAです)で活躍するようになるに伴い、Sillicon Graphicsの独自アーキテクチャの独占的地位は脅かされるようになりました。2000年を前に、Sillicon GraphicsもWindowsマシンを発表するようになったのです。
1990年代末に、グラフィックス用のハードウエアの劇的な低価格化が始まり、それに追随するように、安価なソフトウエアも登場するようになりました。この3DCGのいわば「民主化」の時代に、人材育成で従来市場に殴り込みをかけたのが、「デジタルハリウッド」でした。専門学校において3DCGを教えるというスキームは、ハードウエアとソフトウエアの低価格化によって加速しました。
###技術のコモディティ化が技術者にもたらすもの
それまでとは桁違いの数の人々が3DCG映像を作成することができるようになり、世紀転換期の映像文化の革新の一翼を担うことになりました。これ以降、Web上のアイコンから、パワーポイントの図形まで3Dが当たり前のこととなりました。
しかし、現在、3DCGによる映像や画像が当たり前のものとなっている一方で、それを製作する3DCGアーティストの地位は、ものの見事に低下してしまいました。先日みた専門学校の謳い文句は、「年収1,000万も夢ではない」という夢のないものでした。
今日のデータサイエンティストの特権的地位は、5年後もそのまま維持されるのでしょうか?それとも3DCGアーティストのように、またたく間に平準化されて、データサイエンティストもまたデジタル労働者になってしまうのでしょうか?
##データサイエンスの民主化
###データサイエンス人材の希少性
経済産業省の「IT人材の最新動向と将来設計に関する調査結果」によれば、2018年に3万人、2020年には5万人のデータサイエンティストが不足するとされています。その原因として、日本で統計学の学部の卒業生は3,000~4,000名にすぎず、アメリカの六分の一しかないとか、現状日本には1,000人のデータサイエンティストしかいないとか、言われているそうです。
前述の通り、こうした状況を打開しようと人材を育成し、不足している分を早急にまかなう体制を作ろうという対処が官学を中心に行われています。
###データサイエンスの民主化という解決
他方で、データサイエンスという技術の敷居を低くすることにより、多くの人々に気軽にデータサイエンスを使ってもらうことにより、問題を解決しようというアプローチがあります。いわゆるデータサイエンスの民主化運動です。
この議論はデータサイエンスという、富と成功の源泉となる技術(何しろ、「一番セクシー」なんですから)を手にしているということを特権と見立てるという構図になっています。この特権を享受てきるかできないかという、人間の面からすれば「民主化」と言える問題は、享受すべき特権の側からすれば、より多くの人間に享受されるようになるという意味で、コモディティ化に他なりません。
コモディティ化が進むと、享受する人間の数は増えますが、それに比例するように、当の特権の価値は下がります。納税額による選挙権が、次第に拡大されていく過程は、いわば一票の価値(値段)が下がっていく過程でもあったわけです。
###民主化とコモディティ化
このこと自体は、データサイエンスにおいても、当てはまると思われます。いわば、データサイエンスの発展がデータサイエンティストの地位を落としめることになるわけです。ある携帯キャリアの研究所のグループ・リーダーの方がおっしゃるには、「AIで仕事がなくなるというけれど、確実に言えるのは、AIが発達したら真っ先になくなるのがデータサイエンティストの仕事だよね」と。
##5年後のデータサイエンス
###データサイエンスの民主化の道程
では、現在のデータサイエンティストは、かつての3DCGアーティストのように、その価値が平準化されてしまうのでしょうか?もし、「データサイエンティスト」という言葉が意味するものが5年後も今と同じであれば、そうなってしまうでしょう。現在やっていることと、なんら変わらないことをやっているのであれば、技術の進歩は、彼らの地位を低下をもたらすことになります。
でも、データサイエンスの中身が変われば話は別です。そのことを説明するために、ちょっと寄り道をさせてください。
データサイエンスの民主化を語る際に、良く引用されるのが西田勘一郎氏の議論です。西田さんはデータサイエンスの発展を次の3段階に分けて考えます。第一の段階がアルゴリズムの商品化で、機械学習のアルゴリズム、例えば決定木がSASのEnterprise MinerやIBMのInteligent Minerなどに実装されたように、アルゴリズムを実装し、それをソフトウエアとして販売することによって世の中に広く伝播した段階です。次の段階がアルゴリズムのコモディティ化で、フリーのソフトウエア、RやPythonなどによって、機械学習のアルゴリズムがソフトウエアを購入しなくても利用できるようになって、より広く使ってもらえるようになった段階です。最後の現在の段階というのが、アルゴリズムの民主化で、一言で言えば、コーディングからの解放だというのです。つまり、いくらコモディティ化されたとはいえ、その対象はコーディングが苦にならない人たちであり、コーディングしなくてもデータサイエンスの果実を獲ることができるようにするのが、データサイエンスの民主化だというのです。
###民主化されるのはコーディングなのか前処理なのか
私は、この見方は西田さんの現実の立場、つまりExploratoryというソフトウエアを販売する会社の代表であることに引きつけられ過ぎていると思います。コーディングを不要とするために、準備された便利なソフトウエアを使うというのは、西田理論からすれば第二の段階から第一の段階へ退行しただけなのではないでしょうか?(かく言う私は、あの使いやすいインターフェースを持ったDataRobotが使いたくてたまらないのですが、それだけのお金を払うことができないので、指をくわえて見ているという有様なのです。)
現在進行しつつあるデータサイエンスの民主化にとって、もう一つ重要な要素を見過ごしてはならないでしょう。それは、データサイエンティストの仕事の中身に及ぶ変化に関わることです。すなわち、データサイエンティストの作業の大半を占めるデータの前処理や、特徴量の作成が、だんだんと機械化=AI化されるようになってきているということです。
ひと昔前までは、何かの予測モデルを作るには、与えられたデータの構造を紐解きながら、ドメイン知識を動員して特徴量を試行錯誤で作成しました。そうした特徴量作成のために、かなり面倒な前処理を実行しなければならないことも多かったです。
しかし、現在ではディープラーニングによって、ふさわしいネットワーク構造を決定すれば、ドメイン知識などなくとも、ネットワークの中に特徴量らしきものが自動的に生成され、また、ネットワークの構造自体も、最適なものをAIの方が見つけてくれるようになってきました。
そうなると前処理の意味も違ってきて、ディープラーニングのネットワークに食わせることのできるようにする加工こそが前処理ということになり、そうなるとパターン化が可能なので、前処理も自動化できるのではないかと思われるのです。
###データサイエンス領域の拡大
前処理から特徴量作成まで機械の方でやってくれるとなると、人であるデータサイエンティストに残されているのは、そもそもあるビジネス上の判断をするには、何と何のデータを、どのようにして比べれば良いかというような、データ分析のこともわかっていながら、かなりビジネスよりの業務だけになってしまうのではないかと思われます。そういう業務をやる人は、そんなに多くは必要ないので、5年後のデータサイエンティストを待ち受けるのは、3DCGアーティストの顛末のようなディストピアではないかという心配がますます強まってきます。
しかし、先ほど触れた前提を思い出してください。こうしたディストピアは、「データサイエンス」の内容が、これまでと同じ、要は判別と回帰が主な対象だった場合です。データサイエンスが解かなければならない問題は、もっともっとあります。データサイエンスの適用領域はずっと広いのです。
例えば、タクシーの配送問題ですが、これは単純にディープラーニングのモデルを作って解ける問題ではありません。あるいは、40人の受講者を4人ずつのグループに分けて実習をする場合に、さまざまな能力を持つ参加者をどのようにグループわけすれば、各グループが平等で、かつ、パフォーマンスが最大化できるかというような問題も、従来型の手法を使うと色々な問題、とりわけ計算速度が遅いという問題があります。
このような問題群にとって有望なソリューションとして注目されているのがマルチ・エージェント
・シミュレーションです。ディープラーニングに比べると、まだまだこの分野は未開拓で、やるべきことが多く残っています。そこで次のように言われています。
「それでは、個人のどの行動ルールが、対象になる社会現象と関係がありそうかというアイデア(仮説)は、どこからくるのであろうか。そのような思いつき自体を計算機が自動的に生成することはかなり困難である。最初の思いつきはやはり人間が見つけるしかない」と。(和泉潔ほか、『マルチエージェントのためのデータ解析』)
つまり、この分野ではまだ、データサイエンティストによる特徴量設計が大いに機能するというわけです。このように、全てを機械にまさかせるまでには成熟していない分野が多く存在する以上、データサイエンティストの価値が失われることはないでしょう。領域をずらして、常に新しい分野に挑戦して行くことにより、データサイエンティストの活躍の場は、5年後も確かに存在すると思います。そうした「ずらし」を何度か繰り返した末に、「次はどんなのが良いかねえ」とAIに尋ねるようになった時、シンギュラリティがやってきたんだなと思えば良いのでしょう。
ではまた。
##まとめ
(1)技術の新規性に基づいたアドヴァンテージは、技術がコモディティ化するとともに、失われて行く
(2)現在のデータサイエンス技術もまた確実にコモディティ化して行くだろう。(すでにコモディティ化しつつある。)
(3)データサイエンスには、まだまだ新規性があり、よってコモディティ化していない分野がある。
(4)そのような新しい分野・領域に出て行くことにより、データサイエンティストは自らの価値を発揮し続けることができる。