Edited at

動物を機械にするには?


概要

「知能」は物理学の概念ではない. デカルトに始まる近代自然哲学の系譜は私たちに機械論主義者への変容を促した. 動物たちは驚くほど多様であり,ヒトはその一部をなすが,私たち動物にはひとつの共通点がある. それは,錯綜するパターンの中から情報を抽出し,時にそれらを共有しながら命を繋いでいかなければならないという現実である. 動物群を巧みに操る技術はAIハイプを終わらしめるであろう. インセンティブの自動化のためには,群が個を律する方式をとらなければならない. 一個体が操作・判断を行うのではなく,集合知によって最終解とインセンティブを決定する. このような「群」を基本単位として,時にメンバーの入れ替えを行いながら,装置を構築していく.


1. 序論

機械式コンピュータが考案されるや否や,人々は思考する機械について真剣に夢想し始めた. 以来,知能の探求の歴史は2つの側面に分かれて発展してきたと見ることができる: 一方は論理的アプローチであり,他方は統計的アプローチである. 問題は,人間の行動の背後には無数の直観が絡んでおり,これをプログラムとしてハードコードすることが困難であるという事実である. この難題を解決すべく,種々の統計的手法が提案されてきた.


1.1 既存の機械学習における課題

ニューラルネットが息を吹き返し,画像認識に革命を起こしてから久しい. 現代のコネクショニズムは音声・自然言語の処理においても優れた成果を挙げ,その影響は広範囲に及ぶ. この革命は確かに衝撃的であるけれども,幾つかの致命的な欠点を抱えている. 例えば,現状の画像認識では大量のラベル付きデータを必要とし,その量は人間や動物が必要とするよりもはるかに多い. 他にも人間には理解できない誤認識をするなど,機械が我々と同じように画像を見ているとは言い難い. また,学習の際必要となる大量の電力や高価なGPU,またアノテーションのための人件費などはコストがかさむ要因となる. それに加え,専門家の不足が人工知能サービス開発の足枷となっている.


1.2 人工知能研究の目的を再考する

人工知能を研究する動機は2つに分かれている. 1つめは知能の原理を解明したいという純粋な好奇心によるものである. 2つめは産業応用を重視したものであり,実世界へのインパクトを重視する. もちろんこの2つは互いに分け難く関係している.

脳をシミュレーションすれば人工知能は原理的に可能かも知れない. もちろんそこまで極端でなくとも,人工的な手法で知能の振る舞いの一部を再現することは可能である. 鳥の羽ばたきを模倣せず実現した飛行機の発明を思い出せば,それは理に適っている.

人工知能研究家の拠り所は,知能が存在する証拠としての人脳が物理則に従っている以上, それをシミュレイトすることでヒト級の知的機械が原理的に構成できるという教義である. ある対象にかんして,それが物理に従へばそれが再現可能な訳ではない. 気象が宇宙現象に当て嵌るからと云うて正確な天気予報はできないように. もちろん,機械頭脳研究の大半は全脳の完全なる模倣ではなく,構成的な手法により知能(の一部)の再現を試みている.

人工知能とは人間の知能の働きを機械の上で実現することであると言って良いが,この文脈でほとんど言及されていない要素がある. それは,そのようにして作られた機械が人間よりも安く,速くなければならないという前提である. 例えば,簡単な四則演算を1回するのに千円と1時間掛かるコンピュータはコンピュータと呼べない. 仮に人工知能ができたとしても,それが人間を使うよりコストが掛かる場合,全く実用的ではないであろう. 我々は半導体で人工知能を作ることに拘る必要はなく,どのような手段を用いても良いはずだ.

人工知能の目的が究極のオートメーション=人が行っていたことを人以外の何かに行わせることであるとすれば,人以外の何かは「ヒト以外の動物」でも構わないはずである. かつて力仕事を動物に任せていた時代があった. 産業革命の本質は動物よりもコストがかからず,同じ機能を持つ存在が出現したことである. その後,ヒトにしかできないとされていた複雑な計算を行う機械が登場し,「コンピュータ」は職業名から機械の名前へと変化した. 人間と共に働く動物は姿を消し,使役動物は過去の遺物として描写されるようになり,人々の頭の中から消え去っていった.

時代は進み,近年ではインフラとしてのインターネットが盤石になってきている. 我々はここに動物が活躍するための宝庫が眠っているということに気がつく. 確かに,個々の動物の能力は人間の能力に届かない点もあるかも知れない. だがしかし,後述するようにインターネットを介して動物を繋ぐことにより,優れた能力を発揮するかも知れないのである.


2. 関連研究

動物を結びつけて知的な振る舞いを実現しようという試みは,私の知る限り少ない. しかしながら,重要な研究がNTTの研究者によって行われていた. 彼らの研究ではラットに画像認識を行わせている. 本論はその正統な後継である. 一匹のラットでは認識率が低いため,複数のラットによる多数決で精度を上げようとしているところが研究のポイントである. この研究は初期段階のものであったため,非常に原始的であり洗練されていない. ただ,ヒューマンコンピュテーションの文脈で論文が発表されていることは特筆すべきであり,革新的な萌芽研究である. 後述するようにヒューマンコンピュテーションは豊かなインスピレーションのもととなる.

動物を用いてロボットを動かす研究も僅かながら存在する. 例えば,神崎らは虫を使っておもちゃの車を動かしている. それらはサイボーグと呼ばれているものに近い. 問題は,それらの研究が一匹の動物を用いてしか行われていないということである. 一匹の動物の知能は人間に及ばないであろう. 複数の動物を繋げることが肝要なのである.


2.1 動物認知の学

動物を使ったシステム(animal-in-the-loop)を構築する上で非常に参考になる学問分野として,動物の認知に関する研究が挙げられる. エソロジー(動物行動学),動物認知,比較心理学など学問名は多様であるが,ひとつの研究分野とみなしてよい. 動物の行動に関する厳密な検証なしに高度な理論を構築するのは不可能である. 動物を擬人化するのは危険であり,過度の期待を生み出しかねない.


2.2 ヒューマンコンピュテーション

もうひとつ発想の源として期待できるのがこのヒューマンコンピュテーションという学問である. この分野は比較的新しく,インターネットとその背後にいるクラウド(群衆)を契機として生まれた. 背景には,未だ人工知能ができないことを人間の力を用いて解決しようという動機がある. それ故しばしば人工的な人工知能だと揶揄されることもある.

ヒューマンコンピュテーションがコンピュータサイエンスのれっきとした一分野として位置づけられているという事実は, 動物を使うことが決して人工知能研究の放棄には当たらないという主張を支持する.

ヒューマンコンピュテーションは人間に焦点を当てているため,往々にして余りにトリビアルなタスクは無視されがちである. 別の言葉で言えば,人間がいとも容易に行いうるタスクは深く考察されていないのである. ここに動物研究の意義が存在する. 他にもゲーム理論,メカニズムデザイン,マーケットデザインなど,参考にできるところは積極的に取り入れていきたい.


2.3 アニマルコンピュータインタラクション

動物は人間と異なる身体を持つからそれぞれの動物に合わせたインターフェースを設計しなければならない. わざわざ光学カメラを使う必要はないだろう.赤外線カメラで動物の動きをトラッキングすれば十分だ. 動物にロボットを操作させるためにはリッチな3D計測システムが必要である.

他にも熟慮すべきことはいくつかある. たとえば動物はよく言語能力がないと言われるがそれは本当だろうか. カレドニアガラスが複雑な道具を用い,階層的に計画を立てることを考えれば彼らに言語能力があると考えてもおかしくない. カラスに話させるための装置をつくるために,我々は彼らの翼の動きを用いる. 翼の動きを人間語に変換することができるかも知れない.

動物は口や手を持っていないだけなのだろうか. それともそもそも言語を生成する能力がないのだろうか. スティーブン・ホーキングは話せなかったが,だからといって彼に言語能力がないと断言できるわけではない. 音声合成機器を動物に与えてみよう. 我々にカラスの鳴き真似が不可能であるのと同じように,カラスも人間のように喉を震わせることができない.

もちろん,動物にとって自然言語は宇宙語だから話さなくてもよいと言う見方はあるかも知れない. ここで,ヒューマンリーダブルやマシンリーダブルという概念が存在するように,アニマルリーダブルという用語を提案したい. そればかりでなく任意のXリーダブルについて考えることができる.Xには子供,視聴覚障害者,ラット,カラス,などが入る. 我々はGoogleリーダブルな言語やマシン&ヒューマンリーダブルな言語(プログラミング言語)を身につけてきた. Googleクエリにはチョムスキー的階層構造は見られないがそれでも充分役立つ.

動物たちにとって人間の言語は謎の音声・記号列である. このため,人間の言語を介して動物の認知能力を調べようとするのは動物たちにとってアンフェアである. 人間の知能と動物の知能が質的に異なるものではなくダーウィン的コンティニュウムが存在すると認めれば言語のように文化依存な要素を排除することで動物と同じ立場に立つことができる. 人間は指示を自然言語を通して理解するが,動物にそれを行わせることは困難である. この立場をとる時,我々が実験するときは人間に一切言語による情報を与えない. 人間で実験するときはそうしなければならない.


2.4 創発理論・複雑系・集合知

全体は部分の総和以上のものである. アリの社会はそれ自体がひとつの生命かのようである. 単純な規則と無数の構成要素が織りなすハーモニーは時に芸術的である. ニューロンも,単体の仕組みは非常に単純なれどその集合体は時に詩を生み出す. 文明は決して一人では成立しない.

構成要素(ニューロン)の仕組みが分かったところで脳が作れるわけではない. トランジスタの機能がわかってもIntel Core i7が作れないのと同じように. (コンピュータは論理的であり人間の産物であるから少し勝手は違うが.)

本提案の本質は,か弱い動物でも,それをとある方法で結びつければ,ヒト並の知能が創発するのでは?という淡い期待である. これをコネクテッド・アニマルと呼びたい.


2.5 ロボットの遠隔操作

深層学習は身体性を必要とするタスクが不得意だ. 動物は世界モデルを内側に持っているから,機械よりもリアルワールドに慣れている. トヨタ社からTHR-3などの遠隔操作型ロボットが発表されていることを考えると,今は絶好のチャンスである. 5G通信は低遅延の遠隔操作に役立つに違いない. 人間に遠隔操作させるのではなく,動物に遠隔操作させるのである.


3. 知能と動物


3.1 知能とは何か

人工知能について語られるとき,ほとんどの場合人間が最も高い知能の持ち主であるとみなされる. でも,ある意味,世の中の全てが知能と言えるのかも知れない. 懸垂曲線を近似するヒモ,微分方程式を解くシャボン玉,ミリ秒で割り算をする電卓... そればかりでない.運動にも知能が必要である. 包丁は知能を発揮して野菜を切る.人間は頭を使って卵を掴む.カラスは車にくるみを割らせる. このように見てみると,実は人間の知能はてっぺんにあるものなどではなく,知能の特殊な一形態に過ぎないと言える. 知能は一次元の物理量ではなく,得体の知れぬ客観値である.

ここで,我々は「知能」コンテストというものを考えてみたい. 知能を判定する主体は人間である.(動物を含めてもよい.) これは少しチューリングテスト(真似ゲーム)にも似ている. ある2つの対戦相手がいる.その2つは集団でもよい.人間の集団とかGPUの集団とかである. その2つの実体が複数の人間(ないし動物)によって審判される. 客観的多数決によってである.

AIパラドックスというものがある. 実現された知的な技術はAIと呼ばれなくなるものだ. (例えば単なるITをAIと呼ぶなかれという戒めなど.) それらを知能として扱わないことは問題だ. 100均の電卓も特殊ではあるが知能を持つ. 人類がいくら束になっても,この壊れかけの電卓に勝つのはムリだ. もちろん知能にはルールも含まれる.(アルゴリズム, etc.) だから単純な足し合わせではない.

知能コンテストで均衡が成り立つとき,甲集団+甲規則=乙集団+乙規則が成り立つ. 甲・乙とも均一集団の場合,以下の関係式が成り立つ. $$n_{ko} i_{ko}=n_{oz} i_{oz}. $$ただし,ここで$n$を個体数,$i$を単体の知能としている. この比率$n_{ko}:n_{oz}$のことをそのタスク・規則における単体の知能の差というのではなかろうか. 例:アインシュタインひとり=クラウドソーシングワーカー1000人など. 人工知能研究者は乙集団を半導体に限定し,規則に悩んでいる. 集団を変えてみるのも一考に値する. 得意分野という概念を見てみれば,適材適所が一番である.


3.2 カラスの優位性

「動物」と一口に言っても種によって得意分野は多様であり,適材適所でそれぞれの動物が最も能力を発揮できるようにしなければならない. しかし,動物の種はあまりにも数が多いため,本考察ではその能力と活用方法を余すところなく述べるようなことはしない. 以降,特定の動物種について考察を深めていきたいが,結論から申し上げるとカラス(特にカレドニアガラス)が有用だと思う. というのもカラスは以下に述べるような素晴らしい性質を備えているからだ.


  • ご存知のように人間と上手く共存している数少ない脊椎動物である.

  • 知能密度(=知能÷体積)が他の動物と比べて高い.

  • 小柄な図体にチンパンジー並の知能があるのだ.

カラスがこれまでに成し遂げてきた偉業の数々は多くの文献に記されている. 例えば


  • 木の実を車に割らせる.

  • 人間の顔を覚える.

  • 複雑な道具を作る.

  • 高い記憶力.

  • 長生きする.

  • 人間に懐く.

  • 計画能力.

  • 遊ぶ.

などである. カラスは人類文明に溶け込み,複雑な思考が可能な,それでいてありふれた存在であるという稀な動物である. このようにカラスの素晴らしさを列挙してきたわけであるが,本論文では以降,カラスという言葉を用いない. 動物としての一般的な手法を示したいからだ.

さて,どのようにカラスたちを働かせようか. 私が考えているのはカラス箱という装置である. それは学校の靴箱のようなオブジェクトであり,これを広い室内にいくつも並べる. 決してカラスを閉じ込めるようなことはしない. それどころかカラスは外に出て行っても構わない. 結局彼らはまた戻ってくるのだ. 文明になれた人類が野生に戻ろうとはしないように.

現代のアニマルウェルフェアでは,動物は痛みを感じる存在でしかなくなった. かくして機械論主義の暗黒時代は始まった. 動物には痛みから逃れる権利ばかりでなく,自身の持つ力を最大限発揮する環境が整えられる権利も必要である. これを「拡張した動物の権利」と呼びたい. したがって,動物の条件付け(報酬や罰を与えること)においては,苦痛を与えることは論外であるが,動物に与えるインセンティブは餌ばかりでなく,動物のQOLを向上させる褒美を与えることが有効である. 動物たる人間もそのような環境のもとでパフォーマンスが最大になるであろうことはじゅうぶん受け容れられるであろう.


4. 提案手法

この文章の本体はこの章である. ここでは独創的なアイデアが次々と提示される. 機械にはまだできないけど動物にはできて,しかもそれが人間よりも安いことを示したい.


4.1 基本要素

動物を適切にインセンティバイズするには幾つかの概念を導入しなければならない. それらは客観的多数決,群,競争,協力,ランダム入れ替えなどである. これからこのそれぞれについて詳細な説明を加え,その後実問題への応用について語る.


4.2 客観性原理

多数決は単純に見えて奥深いテクノロジーだ. 英国の統計家であったゴルトン卿は群衆による推測の平均が真の値に近いことを発見した. コンドルセは多数決の素晴らしさを数学的に証明することで民主主義の優位を示した(陪審定理). 多数決はかように客観的なものだ. 集団的主観と言い換えてもよい. 機械学習でよく見られるアンサンブル学習はこの原理を活用したものだ. 少し証明しておこう.

定理1: 動物の数が増えるにつれ,精度も上がる.

ポアソン二項分布の累積質量関数において$n/2$以上の割合を見れば明らか. ■

では,動物たちに本気で投票してもらうにはどのようにインセンティブを与えれば良いであろうか. テキトーに答えられたり常に同じ答えを返されては困る. ひとつの有名な手法はヒューマンコンピュテーションでよく用いられるゴールドスタンダードの利用である. これは,ラベルの分かっているデータをラベルの分かっていないデータ(推論時のデータ・答えを知りたいデータ)の中にランダムに混ぜ込むことである. ラベルの分かっているデータに対して正解した時報酬を,間違えた時負の報酬を与え,ラベルがわからない時は何も与えない. もちろんそうしても良いのだが,なんとなく気持ち悪い. ラベルがわからない時は報酬がもらえないし,汎用的でない.

そこで,2値分類とし,正解データが-1と+1のふたつであるとしよう.動物$A_1 \dots A_n$ が答えを自分なりに出す.それをここでは$prediction_i$としよう.このとき$A_i$に与えるインセンティブ$incentive_i$は$$incentive_i=prediction_i\cdot\underbrace{\sum_{i'=1}^n w_{i'}\cdot prediction_{i'}}_{{\rm prediction\ as\ a\ whole}}$$で与える.$w_i$は通常$\frac{1}{n}$でよい(平均をとるということである)が,重み付き和でも構わない.

さて,これだけでは分かりにくいだろうからヒューマンコンピュテーションで有名なESPゲームと対応させながら語ろう.ESPゲームはある画像に対し,通信の手段を持たない赤の他人2人が画像にふさわしい単語をアノテートするゲームである.その単語が一致したら両方に点数が与えられ,一致しなければ何も与えられない.これを上の式で確認してみよう.簡単のため,単語は1と-1の2つしかないとする.プレーヤーAとBが1, 1と答えたらAには1・(1+1)/2=1が与えられ,Bにも同様に1が与えられる.他の場合も同様に,(1, -1)のとき(0, 0)が,(-1, 1)の時(0, 0)が,(-1, -1)のとき(1, 1)が(A, B)に与えられることが分かるだろう.$n$が大のときも見てみよう.このときあの式は次のことを示している:「他の人の大半の意見と異なる時大きな罰が,同じ時大きな報酬が与えられ,意見が分かれた時は各動物の報酬の絶対値が小さくなる.」これは重要な性質である.頓珍漢な答えを出すと大損するし,迷うようなデータの時は間違えても大きな罰にはならない.

群の概念は,多数決や平均や協力や競争のために動物を増やすことである.


4.3 画像認識

動物にやらせるタスクとして容易に思いつき,また実験も簡単なのが画像認識である. 画像認識以外にも様々なコンピュータビジョンの問題を解決することが期待される. ここでは前に述べた多数決が活躍する.

コンピュータビジョン界に衝撃を与えたImageNetにおける画像認識について議論する. 1000クラスを見分けるのは動物はおろか,人間にも厳しいだろう. ImageNetがWordNetに基づいており,それが階層的であることを考えれば次のようなことを思いつく: 二分木としてyes, noを答えていくのである. これをアルゴリズムとして実装すると以下のようになる.

アルゴリズム1:推論

node = root
WHILE node.hasChildNodes()
index = sgn of sum (j=1 to n ; w_ij・prediction_ij)
node = node.childNodes[index]
END WHILE
RETURN node

以下,$i$を画像のインデックス,$j$を動物のインデックスとする.

アルゴリズム2:ゴールドスタンダード的トレーニング

FOR i=1 to m
FOR j=1 to n
incentive_ij = prediction_ij・label_i
END FOR
END FOR

アルゴリズム3:上のインセンティブ設計

FOR i=1 to m
FOR j=1 to n
incentive_ij = prediction_ij・sum (j'=1 to n ; w_ij'・prediction_ij')
ENDFOR
ENDFOR


4.4 競争

競争とはあるタスクを実行する上手さを比較することである. この際,ランダム入れ替えの概念が重要になってくる. まず動物AがタスクTを行い,その後動物BもタスクTを行う. これを続けていく. もちろん順番はランダムで良いし,そうしなければならない.

その際,先に述べたような多数決を行うのである.投票する動物$C_1$から$C_n$は動物Aと動物Bのどちらが上手いかを判定する.その判定に応じてAとBにしかるべきインセンティブを与えるのである.当然,動物$C_1$から$C_n$は先に述べた方式でインセンティブが与えられる.こうすることで技能をコピーすることができるのである.動物は機械みたいにコピーできないなんてことはない.


4.5 協力

ロボットを動かすことを考える. 動物は身体の制限もあるから一匹で人間並みの全てをこなすことは難しかろう. 人間も身体は小さいが協力することで大きなことを成し遂げる. 机を一緒に運ぶことから摩天楼を建設することまで. 机を一緒に運んでいる時,2人の人間ではなく,あたかも1つの生命体が動いているようにも見える. 群知能といっても良いかも知れない.

協力のための次のようなインセンティブ設計を考える.単純化のため,以下のようなセッティングを用意する.AとBはタスク$T_1$ができ,CとDはタスク$T_2$ができるとしよう.そしてやりたいタスク$T$は$T_1$と$T_2$からなるとしよう.この時,先に述べた競争を行うのである.組み合わせとしては(A, C), (B, D), (A, D), (B, C)が考えられる.この中から2組選んでどちらが上手いかを判定するのである.$n_{total}$匹の審判のうち甲グループに投票したのが$n_k$匹,乙グループに投票したのが$n_z=n_{total}-n_k$匹だとすると甲グループの構成員には$n_k/n_{total}-0.5$,乙グループの構成員には$n_z/n_{total}-0.5$に比例する報酬が与えられる.もちろん,負の場合もあることが分かるだろう.


4.6 連続的操作

動物が本当に役に立つのは画像認識などではなくロボット操作であろう. ここでは離散値ではなく連続値が重要になってくる. 先程述べたような赤外線カメラを用いても良いし,レバーなんかを用いてもよい. このとき複数匹の動物の運動(例えばレバーの角度など)の平均をとることが考えられる. ただし,多数決の時のようなインセンティブ設計ではまずいだろう. コックリさん的というか,みんなが動いている方向に自分も合わせるということになるからだ. だからそのようなインセンティブ設計はとらない.

スタンフォード大学によるPR1を見ればロボティクスはソフトウェアの問題だということが分かる. 家庭用ロボットは未だSFの世界の話だが,人間がコントロールすれば難なく解決するのである. 工場など決まりきった環境下では完璧に動作するが,多様な世界を理解することは現状ムリである. これこそまさに動物たちが得意とするところでなかろうか.


4.7 その他の応用例

現在,機械学習モデルに食わせる訓練用データはクラウドソーシングを介して人の手によって行われている. これを動物に行わせればコストを下げることができなからうか. また,GANの識別器として半分だけ参加するといったことも考えられる. 他に,人間が絡むクラウドソーシングに比べ,動物の場合,プライバシーの問題を回避することができるという事実も見逃せない.


4.8 その他のインセンティブ設計

即時にエサを与えるというのだけでは少し不自由だ. カラスに類まれな計画能力があることを考えると,餌ゲージというものを導入しても良いかも知れない. これは貨幣の概念に相当する. 報酬としてゲームを与えても良いだろう. カラスは遊ぶ動物である.


4.9 その他

カラスはくちばしを器用に使う. 水平なT字型の可動紐の豆をコントローラとすれば良い. また,少し気味は悪いが,iPS細胞で脳を培養する手もある.


5. 最後に

この文章には間違ったことが書かれているかも知れない.

0f5b6aedeca0682b56ef1cad4ab2218d9af862301bbc89762b991ee6e7d0dd6e