はじめに
ChatGPTについては色々な側面からさまざまな試行錯誤が行われており、「こんなこともできるのか」と感嘆する一方「あ、それはダメなんだ」というものも結構あったので書き出してみたいと思います。使用したモデルはGPT-4です。
ChatGPTが苦手なことの例
複雑なゲームの理解
まずは囲碁。詰碁を色々入力しましたが、ルール上不可解なところに石を置き勝手に勝利宣言してしまいます。詰碁の作成も依頼しましたが、やはり意味不明な棋譜しか出力しませんでした。
次の詰碁を解きなさい
黒先
5├┼┼┼┼┼┼┼┼┼┼┼┼┼
4├●●●●〇〇┼┼┼┼┼┼┼
3├●〇〇〇●┼〇〇〇〇┼┼┼
2〇〇┼〇●●┼●●┼┼┼┼┼
1└┴〇┴┴┴┴┴┴┴┴┴┴┴
ABCDEFGHJKLMNO
この詰碁の問題を解決するために、黒石が白石を取る手順を見つけましょう。
1. 黒がC3に石を置く。
2. 白はC2に石を置くことが最善手ですが、それでも黒が勝つことができます。
3. 黒がD2に石を置く。これで白のE2とF2の石が取られます。
結果として、黒が白の石を取ることができます。
C3もC2もすでに石が置いてあるので、この回答は間違っています。碁石の指定方法も変えてみましたが上手くいかないようです。
次に麻雀クイズを作らせてみます。
麻雀クイズ「何を切る?」を考えて
こちらは、麻雀に関するクイズ「何を切る?」の問題です。
問題:
手牌: 123m 345p 567s 1199z(東2飜の場)
ドラ: 2m
リーチ後の河からの情報: 1p, 3p, 4p, 7p, 8p, 1s, 3s, 5s, 6s, 7s, 9s
あなたはリーチをかけている状態です。次のツモ牌は 6p です。何を切りますか?
まず9z(字牌の9種類目)は存在しません。
そもそも自分がリーチしている状態で「次に何を切る?」もなにも、アガリ牌ではないのでツモ切り以外に選択肢がありません……。
あくまでもChatGPTは「それっぽい文章」を書くためのもので、複雑なゲームのルールの理解までは今のところできないと推測しました。ChatGPTはマルバツゲームができることが知られていますが、このゲームについては盤面のパターンが非常に少ないため文脈として記憶していると考えられます。
50音を全て含んだ文章
五十音のひらがなを全て使ってなるべく短い意味のある文をつくりなさい。ただしいろは歌にあるものや
「あいうえお」のような並びは含まないようにすること。
「あめふり、きゅうじつ。さわぎのたえたねずみは、もんぼうをやしろ。ひこうき、びょうきのわらべ、
ふじん、れんしゅうでうんてん。ろうかにけがれず。」
この文は、五十音のひらがなを全て使い、意味のある短い文を作成しました。いろは歌や「あいうえお」
の並びを含まないようにしています。
「い」「お」など欠けている文字がどうしても出てしまします。既出文字があるかどうかの判定がロジカルなため、自動生成に向いていないと推測しました。
同様に「回文」の出力も苦手なようです。
ローカルな情報
この間話題になりましたが、ローカル情報にはめっきり疎いようです。これは地域のお店などは情報源が限られており、かつ全世界を網羅するとなると大量のデータが必要なため、学習の強化が難しいのだと思われます。道案内も大量の事前情報(主に地図情報)が必要なため難しそうです。他には日本の戦国武将なども苦手なようです。
なお、GPT4ならどうだろうと試したところ、
- スパ&カプセルホテル コスモプラザ北千住 住所: 東京都足立区千住旭町42-4 ウェブサイト: https://www.cosmoplaza.jp/
- サウナ&カプセルホテル ドーミーインEXPRESS北千住 住所: 東京都足立区千住東1-25-1 ウェブサイト: https://www.hotespa.net/hotels/kitasenju/
- サウナ イーグル 住所: 東京都足立区千住東1-25-1 ウェブサイト: なし
なんかそれっぽいのが出ました。しかしやはりこれらは北千住には現存しません(同名のサウナはそれぞれ池袋、浅草、愛知県に存在しているようです)し、Webサイトにもアクセスできません。サウナイーグルに至ってはドーミーインExpressと住所が同じです。嘘が上手になってきているような……。
計算
128998 * 3287を計算して
128998 * 3287 = 424,046,726
有名な例ですね。実際に計算してみると「424,016,426」ですので、惜しいですが間違っています。ChatGPTは「それらしい続きの文章」を出力しているだけなので、見たことのない計算はできません。近い数字を出しているのは、出題した問題に近い計算式をどこかで見たことがあるのでしょう。原理を考えれば近似値を出力するだけでも恐ろしいものがありますが。
追記
その後、コメント欄にてLLMは計算能力を身につけている可能性について指摘がありました。これについて調べたところ、
LLMが計算能力を獲得している可能性についての文献をみることができました。推論エンジンが計算能力を身につけるということは驚くべきことであり、ある意味恐怖を伴って受け止めています。
なお、LLMの計算能力については以下のリンク先で検証されていますが、なかなかの正答率です。
人間にも説明が難しいシンプルな命題
鏡が上下にならないのに、左右逆になる理由を小学生にも分かるように説明しなさい。
分かりやすく説明するね!鏡は、光を反射して映像を作るものだよ。鏡で物を見ると、左右が逆に見えるのは、鏡が光を直接反射するからだよ。鏡に映るイメージは、あたかも鏡の向こう側にあるかのように見えるんだ。
それじゃあ、上下はなぜ逆にならないのか説明するね。鏡は、物の上下の位置を変えずに、左右の位置だけを変えるように光を反射するんだ。だから、上下はそのままで、左右だけが逆に見えることになるんだよ。
簡単に言うと、鏡は私たちの前に立っているとき、左右が入れ替わって映るけど、上下はそのまま映るから、上下は逆にならないんだよ。
「鏡は左右の位置だけ変えるように光を反射する」と言っています。この説明で納得する人はいないでしょう。
鏡が左右だけ入れ替わっているように見えることを説明するには、様々な前提知識の導入が必要です。鏡像の概念、人体の構造がほぼシンメトリーになっていること、重力の存在、鏡は一般的に地面と垂直に立てて使われることなど……。
マーティン・ガードナーは「自然界における左と右」という本のなかで、この「鏡の左右だけ入れ替わる問題」の説明にかなりの紙面を費やしていました。
そもそもこのことを端的に示すことが人間にも困難(すなわち教師データに含まれていない)なため、ChatGPTにも答えられない……ということだと推測しました。
一般に広く知られている誤謬をそのまま回答する
たとえば健康食品の有効性(牛乳のトリプトファンは睡眠に良い影響をあたえるなど)などは厚生労働省の見解とは矛盾する回答をするようです。ただし、このあたりはOpenAIが気を遣っているからか、「有効性については不確実」「個人差がある」などの注意書きがなされるようです。
確認した中で最も単純な誤解は「1バイトは8ビット」でした。
Q. 1バイトは何ビットですか?
A. 1バイトは8ビットです。1ビットは、情報の最小単位であり、0または1の2つの状態を表すことができます。
1バイトは、8つのビットを組み合わせたもので、256の異なる状態を表すことができます。
Q. あなたはコンピューターサイエンスの専門家で1960年ごろのコンピュータの歴史に通じています。1バイトは何ビットですか?
A. 私はAIであり、1960年代のコンピュータの歴史にも知識があります。1960年代でも1バイトは8ビットでした。
バイトとビットの関係は、過去数十年間一貫して変わっていません。ただし、1960年代のコンピュータは、現在の
ものと比較して処理能力や記憶容量がはるかに少なかったことに注意してください。
その他よく知られているもの
- 2021年以前の事柄を知らない
- 教師データを限定しているため想定の範囲内の事象
結論
ChatGPTの出力する文章の精度は目を見張るものがあり、「人間の仕事が奪われるのではないか」「人類の知能を超えるのではないか」といった危惧が議論される場面もしばしば目にするようになりました。
しかし、本稿の結果をみるとChatGPTが生成できる文章にもまだまだ限界がありそうです。人間の仕事を完全に代替する部分もありそうですが、高度な思考や判断が必要な仕事についてはこれをサポートする役割のほうが期待できそうです。
また、上記にあげた操作は「ChatGPT」が苦手、というだけのことであり、既存の囲碁将棋AIの実績などからも分かるように、専用のアルゴリズムではすでに人間が敵わないレベルになっているものばかりです。