最近、中国のSNSで「Ithy」という非常に便利なAIツールがシェアされているのを見かけました。
公式サイトはこちら:
使い方はとても簡単で、ログイン後に質問を投げるだけ。すると複数のAIが同時に検索と回答生成を行ってくれます。たとえば「what is the biggest breakthrouhg of deepseek r1(Deepseek R1の最大のブレイクスルーは何か)」という質問をしてみたところ、下記のように4つのモデル(Google AI Search、DeepseekR1、Claude3.5、o3-mini)—いずれも現時点で非常に強力な有料モデル—がそれぞれ回答を生成してくれました。
これらのモデルが回答を生成し終わると、Ithyは自動的に各回答を集約・レビューし、最終的に一つのレポートとしてまとめます。下の図は、この“内部統合”の際の処理イメージです。簡単的に説明すると、各モデルがそれぞれ回答を生成し、その後お互いの回答を見比べてレビューし、最後にサマリーを作るという手順になっています。
実際に出来上がった記事が⇩です。タイトルだけ見ても、Deepseek R1が今回最も注目されるポイント—「大規模モデルに強化学習をうまく適用し、大規模トレーニングに成功した」という点—を的確に捉えています。過去には強化学習を大規模モデルに実装して本格的にトレーニングしたケースはほとんどなかったので、これは大きなブレイクスルーだと考えられますね。
さらにOpenAIの「OpenAI-o1」との比較も、以下のように表示されます。
調査レポートとしては既に十分な完成度だと思います。細かい部分の修正は必要かもしれませんが、初期出力としては非常に高いクオリティです。
レポートの詳細は以下で確認できます(生成したレポートはURLをシェアできるのも便利なポイントです):
そして生成結果の精度に関しては、Mediumでも説明する記事もあります。Googleが公開したLLMの精度を評価するベンチマーク(GPQA)を用いてテストしたところ、複数LLMの回答を統合したIthyの正解率は、単独のLLMを使用した場合よりも高く、さらには人間の博士レベルの回答をも上回るという結果が得られたそうです。
興味ある方: