More than 1 year has passed since last update.

LLM / ChatGPT の現状理解と 2023年10月版 LLM情報アップデート (Bio"Pack"athon 2023 #10 トーク用)

Last updated at 2023-10-18Posted at 2023-10-18

この記事は、Bio"Pack"athon 2023 #10での発表内容です。

"LLM界隈の1ヶ月間のアップデート (2023年10月版)"ということでトークします。

本日のトーク内容は、以下の通りです。

Open-interpreterについて
GPT-4 with Vision（GPT-4V）について
バイオ画像でのGPT-4V事例紹介
DALL·E 3 について

Open-interpreter について

Open Interpreterは、自然言語で指示を与えることでコードを書き、実行まで行ってくれるツールです。（実際は、AutoGPT的な挙動です。）

最大の利点としては、ローカル環境に（pip）インストールすることで、ターミナル上でLLMが利用可能となる点です。

あとは、OpenAI社のCode Interpreterの用途はほぼPythonメインで、R言語は使えません。しかし、Open Interpreterは、R言語も利用できて、ローカルで解析実行までできます。おそらく、他言語対応も充実している（はず）。

LLMのモデルは、OpenAI社のGPT model (OpenAI APIキー必要、有償)、Meta社提供の Code Llama (オープンソース、無料、要インストール)が使えます。

全体感としては、OpenAI社のCode Interpreter（名前が変わって、今は、Advanced Data Analysis）のオープンソース版と言えますが、より、AutoGPT的な挙動かもしれません。

詳しくは、私のブログ記事を参考に。ただ、まだツールのバグが結構多いように思うのと、アップデートが頻繁で仕様変更が早い印象です。

簡単な使用感は、下記の動画をご参考に。

上記の動画中ではプロットまでいけませんでしたが、コード・可視化方法を変えれば、プロット結果の保存まで出来ます。

GPT-4 with Vision（GPT-4V）について

9月25日未明に、GPT-4 with Vision（GPT-4V）のリリースが発表され、10月以降に順次、サブスクユーザーに開放されています。

GPT-4V(ision) System Card
OpenAI
September 25, 2023

概要（日本語訳 by DeepL）
GPT-4 with vision (GPT-4V)は、GPT-4にユーザが入力した画像の解析を指示できるようにするもので、私たちが広く利用できるようにした最新の機能です。画像入力などのモダリティを大規模言語モデル（LLM）に組み込むことは、人工知能の研究開発において重要なフロンティアであると考えられている。マルチモーダルLLMは、新しいインターフェースと機能により、言語のみのシステムのインパクトを拡大し、新しいタスクを解決したり、ユーザーに新しい体験を提供したりする可能性を提供する。このシステムカードでは、GPT-4Vの安全特性を分析する。GPT-4Vの安全性に関する我々の作業は、GPT-4で行われた作業を基礎としており、ここでは、画像入力に特化して行われた評価、準備、緩和作業について深く掘り下げます。

https://openai.com/research/gpt-4v-system-card
https://cdn.openai.com/papers/GPTV_System_Card.pdf

つまりは、"GPT-4デフォルト版"で、ユーザーが入力した画像に対して、プロンプトを与えて解析を指示する機能で、これまでも近い機能は存在したが、GPT-4Vでは画像解析機能がかなり強化されています。