この記事は、Bio"Pack"athon 2023 #9での発表内容です。
はじめに
今回は、前回のBio"Pack"athon 2023 #7(2023/07/12あたり)以降のLLM界隈のアップデート情報を収集して、記事にまとめて、トークします。
LLM / ChatGPT の現状理解
LLM (大規模言語モデル, Large Language Models)は、大量のテキストを学習したAIモデルであり、テキスト生成過程で、次に来る単語を高確率で予測できる。結果として、人間が自然に感じる文章を生成できるAIモデル。
ChatGPT はLLM の1つであり、OpenAI が 2022 年 11 月に発表した会話型 AI サービス。
ユーザーは自然言語をプロンプト・指示文として入力することで、それに受け答えるかたちで、自然な対話形式でテキストが生成される。
2023年9月13日現在、公開版のGPTは、ChatGPT August 3 Versionが最新版です。APIは、gpt-4-0613が最新版です
OpenAI / chatGPT / GPT 関連
2023年11月6日 OpenAI’s first developer conference in San Francisco
2023年9月7日のツィート:
11 月 6 日には、開発者にお見せできる素晴らしいものをご用意します。 (gpt-5 や 4.5 などはありません。落ち着いてください。それでも人々はとても満足すると思います…)
ChatGPT Enterprise
エンタープライズ向け「ChatGPT」を発表。
GPT-3.5 Turbo fine-tuning
OpenAI APIでgpt-3.5-turboのfine-tuningが可能に
fuction callingとgpt-3.5-turbo-16k: 2023年秋以降に予定
gpt-4のfine-tuning: 2023年後半に予定
ChatGPT Advanced Data Analysisが新たに登場
Advanced Data Analysisの機能は、主に以下のようなものがあります:
- データの読み込みと前処理: CSV, Excel, JSONなど多様なデータ形式の読み込みと、欠損値処理、型変換、フィルタリングなどの前処理。
- 統計解析: 基本的な統計量の計算(平均、中央値、標準偏差など)、仮説検定、ANOVA、回帰分析など。
- データ可視化: バー、ライン、散布図などの基本的なグラフから、ヒートマップや3Dプロットまで多様な可視化。
- 機械学習: 分類、回帰、クラスタリングなどの基本的な機械学習アルゴリズムの適用。
- テキスト分析: TF-IDF、トピックモデリングなどの基本的なテキスト分析。
- 時系列解析: ARIMA、移動平均、指数平滑化など。
- 最適化とシミュレーション: 線形プログラミングやモンテカルロシミュレーション。
- 特別な数学的手法: フーリエ変換、ウェーブレット変換など。
- APIとの連携: (インターネットアクセスが可能な場合)外部データソースやサービスとの連携。
以前のコードインタープリターとの違い:
- 言語サポート: Advanced Data Analysisは多くのプログラミング言語をサポートしていますが、以前のインタープリターはより限定された範囲でした。
- 実行速度: 高度な最適化により、新しいシステムは以前よりも高速です。
- エラーハンドリング: より詳細なエラーメッセージとデバッグ情報が提供されます。
- ライブラリとパッケージ: 新しいシステムはより多くの外部ライブラリとパッケージに対応しています。
- ユーザーインタフェース: より洗練されたUIと、より多くの可視化オプション。
- 状態管理: セッション間での変数の状態を保存する機能があります。
- コードの再利用: コードスニペットの保存と再利用が容易です。
- 拡張性: プラグインアーキテクチャにより、ユーザーが独自の機能を追加できます(ただし、これは特定の設定でのみ可能)。
R言語はまだサポートされていないようです。
【裏技:ChatGPTでスクレイピング】
ウェブページをHTMLで保存して、ファイルをChatGPT / Advanced Data Analysisに投げて、LLM実行する方法を紹介。
LLM 一般
[2023/07/18] Metaが、Llama 2を公開。
Llama 2は、オープンソースで、研究用途および商用途で無料。
7億、13億、および700億のパラメーターを持つ3つのモデルサイズでLLaMA-2を訓練し、リリースされた。モデルのアーキテクチャは、LLaMA-1のモデルから大きく変わっていないものの、モデル訓練用に使用されたデータは40%多くなっているとのこと。
[2023/08/24] Metaが、コーディング用LLM「Code Llama」をリリース
Code Llamaには、ベースモデルのCode Llama、Pythonに特化した「Code Llama - Python」、ファインチューニングされた「Code Llama - Instruct」の3種類があるようです。
Search Generative Experience(SGE): Google検索が生成 AI による新しい検索体験を日本で提供開始
日本におけるLLM動向
[2023/07/06] NEC、130億パラメータで世界トップクラスの日本語性能を有する軽量なLLMを開発
- NECが日本語の大規模言語モデル(LLM)を開発。
- このモデルは130億のパラメータ数で、消費電力を抑制しながら高い性能を実現。
- NECはこのモデルをすでに社内での文書作成やソースコード生成などに活用している。
[2023/08/29] Metaの「Llama 2」をベースとした商用利用可能な日本語LLM「ELYZA-japanese-Llama-2-7b」を公開
東京大学松尾研究室発のAIスタートアップ、株式会社ELYZAが、「Llama 2」に対して日本語の追加事前学習を行い、商用利用可能な70億パラメータの日本語LLM「ELYZA-japanese-Llama-2-7b」を一般公開
[2023/07/13] Microsoft AI Co-Innovation Lab を神戸市に開設(2023年秋予定)
Microsoft AI Co-Innovation Lab の技術領域:
● IoT によるデータ収集、AI による分析、分析結果の可視化
● Azure Open AI Service の実用化
● その他 Azure サービスの適用
[2023/07/27] Microsoftが、ChatGPTが動く日本の国内サーバーの設置を公表。
[2023/08/23] 東京都が、文章生成AI「ChatGPT」の職員5万人の利用解禁を発表。
職員向けの「文章生成AI利活用ガイドライン」を一般公開(下記)。
[2023/08/24] 文章生成AI 利活用 ガイドライン Version 1.1
東京都が文章生成AI 利活用 ガイドライン Version 1.1(2023年 8月 東京都デジタルサービス局)を公開。
その他 / LLM ゴシップ
OpenAIが『GPT-5』の商標出願
[2023/08/08] 明らかになったGPT-4の秘密
「GPT-4のモデルは、2,200億パラメータの専門家モデルが8つ連結された「専門家混合モデル」で、このアーキテクチャ自体は、Googleが2021年に発表している何ら革新性のない」という、2023年6月のリーク記事の日本語版。
LLMのセーフガードを故意に突破する「脱獄プロンプト」
○Xinyue Shen et al. "Do Anything Now": Characterizing and Evaluating In-The-Wild Jailbreak Prompts on Large Language Models
論文のまとめ:
■効果の高い脱獄プロンプトには共通の戦略(特定の文字を使用する傾向)がある
■開始時に特定のプロンプトを使用することで脱獄する「Start Prompt」の攻撃力が高い
■攻撃成功率が極めて高く(99%)100日間にわたって規制されていないプロンプトを2つも発見した
(脱獄プロンプトの文字列は安全上の視点から公開されていません。)
便利ツールの紹介
MaxAI.me / Google chrome plugins
どのWebサイト上からでも、ショートカットキー(Cmd/Alt + J)を押すことで、ChatGPTのほか、Bard、Bing、ClaudeのAIツールを選択し利用できる拡張機能です。