More than 1 year has passed since last update.

LLM / ChatGPT の現状理解と 2023年9月版 LLM情報アップデート (Bio"Pack"athon 2023 #9 トーク用)

Last updated at 2023-09-13Posted at 2023-09-13

この記事は、Bio"Pack"athon 2023 #9での発表内容です。

はじめに

今回は、前回のBio"Pack"athon 2023 #7（2023/07/12あたり）以降のLLM界隈のアップデート情報を収集して、記事にまとめて、トークします。

LLM / ChatGPT の現状理解

LLM (大規模言語モデル, Large Language Models)は、大量のテキストを学習したAIモデルであり、テキスト生成過程で、次に来る単語を高確率で予測できる。結果として、人間が自然に感じる文章を生成できるAIモデル。

ChatGPT はLLM の1つであり、OpenAI が 2022 年 11 月に発表した会話型 AI サービス。

ユーザーは自然言語をプロンプト・指示文として入力することで、それに受け答えるかたちで、自然な対話形式でテキストが生成される。

2023年9月13日現在、公開版のGPTは、ChatGPT August 3 Versionが最新版です。APIは、gpt-4-0613が最新版です

OpenAI / chatGPT / GPT 関連

2023年11月6日 OpenAI’s first developer conference in San Francisco

2023年9月7日のツィート:
11 月 6 日には、開発者にお見せできる素晴らしいものをご用意します。 (gpt-5 や 4.5 などはありません。落ち着いてください。それでも人々はとても満足すると思います…)

ChatGPT Enterprise

エンタープライズ向け「ChatGPT」を発表。

GPT-3.5 Turbo fine-tuning

OpenAI APIでgpt-3.5-turboのfine-tuningが可能に

fuction callingとgpt-3.5-turbo-16k: 2023年秋以降に予定
gpt-4のfine-tuning: 2023年後半に予定

ChatGPT Advanced Data Analysisが新たに登場

Advanced Data Analysisの機能は、主に以下のようなものがあります：

データの読み込みと前処理: CSV, Excel, JSONなど多様なデータ形式の読み込みと、欠損値処理、型変換、フィルタリングなどの前処理。
統計解析: 基本的な統計量の計算（平均、中央値、標準偏差など）、仮説検定、ANOVA、回帰分析など。
データ可視化: バー、ライン、散布図などの基本的なグラフから、ヒートマップや3Dプロットまで多様な可視化。
機械学習: 分類、回帰、クラスタリングなどの基本的な機械学習アルゴリズムの適用。
テキスト分析: TF-IDF、トピックモデリングなどの基本的なテキスト分析。
時系列解析: ARIMA、移動平均、指数平滑化など。
最適化とシミュレーション: 線形プログラミングやモンテカルロシミュレーション。
特別な数学的手法: フーリエ変換、ウェーブレット変換など。
APIとの連携: （インターネットアクセスが可能な場合）外部データソースやサービスとの連携。

以前のコードインタープリターとの違い:

言語サポート: Advanced Data Analysisは多くのプログラミング言語をサポートしていますが、以前のインタープリターはより限定された範囲でした。
実行速度: 高度な最適化により、新しいシステムは以前よりも高速です。
エラーハンドリング: より詳細なエラーメッセージとデバッグ情報が提供されます。
ライブラリとパッケージ: 新しいシステムはより多くの外部ライブラリとパッケージに対応しています。
ユーザーインタフェース: より洗練されたUIと、より多くの可視化オプション。
状態管理: セッション間での変数の状態を保存する機能があります。
コードの再利用: コードスニペットの保存と再利用が容易です。
拡張性: プラグインアーキテクチャにより、ユーザーが独自の機能を追加できます（ただし、これは特定の設定でのみ可能）。

R言語はまだサポートされていないようです。

【裏技：ChatGPTでスクレイピング】

ウェブページをHTMLで保存して、ファイルをChatGPT / Advanced Data Analysisに投げて、LLM実行する方法を紹介。

LLM 一般

[2023/07/18] Metaが、Llama 2を公開。

Llama 2は、オープンソースで、研究用途および商用途で無料。

7億、13億、および700億のパラメーターを持つ3つのモデルサイズでLLaMA-2を訓練し、リリースされた。モデルのアーキテクチャは、LLaMA-1のモデルから大きく変わっていないものの、モデル訓練用に使用されたデータは40%多くなっているとのこと。

[2023/08/24] Metaが、コーディング用LLM「Code Llama」をリリース

Code Llamaには、ベースモデルのCode Llama、Pythonに特化した「Code Llama - Python」、ファインチューニングされた「Code Llama - Instruct」の3種類があるようです。

Search Generative Experience（SGE): Google検索が生成 AI による新しい検索体験を日本で提供開始

日本におけるLLM動向

[2023/07/06] NEC、130億パラメータで世界トップクラスの日本語性能を有する軽量なLLMを開発

NECが日本語の大規模言語モデル（LLM）を開発。
このモデルは130億のパラメータ数で、消費電力を抑制しながら高い性能を実現。
NECはこのモデルをすでに社内での文書作成やソースコード生成などに活用している。

[2023/08/29] Metaの「Llama 2」をベースとした商用利用可能な日本語LLM「ELYZA-japanese-Llama-2-7b」を公開

東京大学松尾研究室発のAIスタートアップ、株式会社ELYZAが、「Llama 2」に対して日本語の追加事前学習を行い、商用利用可能な70億パラメータの日本語LLM「ELYZA-japanese-Llama-2-7b」を一般公開

[2023/07/13] Microsoft AI Co-Innovation Lab を神戸市に開設(2023年秋予定)

Microsoft AI Co-Innovation Lab の技術領域:
● IoT によるデータ収集、AI による分析、分析結果の可視化
● Azure Open AI Service の実用化
● その他 Azure サービスの適用

[2023/07/27] Microsoftが、ChatGPTが動く日本の国内サーバーの設置を公表。

[2023/08/23] 東京都が、文章生成AI「ChatGPT」の職員5万人の利用解禁を発表。

職員向けの「文章生成AI利活用ガイドライン」を一般公開(下記)。

[2023/08/24] 文章生成AI 利活用ガイドライン Version 1.1

東京都が文章生成AI 利活用ガイドライン Version 1.1(2023年 8月東京都デジタルサービス局)を公開。

その他 / LLM ゴシップ

OpenAIが『GPT-5』の商標出願

[2023/08/08] 明らかになったGPT-4の秘密

「GPT-4のモデルは、2,200億パラメータの専門家モデルが8つ連結された「専門家混合モデル」で、このアーキテクチャ自体は、Googleが2021年に発表している何ら革新性のない」という、2023年6月のリーク記事の日本語版。

LLMのセーフガードを故意に突破する「脱獄プロンプト」

○Xinyue Shen et al. "Do Anything Now": Characterizing and Evaluating In-The-Wild Jailbreak Prompts on Large Language Models

論文のまとめ:
■効果の高い脱獄プロンプトには共通の戦略（特定の文字を使用する傾向）がある
■開始時に特定のプロンプトを使用することで脱獄する「Start Prompt」の攻撃力が高い
■攻撃成功率が極めて高く（99%）100日間にわたって規制されていないプロンプトを2つも発見した

(脱獄プロンプトの文字列は安全上の視点から公開されていません。)

便利ツールの紹介

MaxAI.me / Google chrome plugins

どのWebサイト上からでも、ショートカットキー（Cmd/Alt + J）を押すことで、ChatGPTのほか、Bard、Bing、ClaudeのAIツールを選択し利用できる拡張機能です。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

LLM / ChatGPT の現状理解 と 2023年9月版 LLM情報アップデート (Bio"Pack"athon 2023 #9 トーク用)