LoginSignup
3
4

LLM / ChatGPT の現状理解 と 2023年9月版 LLM情報アップデート (Bio"Pack"athon 2023 #9 トーク用)

Last updated at Posted at 2023-09-13

この記事は、Bio"Pack"athon 2023 #9での発表内容です。

cover.png

pic0.png

はじめに

今回は、前回のBio"Pack"athon 2023 #7(2023/07/12あたり)以降のLLM界隈のアップデート情報を収集して、記事にまとめて、トークします。

LLM / ChatGPT の現状理解

LLM (大規模言語モデル, Large Language Models)は、大量のテキストを学習したAIモデルであり、テキスト生成過程で、次に来る単語を高確率で予測できる。結果として、人間が自然に感じる文章を生成できるAIモデル。

ChatGPT はLLM の1つであり、OpenAI が 2022 年 11 月に発表した会話型 AI サービス。

ユーザーは自然言語をプロンプト・指示文として入力することで、それに受け答えるかたちで、自然な対話形式でテキストが生成される。

2023年9月13日現在、公開版のGPTは、ChatGPT August 3 Versionが最新版です。APIは、gpt-4-0613が最新版です

OpenAI / chatGPT / GPT 関連

2023年11月6日 OpenAI’s first developer conference in San Francisco

2023年9月7日のツィート:
11 月 6 日には、開発者にお見せできる素晴らしいものをご用意します。 (gpt-5 や 4.5 などはありません。落ち着いてください。それでも人々はとても満足すると思います…)

ChatGPT Enterprise

エンタープライズ向け「ChatGPT」を発表。

GPT-3.5 Turbo fine-tuning

OpenAI APIでgpt-3.5-turboのfine-tuningが可能に

fuction callingとgpt-3.5-turbo-16k: 2023年秋以降に予定
gpt-4のfine-tuning: 2023年後半に予定

ChatGPT Advanced Data Analysisが新たに登場

pic1.png

Advanced Data Analysisの機能は、主に以下のようなものがあります:

  • データの読み込みと前処理: CSV, Excel, JSONなど多様なデータ形式の読み込みと、欠損値処理、型変換、フィルタリングなどの前処理。
  • 統計解析: 基本的な統計量の計算(平均、中央値、標準偏差など)、仮説検定、ANOVA、回帰分析など。
  • データ可視化: バー、ライン、散布図などの基本的なグラフから、ヒートマップや3Dプロットまで多様な可視化。
  • 機械学習: 分類、回帰、クラスタリングなどの基本的な機械学習アルゴリズムの適用。
  • テキスト分析: TF-IDF、トピックモデリングなどの基本的なテキスト分析。
  • 時系列解析: ARIMA、移動平均、指数平滑化など。
  • 最適化とシミュレーション: 線形プログラミングやモンテカルロシミュレーション。
  • 特別な数学的手法: フーリエ変換、ウェーブレット変換など。
  • APIとの連携: (インターネットアクセスが可能な場合)外部データソースやサービスとの連携。

以前のコードインタープリターとの違い:

  • 言語サポート: Advanced Data Analysisは多くのプログラミング言語をサポートしていますが、以前のインタープリターはより限定された範囲でした。
  • 実行速度: 高度な最適化により、新しいシステムは以前よりも高速です。
  • エラーハンドリング: より詳細なエラーメッセージとデバッグ情報が提供されます。
  • ライブラリとパッケージ: 新しいシステムはより多くの外部ライブラリとパッケージに対応しています。
  • ユーザーインタフェース: より洗練されたUIと、より多くの可視化オプション。
  • 状態管理: セッション間での変数の状態を保存する機能があります。
  • コードの再利用: コードスニペットの保存と再利用が容易です。
  • 拡張性: プラグインアーキテクチャにより、ユーザーが独自の機能を追加できます(ただし、これは特定の設定でのみ可能)。

R言語はまだサポートされていないようです。

pic2.png

【裏技:ChatGPTでスクレイピング】

ウェブページをHTMLで保存して、ファイルをChatGPT / Advanced Data Analysisに投げて、LLM実行する方法を紹介。

LLM 一般

[2023/07/18] Metaが、Llama 2を公開。

Llama 2は、オープンソースで、研究用途および商用途で無料。

7億、13億、および700億のパラメーターを持つ3つのモデルサイズでLLaMA-2を訓練し、リリースされた。モデルのアーキテクチャは、LLaMA-1のモデルから大きく変わっていないものの、モデル訓練用に使用されたデータは40%多くなっているとのこと。

[2023/08/24] Metaが、コーディング用LLM「Code Llama」をリリース

Code Llamaには、ベースモデルのCode Llama、Pythonに特化した「Code Llama - Python」、ファインチューニングされた「Code Llama - Instruct」の3種類があるようです。

Search Generative Experience(SGE): Google検索が生成 AI による新しい検索体験を日本で提供開始

pic3A.png

pic3.png

日本におけるLLM動向

[2023/07/06] NEC、130億パラメータで世界トップクラスの日本語性能を有する軽量なLLMを開発

  • NECが日本語の大規模言語モデル(LLM)を開発。
  • このモデルは130億のパラメータ数で、消費電力を抑制しながら高い性能を実現。
  • NECはこのモデルをすでに社内での文書作成やソースコード生成などに活用している。

[2023/08/29] Metaの「Llama 2」をベースとした商用利用可能な日本語LLM「ELYZA-japanese-Llama-2-7b」を公開

東京大学松尾研究室発のAIスタートアップ、株式会社ELYZAが、「Llama 2」に対して日本語の追加事前学習を行い、商用利用可能な70億パラメータの日本語LLM「ELYZA-japanese-Llama-2-7b」を一般公開

[2023/07/13] Microsoft AI Co-Innovation Lab を神戸市に開設(2023年秋予定)

Microsoft AI Co-Innovation Lab の技術領域:
● IoT によるデータ収集、AI による分析、分析結果の可視化
● Azure Open AI Service の実用化
● その他 Azure サービスの適用

[2023/07/27] Microsoftが、ChatGPTが動く日本の国内サーバーの設置を公表。

[2023/08/23] 東京都が、文章生成AI「ChatGPT」の職員5万人の利用解禁を発表。

職員向けの「文章生成AI利活用ガイドライン」を一般公開(下記)。

[2023/08/24] 文章生成AI 利活用 ガイドライン Version 1.1

pic4.png

東京都が文章生成AI 利活用 ガイドライン Version 1.1(2023年 8月 東京都デジタルサービス局)を公開。

その他 / LLM ゴシップ

OpenAIが『GPT-5』の商標出願

[2023/08/08] 明らかになったGPT-4の秘密

「GPT-4のモデルは、2,200億パラメータの専門家モデルが8つ連結された「専門家混合モデル」で、このアーキテクチャ自体は、Googleが2021年に発表している何ら革新性のない」という、2023年6月のリーク記事の日本語版。

LLMのセーフガードを故意に突破する「脱獄プロンプト」

○Xinyue Shen et al. "Do Anything Now": Characterizing and Evaluating In-The-Wild Jailbreak Prompts on Large Language Models

論文のまとめ:
■効果の高い脱獄プロンプトには共通の戦略(特定の文字を使用する傾向)がある
■開始時に特定のプロンプトを使用することで脱獄する「Start Prompt」の攻撃力が高い
■攻撃成功率が極めて高く(99%)100日間にわたって規制されていないプロンプトを2つも発見した

(脱獄プロンプトの文字列は安全上の視点から公開されていません。)

便利ツールの紹介

MaxAI.me / Google chrome plugins

pic5.png

どのWebサイト上からでも、ショートカットキー(Cmd/Alt + J)を押すことで、ChatGPTのほか、Bard、Bing、ClaudeのAIツールを選択し利用できる拡張機能です。

3
4
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
3
4