0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 1 year has passed since last update.

気を取り直してgpt-4oについて

Posted at

gpt-4oの従来のモデルに比べて優れている点

現時点で利用可能な部分に的を絞ってgpt-4o従来のモデルより優れている点についての記事を書きます。

トーカーナイザーの効率化

gpt-4は長いことOpenAIの言語モデルに使われてきたトークン化の方法であるBPA(バイトペアエンコード)の方法のうち、cl100k_baseと呼ばれるものを使用してきました。

このトーカーナイザーはgpt-3.5-turboからgpt-4、gpt-4-turbo、gpt-4-turbo-visitionに至るまで使われてきたトーカーナイザーです。
そのトーカナイザーがgpt-4oでは"o200k_base"といわれるもの変更されました。
"o200k_base"は"cl100k_base"に比べて、1トークンでより長い文字数を表現するため同じ文字数の日本語の文章でも短いトークン数で済むようになり、結果として安価に利用でき計算資源の節約にも繋がっているというわけです。

トークン化について

言語モデルは文章をトークンといわれる断片に分割して処理しています。
日本語の場合、伝統的に形態素解析の手法が使用されてきました。
ChaSenやMeCab、JUMANなど日本語を自然言語処理する上では形態素といわれる最小単位に分割して処理されています。
MS-IMEやATOKなどのかな漢字変換システムも形態素解析の手法を用いて、文章を分割しています。
ただ、この形態素解析の手法は日本語だけに通用するもので多言語に対応したOpenAIの言語モデルのようなものでは使えません。

そこで様々な言語に対応するトーカーナイザーとして、バイトペアエンコーダーが使用されるようになりました。

トークン化の手法の変更

例えば上記の「言語モデルは文章をトークンといわれる断片に分割して処理しています。」を"cl100k_base"でトークン化すると以下のように表現されます。

[78244, 45918, 252, 2845, 95, 68408, 33710, 15682, 83125, 30512, 20251, 11972, 29220, 16073, 19732, 16995, 78183, 33121, 30369, 64889, 35818, 20230, 17620, 21403, 110, 39926, 12870, 99, 22649, 39926, 61689, 1811]

一方で"o200k_base"を使い同じ文字列をトークンにエンコードすると、以下のようになります。
[17765, 40909, 187451, 5205, 26474, 7277, 5662, 77764, 4025, 5330, 3826, 147416, 6996, 30406, 4810, 5280, 2957, 67361, 22440, 158556, 5584, 124871, 788]

トークンの数が少なくなっている事が分かります。もちろん全ての場合においてトークン数が減るとは限りません。
また、言語によってトークン数が平均してどの程度減少するかはばらつきがあります。

今回のトーカーナイザーの変更でトークン数が最も減少した言語は、グジャラート語だそうです。
初めて聞いた言語です・・・
グジャラート語では、従来のトーカーナイザーと比べ4.4分の1のトークン数で済むようになったそうです。

肝心な日本語はというと、1.4分の1で済むようになったそうです。
これは中国語と同じくらいでドイツ語や英語よりは多くの恩恵を受けています。

トークン数が少なくて済めばその分計算も速くて済み、レスポンスも短くて済むという話しです。

日本語に限っていえば、従来のOpenAIのモデルと比較して学習データにより多くのデータセットが含まれるようになったようで、英語から日本語、日本語から英語への翻訳などで自然な訳出が出来るようになっています。

一方で、中国語のような利用できるデータセットが限られている言語や少数話者の言語では別の問題が生じていますが。。。

マルチモーダリティーに関しては、そもそもGPT-4の登場の時点でマルチモーダルなモデルであるというアナウンスがあった経緯や、現時点では音声を直接受取り音声で返すといった音声データにおけるマルチモーダルな性質は利用できないことも考えるとあまり印象深いものではありません(私にとってはですが)。

同じモデルが処理しているかどうか外部からは観察できない以上、マルチモーダルなモデルといわれてもちょっと反応に困ります(MoEのような複合モデルが内部で処理しているとしたらそれってマルチモーダルではないような?)。

今時点では波乱含みのスタートのgpt-4oですが、今後の更なる機能の展開でより便利に使えるようになることを願っています(もっと願っているのは国産の言語モデルの開発が今以上に進んでくれることですが・・・)。

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?