AIによる自然言語処理では、Transformerという種類のモデルが使用されます。
「GPT-3」等のAIが、掲示板でAIと気づかれないまま人間と対話していた、などのニュースを聞いた方もいるかと思います。
GPT-3の登場以降、世界的にはTransformerモデルのパラメーター数競争が始まっており、数千億パラメーターのモデルを事前学習して公開する事が、当たり前のように行われるようになりました。
代表的な超大規模Transformerモデルとしては、
「GPT-3」(英語、1780億パラメーター)
「悟道2.0」(中国語、1兆6000億パラメーター)
「Megatron-LM」(英語、1兆パラメーター)
「HyperCLOVA」(韓国語、2400億パラメーター)
「PanGu-α」(中国語、2000億パラメーター)
「Jurassic-1」(英語、1780億パラメーター
等があります。
お隣の韓国ですら、NAVERが作成した2400億パラメーターのモデルがあるのですが、日本語の大規模言語モデルとしては、今のところ私が知る限り、小説に特化したモデルの「AIモデリスト(73億パラメーター)」と、株式会社りんなが公開したGPT-2 「13億パラメーター」くらいしか、めぼしいものはありません。(私の知らないモデルがあったらごめんなさい、コメント欄で教えてください)
このような状況ではまずい、と危機感を感じた私は、汎用大規模日本語言語モデルの作成プロジェクトを立ち上げ、ソースコードを公開しました。
現在、500GiBほどのコーパスを教師データとして用意して、あとは学習するだけ、というステータスです。
ソースコードの方は、28億パラメーターのモデルを1TPUで学習出来るところまで確認しています。
モデル並列を使用したSwich Transformerなので、さらなるパラメーター数のスケールアップも容易で、スーパーコンピュータがあれば1000億パラメータークラスのモデルも現実的に作成可能な筈です。
ですが、どうやら資金調達的に力尽きようとしており、28億パラメーターのモデルすら学習がおぼつかない状況にあります。
そこで、AIベンチャー企業などを念頭に、本プロジェクト全体を引き継いで頂ける方を募集しています。
200万円くらいの予算があれば、りんなが公開しているモデルの2倍以上のパラメーターのモデルを作成出来ますよ?AI技術で投資を受けたり上場したい企業とか興味を持ってくれませんか?ついでに学習の技術サポートも無料で行います(28億パラメーターのモデルの学習のみ)。
自分はSNSとかやっていないので、共感頂けたら、Twitter等で拡散して頂けると大変に助かります。