gpt-oss:120bを動かすマシンの作成

Posted at 2025-09-19

gpt-oss:120bをRTX5090(32GB)+RTX4090(48GB)の合計80GBのメモリに乗せて動作させた pic.twitter.com/fEAjsSz9cJ
— kmitsu (@kmitsu76) September 19, 2025

gpt-oss:120bは約65GBのモデルサイズを持ち、これをGPUのメモリに配置して実行した際の速度。
ソフトウェアはollamaを用いて2つのGPUのメモリに分散させて65GBを配置した。

今回、もともと持っていたGeforce RTX5090 32GBと、新しく作成したGeForce　RTX4090 48GBを組み合わせて80GBのビデオメモリ環境を作成した。

最終形：水冷式にして動作音と温度を低下させた。

大まかな手順

RTX4090を入手する。
RTX4090 は標準だと24GBメモリとなり、12枚のビデオチップを搭載している。そのビデオチップを倍載せられるカスタム基盤を入手する。下記のようにebayで購入できる。
追加するビデオチップ12枚を購入する。
RTX4090からGPUコアと12枚のビデオチップを取り外し、カスタム基盤にはんだ付けする。
追加するビデオチップを裏面に乗せて全部で24枚搭載する。
対応する水冷ブロックと、AIO ラジエーターのセットを取り付ける。

流れとしては上記だが、GPUコアとビデオチップの取り外しとはんだ付けは高度な技術が必要となる。

通常の24GBではない、48GBのRTX4090は、どういう仕組みで作られているのか調べてみた。
採用されているGDDR6Xメモリの実装モードを変更し、倍の数のビデオチップを載せることができるようにしたカスタム基盤が、ポイントとなる。

仕組みとしては怪しいところは無く、規格内での設定となっていることがわかる。