Help us understand the problem. What is going on with this article?

Raspberry PiでGPGPU

Raspberry PiでGPGPUを行う為のPyVideoCoreというPythonライブラリを作りましたので紹介します。

Raspberry PiのGPU

Raspberry PiシリーズはBroadcomのVideoCore IVというモバイル向けGPUを搭載しています。このGPUは公式にリファレンスガイドが公開されています。これは2014年2月にRaspberry Pi財団への誕生日プレゼントとしてBroadcomが公開したものです。この文書のおかげで、VideoCoreをハックする事が可能になりました。

VideoCore IVは12個のQuad Processing Unit (QPU)を搭載しています。各QPUは16 wayのSIMDプロセッサであり、1命令で4ワード×4サイクル(つまり長さ16)のベクトル計算を行います。各QPUは加算系と積算系の2つの演算を同時に実行する事が出来ます。つまり、GPU全体で最大12×4×2=96の演算を同時に実行する事が出来ます。クロックは250MHzなので、理論性能は96×0.25 = 24GFLOPSとなります。単精度のみです。Raspberry Pi2では500MHzくらいまでオーバークロックする事が出来るようです。

他にALUとは独立したSpecial Function Unit(SFU)が3つあってRECIP, RECIPSQRT, EXP2, LOG2が計算できます。ただ4命令分(16サイクル)使い、パイプライン化は出来ず、精度が悪い(ちゃんと実験してませんがLOG2以外は4桁くらいLOG2は2桁くらいのよう)のでSFUの計算能力としての寄与は微小です。各QPUは最大2つのハードウェアスレッドを実行できます。つまり全体で最大24スレッドを同時に走らせることができます。スレッドのQPUへのアサインはVideoCoreのスケジューラによって動的に行われます。スレッドを同期させる為のmutexが1つとsemaphoreが16個あります。あとはメモリが使い方に応じて数種類ありますが、長くなるのでまたそのうち説明をします。

大体こんな感じのものです。モバイル用ですから性能は高くないですが、完全なドキュメントが手に入り、数千円で買えて、あとNVIDIA以外でのGPGPUというのも珍しいですから遊んでみると面白いんじゃないかと思います。もちろん、Raspberry PiやVideoCore IVを搭載したスマホ等で何らかのプロジェクトを行うならばこの計算能力は有り難いと思います。

PyVideoCore

残念ながらVideoCoreIVにはCUDAやOpenCLのようなGPGPU開発環境は(多分)ありませんので、QPU用のアセンブリ言語で開発を行う必要があります。というかそもそも言語もアセンブラも存在しません。過去には以下のようなプロジェクトが行われていますが、それぞれ自前でアセンブラを開発してやっているようです 。

PyVideoCoreではもうちょっと手軽に書けるようにしようとPythonの内部DSLとしてアセンブリ言語を実装してみました。以下は長さ16のfloatのベクトルをただ足すだけのサンプルですが、このようにホスト側のコードとGPU側のコードを一つのファイルに書いて、コンパイル無しで普通のPythonスクリプトとして実行できます。

import numpy as np

from videocore.assembler import qpu
from videocore.driver import Driver

@qpu
def hello_world(asm):
    # Load two vectors of length 16 from the host memory (address=uniforms[0]) to VPM
    setup_dma_load(nrows=2)
    start_dma_load(uniform)
    wait_dma_load()

    # Setup VPM read/write operaitons
    setup_vpm_read(nrows=2)
    setup_vpm_write()

    # Compute a + b
    mov(r0, vpm)
    mov(r1, vpm)
    fadd(vpm, r0, r1)

    # Store the result vector from VPM to the host memory (address=uniforms[1])
    setup_dma_store(nrows=1)
    start_dma_store(uniform)
    wait_dma_store()

    # Finish the thread
    exit()

with Driver() as drv:
    # Input vectors
    a = np.random.random(16).astype('float32')
    b = np.random.random(16).astype('float32')

    # Copy vectors to shared memory for DMA transfer
    inp = drv.copy(np.r_[a, b])
    out = drv.alloc(16, 'float32')

    # Run the program
    drv.execute(
            n_threads=1,
            program=drv.program(hello_world),
            uniforms=[inp.address, out.address]
            )

    print ' a '.center(80, '=')
    print(a)
    print ' b '.center(80, '=')
    print(b)
    print ' a+b '.center(80, '=')
    print(out)
    print ' error '.center(80, '=')
    print(np.abs(a+b-out))

@qpuというデコレータがついているのがアセンブリのコードです。現状は生のアセンブリを書く必要がありますが、GPUのコード自体はふつうの関数ですし、個々の命令も普通の関数なのでPythonの機能を使ってよく使うパターンをライブラリ化する等の工夫はできると思います。

以下がリポジトリです。試してみてください。

これからベンチマーク取ったりソフトウェアを組んだりいろいろしてみようと思っているので、そしたらまた何か書こうと思います。

Why not register and get more from Qiita?
  1. We will deliver articles that match you
    By following users and tags, you can catch up information on technical fields that you are interested in as a whole
  2. you can read useful information later efficiently
    By "stocking" the articles you like, you can search right away
Comments
No comments
Sign up for free and join this conversation.
If you already have a Qiita account
Why do not you register as a user and use Qiita more conveniently?
You need to log in to use this function. Qiita can be used more conveniently after logging in.
You seem to be reading articles frequently this month. Qiita can be used more conveniently after logging in.
  1. We will deliver articles that match you
    By following users and tags, you can catch up information on technical fields that you are interested in as a whole
  2. you can read useful information later efficiently
    By "stocking" the articles you like, you can search right away
ユーザーは見つかりませんでした