More than 1 year has passed since last update.

OpenACCとcuBLASを用いてGPGPU

Last updated at 2024-05-17Posted at 2023-04-28

はじめに

GPUをグラフィックスの処理だけでなくより一般的な用途にも活用する，いわゆるGeneral-Purpose GPU (GPGPU) は10年以上前からありました．GPGPUを行うためにはいくつかの方法があり，（うまくやれば）最も性能向上が期待できる方法がCUDAなどの専用言語を用いて開発する方法です．この方法は特に既存のプログラムのGPGPU化に適用するにはハードルが高いと考えられます．もう一つの方法としては，ディレクティブベースのOpenACCとベンダーが提供する最適化されたライブラリー用いる方法があり，こちらの方がより簡便にGPGPU化が行えると期待できます．この記事では，CUDAを使わずにGPGPU化を行う手法を，著者が実アプリケーションで遭遇したことのあるパターンの処理を行うサンプルコードを用いて説明したいと思います．

基本的な方針

数値計算では汎用的な行列演算や高速フーリエ変換が計算時間の多くを占めることがあり，このような演算は最適化されたライブラリーを用いることによって高速に処理することができます．

GPGPU環境にもcuBLASというBLASやcuFFTというFFTのライブラリーが存在するため，これらのライブラリーへのライブラリーコールを差し替えるだけで高速化が実現できるかもしれません．しかし，よく言われているようにCPUとGPUの間のデータ転送は低速なため，ライブラリーコールを差し替えるだけではここがボトルネックになり高速化が実現できないかもしれません．そこで，CPUとGPUの通信をなるべく少なくすることが望ましいです．CPUとGPUの通信を少なくするということは，すなわち一度GPUにデータを渡したらCPUに処理が帰ってくるまでになるべく多くの処理を行うことです．この部分をOpenACCによって記述することを基本的な考えとします．OpenACCによる並列化で対象箇所の高速化が実現できれば御の字ですが，仮にこの部分はさほど高速化されなかったとしても性能を阻害するCPUとGPU間のデータのやり取りを抑制できるだけでも有用なのではないかと考えています．

OpenACCについて

OpenACCってなに？

並列計算を行うための規格の一つで，別にGPGPUに特化した仕様ではありませんがGPGPUでよく使われるものです．ディレクティブベースなのでCUDAなどの専用言語にくらべ簡単に導入することができます．特に既存のプログラムをGPGPU化する場合コードの可搬性はできるだけ維持したいので，ディレクティブベースのOpenACCを採用するというのは（性能が十分にでるのであれば）有力な選択肢だと思います．

使える環境

Wikipediaによると「PGIとClayのコンパイラーで使える」とされていますが，PGIのコンパイラーは現在NVIDIAが所有し，NVIDIA HPC SDKの一部となっています．OpenACC自体は名前が示すようにオープンな規格のはずですが，NVIDIA以外のベンダーはあまり力を入れていないようです．

OpenACCのディレクティブ

今回の試作プログラムで用いるOpenACCのディレクティブについて説明します．コード例はいずれもFotranの場合です．

基本の書き方

Fortranの場合，!$accのあとにディレクティブを記述します．各ディレクティブはクローズ(clause)を持つ場合があり，それらはクローズ名(値)のような記法で指定します．複数のクローズを指定したい場合スペース区切りで記述します．長くなりそうな場合，Fortranの継続行のルールと同じ方法で継続させることができます．

data

CPUとGPUの間でデータをやり取りするためのディレクティブです．たとえば以下のように記述します．

!$acc data copyin(a) copyout(b) copy(c) create(work) present(d)
...
!$acc end data

!$acc dataにおいてGPU上でメモリーが確保され，!$acc end dataまで保持されます．dataは以下のクローズを持ちます

copyin: CPUからGPUへデータを送ります．入力配列をCPUで作り，GPUへ送る場合などに使います．
copyout: end dataのタイミングでGPUからCPUへデータを送られる配列を指定します．GPUの計算結果をCPUで用いたい場合に使います．
copy: 開始時にCPUからGPUへデータを送り，終了時GPUからCPUへデータを送ります．入力と出力両方を担う配列に使います．
create: GPU上にメモリーを確保します．転送は行われません．一時配列などに用います．
present>: GPU上にすでに確保されている配列であることを表します．必須ではありませんが，たとえば実際には確保していない配列を利用しようとする際に分かりやすいエラーで終了するので，なるべく指定した方が間違いを減らせそうです．

CPU 非並列	CPU16並列	GPGPU その1.	GPGPU その2.	GPGPU その3.
10.2	1.53	0.131	0.128	0.03

CPU 非並列	CPU16並列	GPGPU その1.	GPGPU その2.	GPGPU その3.
102	13.66	0.404	0.379	0.289

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

OpenACCとcuBLASを用いてGPGPU

はじめに

基本的な方針

OpenACCについて

OpenACCってなに？

使える環境

OpenACCのディレクティブ

基本の書き方

data

kernels

parallel

host_data

cuBLASについて

cuBLASってなに？

使える環境

今回用いるcuBLASの関数

試作コードとそのGPGPU化

試作コードの処理内容

試作コードのGPGPU化

その1. サブルーチンで完結するケース

その2. 二重ループ中のデータ転送を結果配列のみにする

その3. CPUとGPUの通信をなくす

コンパイル・リンク

検証

検証 1.

検証 2.

考察

終わりに