文字起こしアプリケーションの作成時に発生した不具合が解消できたため、一部内容を共有します。
アプリケーション概要
faster-whisperを使用した文字起こしのアプリケーションを実装しました。
設計詳細
文字起こしを実施する時はGPUを活用したいため、CUDAを導入することにした。
開発環境
ubunt22.04のdocker環境
エラーメッセージ
Unable to load any of {libcudnn_cnn.so.9.1.0, libcudnn_cnn.so.9.1, libcudnn_cnn.so.9, libcudnn_cnn.so}
Invalid handle. Cannot load symbol cudnnCreateConvolutionDescriptor
エラー解消の方法
ライブラリのバージョンを指定して解消
CUDA:12.0.0
ctranslate2==4.5.0
torch==2.5.1
torchvision==0.19.1
torchaudio==2.5.1
参考サイト
以下のissuesが参考になりました。
調べてみるとCUDA×CTranslate2は結構不具合があるようですので
色々と試行錯誤をしてアプリケーションが動くようになりました。
各種ライブラリに関する内容
https://github.com/SYSTRAN/faster-whisper/issues/1086
ctranslate2==4.5.0を推奨していた内容
https://github.com/m-bain/whisperX/issues/902