More than 1 year has passed since last update.

マネージドノートブックにOpenCV環境を構築する

Posted at 2023-09-05

はじめに

こんにちは、京セラコミュニケーションシステム森田 (@kccs_kai-morita）です。

私は普段GoogleCloudのVertex AI Workbench マネージドノートブックを用いてデータサイエンス業務を行っています。このサービスは、JupyterLab環境を提供しており、データの探索や分析、モデリングなどのデータサイエンス作業に適しています。さらに、マシンのスペックを自由に変更できる上、GPUを使用することも可能です。もちろん、Google CloudのAI環境にも簡単にアクセスできるので、非常に便利に使っています。

しかし、最近、画像データを扱うことがあり、OpenCVが動作しない問題に直面しました。その理由は、OpenCVはlibgl1-mesa-devのインストールが必要なのですが、マネージドノートブックではapt-getを使用することができないからです（厳密には使用可能ですが、パスワードが求められます）。

そこで、OpenCVが動作する方法について調査しましたので、その結果をまとめたいと思います。

環境構築手順

マネージドノートブックでは、ノートブックファイルをカーネルとして実行しています。デフォルトではPythonをベースとしてTensorflowやPytorchなどのパッケージとツールが含まれている環境が用意されています。さらに、任意のコンテナをノートブックファイルを実行するカーネルとして追加することが可能です。これを利用することより、OpenCV環境を用意します。

手順としては下記の通りです。必要に応じてAPIを有効化してください。

Dockerfileを作成する
コンテナイメージをビルドし、Airtifact RegistryにPushする
マネージドノートブック新規インスタンス作成時に、イメージを指定する

Dockerfileを作成する

まずOpenCVに必要な依存関係を明記したDockerfileを作成します。ベースイメージ部分はこちらから選択してください。とくに機械学習フレームワークが不要であれば基本のPython CPU環境で問題ないです。

Google Cloudコンソール画面右上からCloud Shellにアクセスします。もちろん独自のdockerがビルドできかつGoogle Cloudにアクセスできる環境でも可能ですが、Cloud Shellを使う方が手っ取り早いです。マネージドノートブック内でもOK。
Dockerfileを作成しviコマンド等で編集します。

Cloud Shell

$ mkdir Dockerfile
$ vi Dockerfile

Dockerfileは以下の通りです。

Dockerfile

# ベースイメージとしてDeep Learning Containers から Python(CPU)を使用
FROM gcr.io/deeplearning-platform-release/base-cpu:latest

# 準備
RUN apt-get update && apt-get upgrade -y

# OpenCVの依存関係をインストール
RUN pip install opencv-python
RUN apt-get install -y libgl1-mesa-dev

コンテナイメージをビルドし、Airtifact RegistryにPushする

公式ドキュメントにはContainer RegistryにPushとありますが、Container Registryは非推奨です。

次のコマンドを使用して、コンテナイメージをビルドし、Airtifact RegistryにPushします。

Cloud Shell

export PROJECT=$(gcloud config list project --format "value(core.project)")
docker build . -f Dockerfile -t "asia-northeast1-docker.pkg.dev/${PROJECT}/notebook-container/opencv-container:latest"
docker push asia-northeast1-docker.pkg.dev/${PROJECT}/notebook-container/opencv-container:latest

2行目でビルドし、3行目でPushをしていますが、レポジトリ名およびコンテナ名は任意の名前で問題ありません。
全体でおよそ20分かかりました。

マネージドノートブック新規インスタンス作成時に、イメージを指定する

Vertex Workbenchにて新規マネージドノートブックを作成します。Google Cloudコンソール画面にて「Vertex AI」>「ワークベンチ」と選択し、画面上部から「新しいノートブック作成」を選択します。

「カスタムDockerイメージを指定する」のチェックボックスをオンにし、作成したAirtifact Registry上のコンテナイメージを選択します。

マネージドノートブック環境設定画面

残りの設定を任意で入力し、「作成」を押下すると作成したコンテナイメージをベースとしたカーネルが追加され、ノートブック一覧画面でも確認できます。

ノートブック一覧画面

作成が完了し、起動できる様になるとノートブック画面を開いてみましょう。Activity logがコンテナイメージを読み込み中の表示がしばらく続きますが、読み込み完了のマークが確認できるとOKです。
カーネル一覧から選択するか、新規ノートブックファイル作成時に、読み込んだコンテナイメージを選択すれば、使用できるようになります。

Activity log完了の表示

数十分待っても読み込みが完了しない場合は、権限周りに問題があるかも知れません。
ノートブック作成時に指定したアカウントに「Artifact Registry 管理者」の権限を追加するとマネージドノートブックがコンテナイメージを読み込みできるようになるでしょう（それより弱い権限でも可能かもしれません）。

おわりに

公式サイトや他の記事を参考にあっちこっち飛び回りながらなんとか自作コンテナイメージをベースにすることができました。一番苦労したのは最後の権限周りで、読み込みが終わらないなと思って1時間ほど待っていると、自動シャットダウン機能でいつの間にかマシンが落ちていました。これを2回ほど繰り返してから気づきました。
この記事を書いている最中、Google Cloud Nextが開催されており、Colab Enterpriseというものが発表され現在プレビューで公開されているようです。Google ColabをベースにしているのでVertex Workbenchのようにインスタンス作成不要で、ノートブックファイル単位でマシンのインスタンスを割り当てられます。複数人で同じワークベンチを触るよりは使いやすそうです。またDuet AIによるコード補助機能もあり、少し触ってみましたが少し打ち込んだコードから推測して残りのコードを書いてくれて便利でした。ただ、今回の記事で紹介したような自作のコンテナイメージをベースにする機能は今のところなさそうでした。そのため、OpenCVは使用できないかもしれません。それぞれのサービス使い分けが必要になりそうです。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up