More than 5 years have passed since last update.

BigQuery MLでTensorFlowのモデルを呼び出す

Posted at 2019-07-29

Qiitaには初投稿です。
今回は、「BigQuery MLからTensorFlowのモデルを呼び出してみた！」というやってみた系の記事を書いてみます。

そもそもBigQuery MLとは？

BigQuery(以下BQ)はGoogle謹製のデータウェアハウス。大量のデータを短時間で捌けることが魅力
BigQuery ML(以下BQML)はそれに機械学習の機能をのっけたもの。なんとSQLだけで機械学習ができる。
BQMLはGoogle Cloud Next 2018で発表された。当初、利用できるアルゴリズムは「線形回帰」と「ロジスティック回帰」に限定
Google Cloud Next 2019(筆者もSF現地に行きました)で、BQMLの新機能が発表される
そのうちの1つがTensorFlow modelをimportできるようになること。発表ではアルファ版と発表されていたがいつの間にかベータ版になっていた

大体の流れ

公式ドキュメントはこちら。
この記事の執筆当時(2019/07/29)には日本語はまだありませんでした。
ドキュメントに情報量はさほど多くないですが、ざっと以下のような流れでBQMLからTFモデルを呼び出せるようです。

TensorFlowのModelを何かしらの環境(私はGoogle Colabをよく使います)でつくる
Google Cloud Storage(以下GCS)上に、SavedModel形式で保存したTensorFlowのモデルを置く
TensorFlowを呼び出すモデルをSQLで作成する
BQに画像情報のテーブルを作成する
SQLでTensorFlowモデルを呼び出す旨を記述

とっても簡単ですね！
…と思っていたらそこそこ詰まったので、メモとして残しておきます。

※なお、BQMLの他のアルゴリズムとは異なり、SQLでTensorFlowモデルを作成/訓練できるわけではないです。TensorFlowモデルを関数として利用できるというイメージ。

TensorFlowモデルの作成

ここでは簡単な画像分類モデルを作成
Food-101データセットから「ドーナツ」「餃子」「ホットドッグ」「ピザ」「ラーメン」「寿司」の6種類をピックアップ(そのとき食べたかったもの)
クラスごとに1000枚あるデータを、train/val/test=800/195/5に分割(testは今回は疎通確認に使うだけなのでオマケ)
imagenetで訓練されたMobileNetV2をFineTuningしてモデルを作成
tensorflow.kerasが利用できる(KerasユーザーでナマのTensorFlowに慣れていなくても大丈夫)
ここはBQMLとあまり関係ないので、MobileNetV2についてとかFineTuningの意味とかは省略

import numpy as np
import tensorflow as tf
import tensorflow.keras.backend as K
from tensorflow.keras.applications import MobileNetV2
from tensorflow.keras.models import Model
from tensorflow.keras.layers import Input, Dense, Lambda
from tensorflow.keras.optimizers import SGD
from tensorflow.keras.preprocessing.image import ImageDataGenerator

Kerasを直でimportするのではなく、tensorflow.kerasにしましょう。基本的には代替できるはず。


classes = ['donuts', 'gyoza', 'hot_dog', 'pizza', 'ramen', 'sushi']
img_height = 224
img_width = 224

mob = MobileNetV2(include_top=False, weights='imagenet', input_shape=(img_width, img_height, 3))
X = mob.output
X = GlobalAveragePooling2D()(X)
out = Dense(len(classes), name='prediction', activation='softmax')(X)

finetune_model = Model(inputs=mob.input, outputs=out)
for layer in finetune_model.layers[:-13]:
  layer.trainable = False

訓練済みモデルをピョロッと引っ張ってこられるのはKerasの良いところですね。
-13が示すのは最後のblockだけFineTuningするよという意味です。気になったらsummaryでも叩いてみてください。


train_datagen = ImageDataGenerator(rescale=1./255,
                                  zoom_range=[0.8, 1.2],
                                  rotation_range=20,
                                  width_shift_range=0.1,
                                  height_shift_range=0.1,
                                  horizontal_flip=True,
                                  fill_mode='nearest'
                                  )
train_generator = train_datagen.flow_from_directory('dir_train',
                                                    target_size=(img_height, img_width),
                                                    batch_size=32,
                                                    class_mode='categorical'
                                                   )
val_datagen = ImageDataGenerator(rescale=1./255)
val_generator = val_datagen.flow_from_directory('dir_val',
                                               target_size=(img_height, img_width),
                                               batch_size=32,
                                               class_mode='categorical'
                                               )

finetune_model.compile(loss='categorical_crossentropy',
              optimizer=SGD(lr=0.001),
              metrics=['accuracy']
              )
finetune_model.fit_generator(train_generator,
                             epochs=10,
                             validation_data=val_generator
                             )

適当にData Augmentationして実行しましょう。精度は今回は二の次なので、10epochsだけ回します。
ColabのGPUを利用して、1epochあたり80秒前後でした。軽いモデルはいいですね。
なお詳細は省略しますが、val_accは0.8540と想定してたより高く出ました。

さて、ここからが今回のために必要なところです。
BQには画像データをカラムにそのまま突っ込むみたいなことはできなくて、base64の文字列で代替します。
すなわち、保存するモデルのinputはstring型である必要があります。
現在のモデルのinputは(None, 224, 224, 3)のshapeをもったテンソルなので、stringをそのテンソルに変換する処理を書きましょう。


def preprocess_and_decode(img_str, new_shape=[224, 224]):
  img = tf.io.decode_base64(img_str)
  img = tf.image.decode_jpeg(img, channels=3)
  img = tf.image.resize_images(img, new_shape)
  return img

transform_input = Input(shape=(1,), dtype='string')
transform_output = Lambda(lambda img: tf.map_fn(lambda im: preprocess_and_decode(im[0]), img, dtype='float32'))(transform_input)
transform_model = Model(transform_input, transform_output)

serve_input = transform_model.input
serve_x = finetune_model(transform_model.output)
serve_output = K.argmax(serve_x)
serve_model = Model(serve_input, serve_output)

Lambdaをゴチャゴチャと使うことで、tensorflowの関数のみでデータ変換を実現することができます。
最後にこれらのモデルとガッチャンコしてあげることで、最終的なモデルができあがります。
なお、MobileNetV2の出力はクラスそれぞれのスコアで、ここでは要素数が6(クラスの数)のベクトルです。
ここでは一番確率が高いクラスを出力したかったので、argmaxをとってそのインデックスを出力しています。
(インデックスはクラス名の辞書順でつけられるので、ここではdonuts, gyoza, hot_dog, pizza, ramen, sushiの順になります。
本当はクラス名を直接出力したかったのですがいい方法が思い浮かびませんでした)
それでは、このモデルをSavedModel形式で保存しましょう。


with K.get_session() as sess:
  tf.saved_model.simple_save(
      sess,
      'saved_model',
      inputs={'inputs': serve_model.input},
      outputs={'outputs': serve_model.output}
  )

Kerasマンからするとセッションとは何ぞやとなりがちですが、simple_saveを利用することで簡単にモデルを保存できます。
saved_modelフォルダにsaved_model.pb(グラフのメタ情報)とvariablesフォルダ(重み/バイアスとかの情報)が作成されるので、フォルダごとまるっと保存しましょう。
これでモデルの作成は終了です。
(特にモデルをくっつけるあたり、稚拙なコードになってしまったなあとも思うので、「こういう書き方のほうがいいよ」みたいな指摘があれば是非。)

GCSにTensorFlowのモデルをアップロード

やるだけです。コンソールからでも不足ないです。
リージョンはとりあえずus-east1で動かしましたが、そういえば東京では調べて/試していません。すみません。

BQ上でモデルの作成

BQMLでは一般に、CREATE MODEL句でモデルを作成し、ML.PREDICT句で予測します。
TensorFlowのモデルを呼び出す場合も同様ですが、CREATE MODEL句でモデルそのものを作成するわけではありません。
ML.PREDICTを記述するためのモデルの箱を作ってあげるという感じですかね。
まずデータセットを作成し、データセット下で以下のようなクエリを送信しましょう。


CREATE MODEL your_dataset_name.your_model_name
 OPTIONS(MODEL_TYPE='TENSORFLOW',
         MODEL_PATH="gs://path/to/saved_model/*")

無論データセット名、保存するモデル名、GCS上のパスなんかは各自で変えてください。(パスの*はそのまま残しましょう)
ちゃんとモデルが生成できたらSavedModelがうまく機能しているといえるでしょう。

BQに画像情報のテーブルを作成する

ある種当然ですが、BQMLにおける予測は基本的にBQ上のデータに対して行われます。
それでは、クエリの対象となるデータを作成しましょう。
csvを作成し、それをソースにテーブルを作るのが(小規模であれば)個人的には楽かなと思います。


labels = ['donuts', 'gyoza', 'hot_dog', 'pizza', 'ramen', 'sushi']
img_info_list = []
for label in labels:
    img_path_list = os.listdir(os.path.join('dir_test', label))
    for img_path in img_path_list:
        img_info = [img_path, label]
        with open(os.path.join(base_dir, label, img_path), 'rb') as f:
            data = f.read()
            encode = base64.urlsafe_b64encode(data)
            img_info.append(str(encode)[2:-1])
        img_info_list.append(img_info)

output_df = pd.DataFrame(img_info_list, columns=['image_name', 'label', 'image_encoded'])

コードはだいぶ適当ですが、要は画像をbase64形式に変換してcsvに突っ込めばOKです。
どうやらurlsafeのbase64を使う必要があるようです。(普通のbase64から+を-に、/を_に変えたものと等しいです)
あとはエンコードした生の文字列はbyte列用にb'xxxxxxx...'となっているはずなので、csvに文字列として突っ込む上ではbと'を省くのがよさそうです。[2:-1]をつけているのはそれが理由ですが、もうちょっとエレガントな方法もありそうですね。
csvができたらBQ上にimportしてテーブルを作成しましょう。

SQLでTensorFlowモデルを呼び出す

いよいよ予測です。
(ファイル名, 実ラベル, 予測ラベル)という出力をしたかったので、こんなクエリにしてみました。


WITH 
 table_0 AS (
  SELECT
   ['donuts', 'gyoza', 'hot_dog', 'pizza', 'ramen', 'sushi'] AS labels
  ),
 table_1 AS (
  SELECT 
   image_name,
   outputs
  FROM
   ML.PREDICT(MODEL your_dataset_name.your_model_name,
      (
       SELECT
        image_name,
        image_encoded AS inputs
       FROM
        `your_dataset_name.your_table_name`
      )
    )
  ),
  table_2 AS (
   SELECT
    image_name,
    label
   FROM
   `your_dataset_name.your_model_name`
  )

SELECT 
 table_1.image_name,
 label,
 labels[OFFSET(output)] AS predict_label
FROM
 table_0,
 table_1
JOIN
 table_2
ON 
 table_1.image_name = table_2.image_name

結果としては以下のような出力がされます。

行	image_name	label	predict_label
1	xxxx.jpg	donuts	donuts
2	xxxx.jpg	donuts	donuts
3	xxxx.jpg	gyoza	gyoza
4	xxxx.jpg	gyoza	sushi
...	...	...	...

私自身はSQLの達人とかではなくてクエリも稚拙ですが、BQ(というかMySQL)ではWITH句を作ると読みやすいかなと思っています。
ここで注意が必要なのはML.PREDICT(table_1)における入出力で、image_encoded AS inputsやSELECT outputsという記述をしています。
このinputsとoutputsはSavedModel形式で保存したときの入出力の名前(with K.get_session() as sess:で始まるブロック)に依存しています。ここの名前を変えた場合でもクエリのほうで調整することで実行することができました。

画像サイズによっては予測する画像数が増えるとOut Of Memoryが発生する可能性があります。
そういう場合はリサイズした画像情報を格納するとか、PREDICTブロック下にLIMIT句をおくとかで対応しましょう。

BQMLでTensorFlowを呼ぶメリットは？

今回は接続できただけで満足してしまったので、どれぐらいスケールメリットがあるの？といったことについて調べられてなく、今後いろいろ試してみます。
しかしおそらくですが、GCS上のモデルに大量にアクセスするとそこがボトルネックになってしまい、実行速度は大して速くならないのかなと想定しています。
BQ内の計算は非常に速いので、画像のEmbeddingを出力するモデルをつくって、類似度をBQ内で計算するみたいなフローには強いのかもしれませんね。
また今回は画像で一番簡単ともいえる分類タスクにしましたが、これが物体検出やらVAEやらでも同様に実現できるのかはトライしてみます。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up