More than 3 years have passed since last update.

Databricks機械学習ランタイムを用いた動画における不審な振る舞いの検知

Last updated at 2021-10-14Posted at 2021-10-13

Identify Suspicious Behavior in Video with Databricks Runtime for Machine Learning - The Databricks Blogの翻訳です。

Databricksで一連のノートブックを試す。

カメラと動画の指数関数的な増加に伴い、動画の識別と分類のプロセスの運用、自動化が非常に重要になってきています。適切な猫の識別から、オブジェクトの見た目に基づく分類に至る様々なアプリケーションがより一般的になってきています。世界中の数百万のユーザーが、1日当たり数十億分の動画を生成、消費しているため、これらの膨大な規模のデータを取り扱うことのできるインフラストラクチャが必要となります。

急激にスケールできるインフラストラクチャの複雑性、複数の機械学習、ディープラーニングパッケージの管理、高パフォーマンスな計算処理によって、動画処理は複雑かつわかりにくいものになりえます。このミッションが与えられたデータサイエンティストとデータエンジニアは、継続的に数多くのアーキテクチャ上の疑問に直面します。

構築するインフラストラクチャはどのようにスケールし、どこまでスケーラブルであるべきか？
処理の重いデータサイエンス部分に対して、Apache Sparkのインフラストラクチャに加え、どのように様々な機械学習、ディープラーニングパッケージを連携、維持できるのか？
データエンジニア、データアナリスト、データサイエンティスト、そして、ビジネス上のステークホルダーはどのように連携したらいいのか？

この問題に対する我々のソリューションが、企業内の異なるペルソナの人たちが協働できるようにするためのDatabricksノートブック、コラボレーション、ワークスペース機能を提供するDatabricksのレイクハウスプラットフォームです。Databricksには、XGBoost、scikit-learn、TensorFlow、Keras、Horovodなどの機械学習フレームワークが設定済みで、最適化されているDatabricks機械学習ランタイムが含まれています。DatabricksはAWS、Azureの両方で、コスト削減のために最適化されたオートスケーリング機能やGPUサポートを提供しています。

この記事では、不審な動画を分類、識別するために、Databricks機械学習ランタイムを用いて、どのようにApache Sparkの分散処理機能とディプラーニングパイプラインを組み合わせるのかをご説明します。

不審な動画の分類

我々のシナリオにおいては、EC Funded CAVIAR project/IST 2001 37540データセットから得られる一連の動画を使用します。CAVIARチームメンバによって演じられた6つの基本的なシナリオのクリップを使用します。

歩く
眺める
休んでいる、バタンと倒れる、フラフラする
バッグを置いていく
人々、グループが集まっている、一緒に歩いている、別れる
2人が戦っている

この記事と関連するDatabricksノートブックでは、前処理、画像特徴量の抽出、動画に対する機械学習モデルの適用を行います。

ソース: CAVIARメンバーによる戦闘シーンの再現 - EC Funded CAVIAR project/IST 2001 37540 http://groups.inf.ed.ac.uk/vision/CAVIAR/CAVIARDATA1/

例えば、トレーニング用のビデオデータセットから抽出した異なる画像セットに対してトレーニングした機械学習モデルを適用することで、テスト用データセットから以下のような不審な画像を識別します。

ハイレベルのデータフロー

以下の画像では、ロジスティック回帰モデルをトレーニング、テストするためにソース動画を処理するためのハイレベルのデータフローを示しています。

ハイレベルのデータフローにおいては以下の処理を行います。

ビデオ: トレーニング、テストデータセット(トレーニング用のビデオ、テスト用のビデオ)としてEC Funded CAVIAR project/IST 2001 37540によるINRIA(最初のビデオ)のクリップを活用します。
前処理: トレーニング用の画像、テスト用の画像を生成するために動画から画像を抽出します。
DeepImageFeaturizer: SparkのディープラーニングパイプラインのDeepImageFeaturizerを用いて、トレーニング用、テスト用の画像の特徴量セットを生成します。
ロジスティック回帰: 不審な振る舞いか、不審ではない画像の特徴量(最終的には動画のセグメント)を分類するためにロジスティック回帰モデルのトレーニング、フィッティングを行います。

この処理を実行するのに必要なライブラリは以下の通りとなります。

h5py
TensorFlow
Keras
Spark Deep Learning Pipelines
TensorFrames
OpenCV

Databricks機械学習ランタイムを用いると、Keras、TensorFlow、Spark Deep Learning pipelinesでディープラーニングパイプラインを実行できるように、OpenCV以外は事前インストール、設定された状態で利用できます。Databricksを用いることで、オートスケールするクラスター、複数のタイプのクラスター、そして、コラボレーション、複数言語のサポートするワークスペースを利用でき、エンドツーエンドの分析要件に応えるDatabricksのレイクハウスプラットフォーム活用できるメリットを享受できます。

ソース動画

動画処理をすぐにスタートできるように、CAVIAR Clips from INRIA (1st Set) videos [EC Funded CAVIAR project/IST 2001 37540]を/databricks-datasetsにコピーしています。

トレーニング用動画 (srcVideoPath): /databricks-datasets/cctvVideos/train/
テスト用動画 (srcTestVideoPath): /databricks-datasets/cctvVideos/test/
ラベル付きデータ (labeledDataPath): /databricks-datasets/cctvVideos/labels/cctvFrames_train_labels.csv

前処理

最終的には、動画に含まれる個々の画像の特徴量に対して、機械学習モデル(ロジスティック回帰)を実行します。最初のステップ(前処理)は動画から個々の画像を抽出します。アプローチの一つは、以下のコードスニペットにあるように、1秒あたりの画像を抽出するためにOpenCVを用いるというものです。

Python

## Extract one video frame per second and save frame as JPG
def extractImages(pathIn):
   count = 0
   srcVideos = "/dbfs" + src + "(.*).mpg"
   p = re.compile(srcVideos)
   vidName = str(p.search(pathIn).group(1))
   vidcap = cv2.VideoCapture(pathIn)
   success,image = vidcap.read()
   success = True
   while success:
      vidcap.set(cv2.CAP_PROP_POS_MSEC,(count*1000))
      success,image = vidcap.read()
      print ('Read a new frame: ', success)
      cv2.imwrite("/dbfs" + tgt + vidName + "frame%04d.jpg" % count, image)     # save frame as JPEG file
      count = count + 1
      print ('Wrote a new frame')

この場合、DBFS(Databricksファイルシステム)に保存されている動画を抽出し、OpenCVのVideoCaptureメソッドを用いて、画像フレーム(1000msごと)を作成し、これらのDBFSに保存します。こちらのノートブックで完全なコードサンプルにアクセスすることができます。

画像を抽出した後で、以下のコードスニペットを用いて抽出画像を読み込み、参照することができます。

Python

from pyspark.ml.image import ImageSchema

trainImages = ImageSchema.readImages(targetImgPath)
display(trainImages)

アウトプットは以下のようになります。

このタスクをトレーニング用、テスト用の動画に対して実行します。

DeepImageFeaturizer

A Gentle Introduction to Transfer Learning for Deep Learningに記されているように、転移学習は、あるタスク(例:車の画像識別)に対してトレーニングされたモデルを別のタスク(例:トラックの画像識別)に適用するテクノロジーです。我々のシナリオでは、画像に対する転移学習を実行するためにSparkのDeep Learning Pipelinesを使用します。

ソース: TensorFlowのインセプション

以下のコードスニペットにあるように、これらの画像を数値の特徴量に変換するために、事前学習済みニューラルネットワークの最終例やを自動で抽出するためにDeepImageFeaturizer の中でInception V3 model(TensorFlowにおけるインセプション)を使用します。

Python

# Build featurizer using DeepImageFeaturizer and InceptionV3 
featurizer = DeepImageFeaturizer( \
    inputCol="image", \
    outputCol="features", \ 
    modelName="InceptionV3" \
)

# Transform images to pull out 
#   - image (origin, height, width, nChannels, mode, data) 
#   - and features (udt)
features = featurizer.transform(images)

# Push feature information into Parquet file format
features.select( \
  "Image.origin", "features" \
).coalesce(2).write.mode("overwrite").parquet(filePath)

画像のトレーニング用データセット、テスト用データセットの両方は、DeepImageFeaturizerを用いて処理され、最終的にはParquetファイルにfeaturesとして保存されます。

ロジスティック回帰

以前のステップでは、OpenCVとSpark Deep Learning PipelinesのDeepImageFeaturizer(および、Inception V3)を用いてソースのトレーニング用動画、テスト用動画を画像に変換し、Parquetフォーマットとして特徴量を保存するプロセスをウォークスルーしました。この時点で、MLモデルをフィッティング、テストする一連の数値の特徴量を手に入れたことになります。我々はトレーニングデータセット、テストデータセットを持っており、画像(および、関連づけられている動画)が不審な行動を示しているのかどうかを分類しようとしているので、ロジスティック回帰を試すことができる典型的な教師あり分類問題に帰着することができます。

ソースデータセットにはラベル付きデータのCSVファイル(画像フレームと不審フラグのマッピング)を含むlabeledDataPathがあるため、このユースケースでは教師あり学習となります。以下のコードスニペットで、手動でラベル付けがなされたデータ(labels_df)を読み込み、トレーニングデータセットを作成するために、これとトレーニング用の特徴量Parquetファイル(featureDF)を結合します。

Python

# Read in hand-labeled data 
from pyspark.sql.functions import expr
labels = spark.read.csv( \
    labeledDataPath, header=True, inferSchema=True \
)
labels_df = labels.withColumn(
    "filePath", expr("concat('" + prefix + "', ImageName)") \
).drop('ImageName')

# Read in features data (saved in Parquet format)
featureDF = spark.read.parquet(imgFeaturesPath)

# Create train-ing dataset by joining labels and features
train = featureDF.join( \
   labels_df, featureDF.origin == labels_df.filePath \
).select("features", "label", featureDF.origin)

これで、以下のコードスニペットにあるようにデータセットに対して、ロジスティック回帰モデル(lrModel)をフィットできるようになります。

Python

from pyspark.ml.classification import LogisticRegression

# Fit LogisticRegression Model
lr = LogisticRegression( \
   maxIter=20, regParam=0.05, elasticNetParam=0.3, labelCol="label")
lrModel = lr.fit(train)

モデルをトレーニングした後で、テストデータセットに対して予測を生成することができます。すなわち、我々のLRモデルに、どのテスト用動画が不審であるかどうかを予測させます。以下のコードスニペットにあるように、Parquetからテストデータ(featuresTestDF)をロードし、上でトレーニングしたモデル(lrModel)を用いて、テストデータに対する予測(result)を行います。

Python

from pyspark.ml.classification import LogisticRegression, LogisticRegressionModel

# Load Test Data
featuresTestDF = spark.read.parquet(imgFeaturesTestPath)

# Generate predictions on test data
result = lrModel.transform(featuresTestDF)
result.createOrReplaceTempView("result")

これで、テストランによってresultを得られるので、ソートできるようにprobabilityベクトルの2つ目の要素(prob2)を抽出できます。

Python

from pyspark.sql.functions import udf
from pyspark.sql.types import FloatType

# Extract first and second elements of the StructType
firstelement=udf(lambda v:float(v[0]),FloatType())
secondelement=udf(lambda v:float(v[1]),FloatType())

# Second element is what we need for probability
predictions = result.withColumn("prob2", secondelement('probability'))
predictions.createOrReplaceTempView("predictions")

我々のサンプルにおいては、predictionsデータフレームの最初の行は画像をprediction = 0で不審ではないと分類しています。ここでは、ロジスティック回帰を使用しているので、probabilityの(firstelement, secondelement)のStructTypeは、 (prediction = 0の確率, prediction = 1の確率)を意味しています。ここでは、不審な画像をレビューすることにフォーカスしていますので、2つ目の要素(prob2)でソートします。

不審な画像を確認するために、(where prediction = 1)をprob2で並び替える以下のSpark SQLクエリーを実行します。

Python

%sql
select origin, probability, prob2, prediction from predictions where prediction = 1  order by prob2 desc

上の結果に基づき、不審であると判定されたトップ3のフレームを参照することができます。

Python

displayImg("dbfs:/mnt/tardis/videos/cctvFrames/test/Fight_OneManDownframe0024.jpg")

Python

displayImg("dbfs:/mnt/tardis/videos/cctvFrames/test/Fight_OneManDownframe0014.jpg")

Python

displayImg("dbfs:/mnt/tardis/videos/cctvFrames/test/Fight_OneManDownframe0017.jpg")

結果に基づいて、以下のようにクイックに動画を特定することができます。

Python

displayDbfsVid("databricks-datasets/cctvVideos/mp4/test/Fight_OneManDown.mp4")

ソース: CAVIARメンバーによる戦闘シーンの再現 - EC Funded CAVIAR project/IST 2001 37540 http://groups.inf.ed.ac.uk/vision/CAVIAR/CAVIARDATA1/

まとめ

ここまでで、コラボレーションとMLモデル、動画、抽出画像の可視化を可能にするDatabrikcsワークスペース、ライブラリのメンテナンスをシンプルにするために、Keras、TensorFlow、TensorFramesや他の機械学習、ディープラーニングライブラリが事前設定されているDatabricks機械学習ランタイム、ハイパフォーマンス数値計算をスケールアップ、スケールアウトするためにGPUサポートも備えた最適化オートスケーリングクラスターを提供するDatabricksのレイクハウスプラットフォームを用いて、どのように不審な動画を分類、識別するのかをデモンストレーションしました。これらのコンポーネントを統合することで、あなたと他のデータ実践者が取り組む動画分類のデータフローと管理をシンプルなものにします。ぜひ、Databricks機械学習ランタイムでサンプルノートブックを試してみてください。

翻訳したノートブックはこちらからダウンロードできます。

Databricks 無料トライアル

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up