More than 3 years have passed since last update.

AIで遊べるデモサイト「AI World3」

Last updated at 2022-08-22Posted at 2022-08-22

はじめに

以前公開したAIのデモサイト「AI World2」に、7つのデモを追加し、計20デモになりました。スマホでも遊べるので、良かったら触ってみて下さい。

■サイトリンク
AI World

■環境
Python, AWS(Lightsail), Flask, Docker

デモ一覧

以前公開したものも含めた、デモの一覧は以下になります。

#	タイトル	内容	利用モデル
1	Digit Recognition	異常検知付き手書き文字認識	Deep Metric Learning LOF
2	Image Denoising	ノイズ画像のデノイズ	Win5-RB
3	Face Generation	存在しない人物の顔画像生成	StyleGAN
4	Face Transition	存在しない人物の顔画像のトランジション	StyleGAN
5	Face Manipulation	テキストでの顔画像編集	StyleCLIP
6	Human Detection	画像内の人物検出	YOLOv5
7	Object Detection	画像内のオブジェクト検出	YOLOv5
8	Image Inpainting	画像のマスク箇所の再構成	DeepFillv2
9	Instance Segmentation	画像内のオブジェクトのセグメンテーション	SOLO
10	Image Sampling	シングルショット画像からのサンプリング	SinGAN
11	Text to Image	テキストからの画像生成	GLIDE
12	Landscape Generation	風景画像生成	Lightweight GAN
13	Mask Tracking	動画でのインスタンスセグメンテーション	MaskTrack R-CNN
14	Anomaly Detection	欠陥を含む画像の教師なし異常個所検知	PaDiM
15	Skelton Estimation	動画内の人物骨格推定	OpenPose
16	Style Transfer	画像のスタイル変換	CycleGAN
17	Semantic Segmentation	画像のセマンティックセグメンテーション	PSPNet
18	Sky Replacement	動画内の空領域の検知とリプレイス	SkyAR
19	Super Resolution	画像超解像	LIIF
20	Video Inpainting	動画でのインペインティング	E2FGVI

今回追加したデモは、#14-20の7種類になります。
デモ#1-9については「AI World」、デモ#10-13については「AI World2」の過去記事をそれぞれ参照頂ければと思います。

以下、今回追加したデモについて簡単に紹介していきます。

※15, 18, 20の動画デモについてはGIF画像のサイズ制約上、本ページ上は画質がかなり低くなっているので、実際のデモサイトで見て頂ければと思います。

14. Anomaly Detection

こちらはPaDiMを用いた、教師なし異常箇所検知のデモです。

正常画像群から局所領域の埋め込みベクトルを学習し、未知画像に対して、正常画像で学習した埋め込みベクトルからの乖離度で異常の大きさを定義します。学習には正常画像しか使用しないため、汎用性の高い教師なし学習になっています。

自然言語処理でもよく利用される埋め込みですが、改めてその汎用性の高さを感じました。直感的にわかりやすい点も良いですね。

15. Skelton Estimation

こちらはOpenPoseを用いた、動画内の人物の骨格推定のデモです。

動画内の各人物領域における骨格を推定しています。インプットはあくまで動画のみで、少しわかりにくいですが、顔の輪郭も取れます。

このような一般的な動画に対しても概ね違和感のない推定ができており、目的に応じた適切な撮影環境を用意すれば、姿勢推定などかなり実用的なデータが取れる事がイメージできるかと思います。

16. Style Transfer

こちらはおなじみCycleGANを使った、画像のスタイル変換のデモです。

スタイル変換した画像を元の画像に戻せる制約(サイクル性)を課してGANを学習させる事で、画像の構成自体は変えずに、スタイルだけ変換した画像を生成することができます。やはりpix2pixと違い、1対1の画像を用意しなくても学習できる点が大きな利点ですね。

CycleGANについては馬をシマウマしたり、写真をモネ風にしたりといった画像があまりに有名だったので、かなり限定的なテクスチャ変更しかできないのかなと思っていたのですが、マップを航空写真にしたり、塗り絵のような建物のラベル情報を写真化したりと、想定以上にラディカルな変化にも対応できるという事に少し驚きました。これについては、どこまでいけるのかまた色々と試したいと思います。