More than 3 years have passed since last update.

Colaboratory でそのまま使えるようにした強化学習と転移学習の雛形2種

Last updated at 2020-12-02Posted at 2018-05-27

雛形プログラムを2019年5月のkerasとpython3で動くように更新した。以前のグーグルアカウントが消滅したので、新しいグーグルフォルダにおきなおした。

Google Colaboratory でそのまま各セル左上の再生ボタンを押すだけで動くようにした雛形2種をこのグーグルドライブ公開フォルダに置いた。フォルダに置いてあるノートブックをそのままColabで実行出来るが、以下その概要を紹介する。詳しい使い方はColabノートブック内のコメント欄を見て欲しい。

転移学習による物体識別: PythonとKerasによるディープラーニングの5章を参考にして、比較的少ない学習データで犬と猫を識別させる雛形を作った。与える学習データを換えれば何でも識別出来る（はず）
強化学習を用いた教師なしの重力四目並べを打つ雛形: PythonとKerasを使ってAlphaZero AIを自作するにGoogle Alpha Zeroの方法を用いて全く教師データ無しに重力つき四目並べの打ち方を学ぶサンプルプログラム(著作権はGPLv3)がついているが、これをGoogle Colab (Python 3)で動かすと結構エラーが出て動かない（特に人間相手に対戦する部分のコード）ので、それを修正し、さらにGoogle Colabで9時間学習したニューラルネットも添付して人間が学習したニューラルネット相手にすぐに対戦できるようにした。私は9時間学習したニューラルネット相手に勝てません。
これはまったく学習データを与えず、ゲームのルールを(Pythonプログラムとして) 与えるだけで強い打ち手を学習するところに感動した。Alpha Zeroの解説本として「最強囲碁AI アルファ碁解体新書増補改訂版アルファ碁ゼロ対応深層学習、モンテカルロ木探索、強化学習から見たその仕組み (7月発売予定)」が気になっている。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up