最もシンプルな環境の強化学習を書いてみた
概要 最も単純な環境で強化学習を構築してみます.2次元のランダムウォークを参考にして,上下左右に動く点粒子をエージェントと設定します. 今回は離散型の強化学習を前提にしているため,上下左右の...
14 search resultsShowing 1~14 results
概要 最も単純な環境で強化学習を構築してみます.2次元のランダムウォークを参考にして,上下左右に動く点粒子をエージェントと設定します. 今回は離散型の強化学習を前提にしているため,上下左右の...
概要 自然言語には係り受け構造が存在し,その構造から文をグラフ化することができます.それを踏まえてVGAEなどのグラフ生成の手法から自己回帰以外の文生成がしたいという要求があります.(未実現) ...
概要 MAEのコラ画像生成の能力を測るため,軽い実験をしてみます.ちなみにMAEとはBERTのように入力画像のMASK部分を復元するようなモデルです. 用意 facebook research公...
概要 自己対戦による強化学習を試していきます.学習アルゴリズムはPPOを使わせていただきました. 三目並べ いわゆるマルバツゲーム(3×3)です. コード インポート類 import tor...
概要 強化学習の環境のド基礎CartPoleをやっていきます. 強化学習のひな型コードのつもりなので,出来るだけシンプルに実装していきます. 準備 pip install gym 環境 Cart...
概要 最近はViT方面でTransformerのSelf-Attention部分が一般化され,トークン方向の情報を混ぜるTokenMixerとか呼ばれています. SOTAではありませんが,Tok...
概要 Transformerエンコーダを使ってグラフデータを扱います.非自己回帰型のエンコーダでグラフのエッジに合わせた特殊なmaskを行います. ちなみにこちらで解説されている論文ではもっと...
概要 本記事では言語モデルであるGPT-2を強化学習でfine-tuningしていきます.学習済みのGPT-2は分け隔てない大量の文章で学習されているため,標準的な文章の出力を行うように学習さ...
ネガティブな感情の文ばかり出力するGPT-2 過去の記事で,サンプリングした文が負の感情を持つ確率を報酬としてGPT-2を強化学習しました.このモデルで遊んでみます.鬱ツイートのような文が大量...
概要 PyTorch様公式のTransformer実装が複雑怪奇だったため,より簡素な実装をしていきます.公式とは逆にbatch firstな点を注意してください. ※今回は自己回帰型のエン...
概要 Grad-CAMはCNNベースのモデルに対しての視覚的な説明を作成する手法です.本記事ではGrad-CAMを言語処理モデルBERTに実装することでどのような結果になるかを確認していきます...
概要 本記事では言語生成において,事前に文章の特徴に関する情報を与えた状態で学習することで,文章生成を簡単に制御できるのではないかと考えました.学習時に与えた情報を生成時にも与えながら予測する...
概要 本記事では簡単な話者識別をしていきます.音声データは日本声優統計学会様からお借りしました.1秒間の音声ファイルをサンプリングして学習推論します. (注意)モデルとしてgMLPを使っていま...
概要 BERTベースの深層距離学習をやってみます.今回は深層距離学習の中でも,Siamese Networkと呼ばれるモデルを作っていきます. 準備 python = "3.6.8" py...
14 search resultsShowing 1~14 results
Qiita is a knowledge sharing service for engineers.