More than 3 years have passed since last update.

ちゅらデータ Advent Calendar 2020

Windowsでお試しで自然言語処理のデバッグをやってみる。with VSCode

Last updated at 2020-12-21Posted at 2020-12-18

メリークリスマス。
老後はサンタクロース協会に入って、子どもたちに夢を与えたいと思っている人です。

ところで、皆さんWindowsは好きですか？私は大好きです。
※愛用機は[Surface Laptop3] (https://www.microsoft.com/ja-jp/p/surface-laptop-3/8vfggh1r94tm?activetab=overview)

しかし、Windows機はデータ分析界隈では使っている人が少ないせいなのか、最新の分析ライブラリやフレームワークはWindows対応が不十分なケースが多く、環境構築に苦戦するシーンがあります。

Windows機しかもっていない開発者の皆様でも「データ分析やりたい」,「自然言語処理やりたい」など素敵なモチベーションをもっているけど、「Macが支給されていなくて　(´·×·`)・・・Startできないよ(SIer関連様）」とお悩みの方の為に、本記事では、自然言語処理のプログラムをVSCode+Dockerで実行する手順について紹介いたします。
Let's Dive into Docker for Debugging!!!

※私はSIer出身です。

1. デバッグを試してみる自然言語処理のテーマ

今回は、自然言語処理のタスクである「感情分析」の初歩的なコードでTryします。
　※感情分析：与えられた文章が「ポジティブ or ネガテイブ」なのか判定

利用するフレームワークは自然言語処理に特化したHuggingFaceを利用します。
参考記事: 自然言語処理（NLP）で注目を集めているHuggingFaceのTransformers

2. 実行例

# INPUT
text = ['めっちゃええで',
       '今日は調子が悪い',
       '微妙だ',
       'まぁまぁやな',
       '良いとは思わない']

------------------------------------------------------------------------
# OUTPUT
[[{'label': 'ポジティブ', 'score': 0.9899728894233704}] #めっちゃええで
[{'label': 'ネガティブ', 'score': 0.8069409132003784}]  #今日は調子が悪い
[{'label': 'ネガティブ', 'score': 0.7249351143836975}]  #微妙だ
[{'label': 'ポジティブ', 'score': 0.6537005305290222}]  #まぁまぁやな
[{'label': 'ネガティブ', 'score': 0.9345374703407288}]  #良いとは思わない

任意のテキストを入力して、そのテキストがPositive/Negativeか判定できるプログラムを動かしましょう。
わくわくしますね。

3. 前提とする条件

以下の環境が準備されている事を前提とします。
※念の為、インストール手順の参考情報をつけておきました。

WSL2がインストールされていること
→ 手順:Windows 10 用 Windows Subsystem for Linux のインストールガイド
Dokcer Desktop WSL2がインストールされていること
→ 手順:Docker Desktop WSL 2 backend ※英語
VSCodeがインストールされていること
→ 手順:Visual Studio Code
VSCodeのExtentsion「Remote Development(ms-vscode-remote.vscode-remote-extensionpack)」がインストールされていること。

4. 手順

4-1. プログラム作成

さてさて、まずはプログラムを作りましょう。

最初に準備するファイルはたったの２つです。
ファイル構成はこんな感じです。

まずは、Dockerファイルから。

Dockerfile

FROM continuumio/anaconda3
WORKDIR /app
# RUN conda install -y tensorflow
RUN pip install -U pip && \
    pip install mecab-python3 && \
    pip install fugashi && \
    pip install  ipadic && \
    pip install torch && \
    pip install transformers

次に実行するメインプログラム(Python)です。

main.py

from transformers import pipeline
from transformers import BertForSequenceClassification
from transformers import BertJapaneseTokenizer

def nlp_main():

    #入力するテキスト
    text_list =  ['めっちゃええで','今日は調子が悪い','微妙だ','まぁまぁやな','良いとは思わない']

    model = BertForSequenceClassification.from_pretrained('daigo/bert-base-japanese-sentiment')
    tokenizer = BertJapaneseTokenizer.from_pretrained("daigo/bert-base-japanese-sentiment")

    #感情分析を行う関数
    nlp_sentiment_analyzer = pipeline('sentiment-analysis', model=model, tokenizer=tokenizer)

    #処理実行
    for index, text in enumerate(text_list):

        print(f"No{index}『{text}』:{nlp_sentiment_analyzer(text)}")

if __name__ == '__main__':
    nlp_main()

~~いたってシンプル is Best.~~

4-2. Dockerビルド

Dockerfileを定義したので、ビルドしましょう。
本来ならば、NativeのWindows環境に直接ライブラリ等をインストールする必要がありますが、
Dockerなら、超簡単にコンテナ上で環境構築ができます。

VSCodeの左下の緑色の領域をクリック
「ReOpen Folder Contianer」を選択
「Dockerfile」を選択

たったこれだけで、VSCodeを用いてDockerビルドができます。簡単でしょう？

ビルド時間は10分程度かかります。　※ちなみに、私の環境はCorei71065G7 @1.3GHz,1.5GHz 16GBです。

4-3. プログラム実行

お試しで、Debugではなくて、普通にコンソールにてプログラムを実行します。
※VSCodeでコンソールを開くには「Ctrl + @」です。

python main.py

5. Debugでプログラムを実行する。

では、ここからが本題となるデバッグ実行のやり方です。

5-1. Extentionのインストール

Debug実行ができるように、VSCodeのExtentionをインストールします。

Extention名

Python (ms-python.python)

Extentionのインストールが成功したら、以下の画像のように、Debugアイコンが追加されます。

5-2. Debug設定

それではDebug設定を行いましょう。

先の「Debugアイコン」をクリックし「create a launch.json file リンク」をクリックします。

クリック後、何を対象にDebugするか選択画面が表示されます。「Python」を選択してください。

次に「Python File」を選択してください。

以下の自動生成されたファイル「launch.json」が表示されます。

以下のように書き換えてください。
変更点："program": "${workspaceRoot}/main.py"

launch.json

{
    "version": "0.2.0",
    "configurations": [
        {
            "name": "Python: Current File",
            "type": "python",
            "request": "launch",
            "program": "${workspaceRoot}/main.py", 
            "console": "integratedTerminal"
        }
    ]
}