ChatGPTとPythonで学ぶ BERT:1. 感情分析編

皆さんこんにちは。今日も引き続きChatGPT先生をお迎えして、「ChatGPTとPythonで学ぶ BERT」というテーマで雑談したいと思います。それではChatGPT先生、よろしくお願いします。


こんにちは!今日はBERTについてお話することになりましたね。BERTはNLP(自然言語処理)領域において革新的な手法で、Googleが2018年に発表しました。BERTはBidirectional Encoder Representations from Transformersの略で、一般的に英語を中心に広範なタスクに対して最先端のパフォーマンスを達成しています。それでは、どこから始めましょうか?





  1. ライブラリ: transformerstorchというライブラリが必要です。これらはBERTモデルを簡単に扱うためのライブラリで、インストールはpip install transformers torchで可能です。

  2. モデル: BERTは事前学習モデルなので、学習済みのパラメーターをダウンロードする必要があります。それはfrom_pretrainedメソッドを使ってダウンロードできます。


from transformers import BertTokenizer, BertModel
import torch

# 初期化
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
model = BertModel.from_pretrained('bert-base-uncased')

# 入力する文章
text = "Hello, my dog is cute"
input_ids = tokenizer.encode(text, add_special_tokens=True)  # 文章をidに変換
input_ids = torch.tensor(input_ids).unsqueeze(0)  # バッチ次元を追加

# 出力
outputs = model(input_ids)  # BERTモデルに入力
last_hidden_state = outputs.last_hidden_state  # 最後の隠れ層






tensor([[[-0.1144,  0.1937,  0.1250,  ..., -0.3827,  0.2107,  0.5407],
         [ 0.5308,  0.3207,  0.3665,  ..., -0.0036,  0.7579,  0.0388],
         [-0.4877,  0.8849,  0.4256,  ..., -0.6976,  0.4458,  0.1231],
         [-0.7003, -0.1815,  0.3297,  ..., -0.4838,  0.0680,  0.8901],
         [-1.0355, -0.2567, -0.0317,  ...,  0.3197,  0.3999,  0.1795],
         [ 0.6080,  0.2610, -0.3131,  ...,  0.0311, -0.6283, -0.1994]]],


ご覧のように、last_hidden_stateは形状が[1, n, 768]の3Dテンソルです。


  • 1はバッチサイズ(この場合は1つのセンテンスしか使っていないので1となります),
  • nはトークンの数(特殊トークンも含む),
  • 768はBERTベースモデルの隠れ層のサイズです。



cls_output = last_hidden_state[0][0]






以下の例では、BERTを用いてSentiment Analysis(感情分析)を行います。感情分析では、文章が肯定的か否定的かといった感情を判断します。

まずはHugging Faceのtransformersライブラリを用いて訓練データとテストデータに適用します。テキストはBERTモデルが理解できる形BertTokenizerに変換する必要があります。

from transformers import BertTokenizer

# BERTモデルのトークナイザを読み込む
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased', do_lower_case=True)

# 最大長を定義
max_length = 128  # データセットに合わせて調整可能です

def convert_example_to_feature(review):
    # BERTに入力する形状にするためにトークナイズと前処理を行う
    return tokenizer.encode_plus(review, 
                                 add_special_tokens = True,  # [CLS]と[SEP]を追加
                                 max_length = max_length,  # 最大長を制限
                                 pad_to_max_length = True,  # 最大長に満たない部分はパディング
                                 return_attention_mask = True,  # アテンションマスクを返す

# トレーニングデータセットに適用
train_text, train_labels = list(zip(*train_data))  # データセットを分解
train_text = [convert_example_to_feature(txt) for txt in train_text]  # 全データに適用


この後、データをモデルに適用し、モデルのトレーニングや評価を行いますが、その詳細なコードは非常に長くなるため、ここでは割愛します。各自で学ぶ際には、Hugging Faceの公式ドキュメントや、インターネット上にある様々なチュートリアルを参考に実装してみてください。


次のようなエラーになりました。適当な train_data を作るコードを書いてください。

# サンプルデータセットの作成
train_data = [("I love this movie!", 1),
              ("I hate this movie.", 0)]

このコードは、train_dataを定義します。各要素は(テキスト, ラベル)の形式のタプルで、テキストはレビュー、ラベルはそのレビューが肯定的(1)か否定的(0)かを表す値です。





Truncation was not explicitly activated but `max_length` is provided a specific value, please use `truncation=True` to explicitly truncate examples to max length.
/home/ikemen/.local/lib/python3.10/site-packages/transformers/tokenization_utils_base.py:2614: FutureWarning: The `pad_to_max_length` argument is deprecated and will be removed in a future version, use `padding=True` or `padding='longest'` to pad to the longest sequence in the batch, or use `padding='max_length'` to pad to a max length. In this case, you can give a specific length with `max_length` (e.g. `max_length=45`) or leave max_length to None to pad to the maximal input size of the model (e.g. 512 for Bert).


その警告は、新しいバージョンのtransformersライブラリで、一部の引数が非推奨にされるために表示されます。具体的には、 pad_to_max_length および max_length の使用方法に変更があります。そのため、以下のように padding および truncation という引数を使うように更新する必要があります:

def convert_example_to_feature(review):
    return tokenizer.encode_plus(review, 
                                 padding='max_length',  # ここを更新
                                 truncation=True,  # ここを追加



ありがとうございます。train_dataとして、scikit-learn か torchtext かどこかに、使えるデータないですか?あればそれを使うコードを書いてください。



たとえば、torchtextを使用して感情分析のための "IMDb" データセットをダウンロードし、トレーニングデータセットとテストデータセットに分割することができます。以下にそのサンプルコードを記載します。

from torchtext import datasets
from torchtext.data import Field, BucketIterator

# データの前処理を定義
TEXT = Field(sequential=True, tokenize='spacy', lower=True)
LABEL = Field(sequential=False, unk_token = None)

# IMDbデータをダウンロードし、トレーニングデータとテストデータに分割
train_data, test_data = datasets.IMDB.splits(TEXT, LABEL)

# 語彙を作成(これは後ほどEmbedding層に必要)
TEXT.build_vocab(train_data, max_size=25000)

# 指定されたバッチサイズでイテレータを作成
train_iterator, test_iterator = BucketIterator.splits(
    (train_data, test_data), 
    batch_size = 64,
    sort_within_batch = True, 
    device = device)


torchtext の最新版では、Field, BucketIteratorなど都合の良い関数・クラスが非推奨となっているため、公式ドキュメントに従って新しいAPIを使用するように注意してください。



ModuleNotFoundError: Package `portalocker` is required to be installed to use this datapipe.Please use `pip install 'portalocker>=2.0.0'` or`conda install -c conda-forge 'portalocker>=2/0.0'`to install the package




# pipを使用している場合
pip install portalocker

# Anacondaを使用している場合
conda install -c conda-forge portalocker

これらのコマンドはターミナル(Anaconda Promptを使用している場合)で実行します。







from transformers import BertModel
import torch.nn as nn

class SentimentClassifier(nn.Module):
    def __init__(self, n_classes):
        super(SentimentClassifier, self).__init__()
        self.bert = BertModel.from_pretrained('bert-base-uncased')
        self.drop = nn.Dropout(p=0.3)
        self.out = nn.Linear(self.bert.config.hidden_size, n_classes)
    def forward(self, input_ids, attention_mask):
        _, pooled_output = self.bert(
        output = self.drop(pooled_output)
        return self.out(output)
model = SentimentClassifier(1)  # Since we have a binary classification task
model.to(device)  # If you're using a GPU

次に、最適化アルゴリズムと損失関数を定義します。今回は、AdamWを最適化アルゴリズムとして使用し、損失関数としてはBinary Cross Entropy With Logits Lossを使用します。

from transformers import AdamW
from torch import nn

optimizer = AdamW(model.parameters(), lr=2e-5, correct_bias=False)
loss_fn = nn.BCEWithLogitsLoss().to(device)


model = model.train()

for epoch in range(1):  # Replace with the number of epochs you want
    for labels, data in train_loader:
        input_ids = pad_sequence([txt for txt in data], padding_value=0.0).permute(1, 0)
        attention_mask = (input_ids != 0).type(torch.uint8)
        labels = torch.tensor(labels).unsqueeze(1)
        input_ids = input_ids.to(device)
        attention_mask = attention_mask.to(device)
        labels = labels.to(device)

        outputs = model(

        loss = loss_fn(outputs, labels.type_as(outputs))

        nn.utils.clip_grad_norm_(model.parameters(), max_norm=1.0)





このエラーは、PyTorchがGPU上で実行される処理中に何か問題が発生したことを示しています。具体的には、インデックス選択操作(indexing operation)で指定されたインデックスが対象テンソルの範囲外であったことを示しています。

ダイアログ全体を見ると、このエラーは input_ids がBERTモデルにフィードされるときに発生しているようです。

おそらく、input_idsの値が予想される範囲(通常、0からBERTモデルの config.vocab_size の間)を超えているためにこのエラーが発生していると思われます。





上記の議論を踏まえて、torchtextを使用して "IMDb" データセットをダウンロードし感情分析するコードを書いてください。


以下のコードは torchtext を使って "IMDb" データセットをダウンロードし、トークナイズ、そしてBERTモデルで感情分析を行う基本的な手順を示しています。なお、具体的な挙動はデータセットやタスクによりますので、適宜調節が必要です。

import torch
import torch.nn as nn
from torchtext import data
from torchtext import datasets
from transformers import BertTokenizer, BertModel, AdamW

# トークナイザーのインスタンス化
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')

# データフィールドの定義
TEXT = data.Field(sequential=True, tokenize=tokenizer.encode, use_vocab=False, 
                  lower=False, include_lengths=True, batch_first=True, 
                  fix_length=512, pad_token=tokenizer.pad_token_id, unk_token=tokenizer.unk_token_id)
LABEL = data.LabelField(dtype=torch.float)

# IMDbデータセットのダウンロード
train_data, test_data = datasets.IMDB.splits(TEXT, LABEL)

# グローブベクトルによる単語の初期化

# データローダーの作成
train_iterator, test_iterator = data.BucketIterator.splits(
    (train_data, test_data), 
    batch_size = 64, 
    device = device)

# クラス定義
class SentimentClassifier(nn.Module):
    def __init__(self, n_classes):
        super(SentimentClassifier, self).__init__()
        self.bert = BertModel.from_pretrained('bert-base-uncased')
        self.drop = nn.Dropout(p=0.3)
        self.out = nn.Linear(self.bert.config.hidden_size, n_classes)
    def forward(self, input_ids):
        _, pooled_output = self.bert(input_ids)
        output = self.drop(pooled_output)
        return self.out(output)

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

n_classes = 1
model = SentimentClassifier(n_classes)
model = model.to(device)

criterion = nn.BCEWithLogitsLoss()
optimizer = AdamW(model.parameters(), lr=2e-5, correct_bias=False)

num_epochs = 10

# 学習ループ
for epoch in range(num_epochs):
  for batch in train_iterator:
        input_ids = batch.text[0]
        labels = batch.label
        labels = labels.unsqueeze(1)
        input_ids = input_ids.to(device)
        labels = labels.to(device)
        outputs = model(input_ids)
        loss = criterion(outputs, labels)




上記の議論を踏まえて、torchtextを使用して "IMDb" データセットをダウンロードし感情分析するコードを書いてください。torchtextバージョン0.9.0以降で非推奨となった Field と BucketIterator のクラスを使わずにお願いします。




以下は、最新バージョンのtorchtextを使用して "IMDb" データセットをダウンロードし、感情分析を行うためのコードです:

import torch
from torch import nn, optim
from torch.utils.data import Dataset, DataLoader
from transformers import BertTokenizer, BertModel
from torchtext.datasets import IMDB
from sklearn.model_selection import train_test_split

class IMDbDataset(Dataset):
    def __init__(self, data, tokenizer: BertTokenizer, max_len: int=512):
        self.data = data
        self.tokenizer = tokenizer
        self.max_len = max_len

    def __len__(self):
        return len(self.data)

    def __getitem__(self, idx):
        text = self.data[idx][1]
        label = self.data[idx][0]
        encoding = self.tokenizer.encode_plus(
            return_tensors='pt',  # Return PyTorch tensors

        return {
            'text': text,
            'input_ids': encoding['input_ids'].flatten(),
            'attention_mask': encoding['attention_mask'].flatten(),
            'label': torch.tensor(int(label == 'pos'), dtype=torch.long)

tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
n_classes = 1

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

# IMDbデータセットのダウンロード
train_iter, test_iter = IMDB()
train_data = list(train_iter)
test_data = list(test_iter)
train_data, val_data = train_test_split(train_data, test_size=.2)


train_dataset = IMDbDataset(train_data, tokenizer)
val_dataset = IMDbDataset(val_data, tokenizer)
test_dataset = IMDbDataset(test_data, tokenizer)

train_loader = DataLoader(train_dataset, batch_size=BATCH_SIZE, shuffle=True)
val_loader = DataLoader(val_dataset, batch_size=BATCH_SIZE, shuffle=False)
test_loader = DataLoader(test_dataset, batch_size=BATCH_SIZE, shuffle=False)






from transformers import BertModel, AdamW
from sklearn.metrics import accuracy_score
import torch.nn.functional as F

# クラス定義
class SentimentClassifier(nn.Module):
    def __init__(self, n_classes):
        super(SentimentClassifier, self).__init__()
        self.bert = BertModel.from_pretrained('bert-base-uncased')
        self.drop = nn.Dropout(p=0.3)
        self.out = nn.Linear(self.bert.config.hidden_size, n_classes)
    def forward(self, input_ids, attention_mask):
        _, pooled_output = self.bert(
        output = self.drop(pooled_output)
        return self.out(output)

model = SentimentClassifier(n_classes)
model = model.to(device)

criterion = nn.BCEWithLogitsLoss()
optimizer = AdamW(model.parameters(), lr=2e-5, correct_bias=False)

num_epochs = 10

# 学習ループ
for epoch in range(num_epochs):
    for batch in train_loader:
        input_ids = batch["input_ids"].to(device)
        attention_mask = batch["attention_mask"].to(device)
        labels = batch["label"].to(device)

        outputs = model(

        # Compute loss and apply backpropagation
        loss = criterion(outputs, labels)

        # Update weights

    list_preds, list_labels = [], []
    for batch in val_loader:
        input_ids = batch["input_ids"].to(device)
        attention_mask = batch["attention_mask"].to(device)
        labels = batch["label"].to(device)
        with torch.no_grad():
            outputs = model(
        preds = torch.round(torch.sigmoid(outputs))
        list_preds += preds.tolist()
        list_labels += labels.tolist()
    print(f'Epoch {epoch + 1}/{num_epochs}, validation accuracy: {accuracy_score(list_preds, list_labels)}')




RuntimeError: CUDA error: device-side assert triggered




  1. インデックスエラー:このエラーは、カーネルが配列の範囲外のインデックスにアクセスしようとしたときに発生します。具体的には、テンソルの形状や大きさに不整合があると、このエラーになることがあります。これが原因である場合は、データの前処理に問題がないか確認してみてください。

  2. メモリエラー:デバイス(GPU)のメモリが不足している場合や、メモリに対するアクセスが適切でない場合にこのエラーが発生することがあります。

エラーメッセージにもある通り、エラーの詳細を確認するためにはCUDAランチャーにブロッキングを指定するとよいでしょう。具体的には、環境変数 CUDA_LAUNCH_BLOCKING=1 を設定すると、CUDAはエラーが発生した時点で即座にエラー情報を返すようになります。これにより、エラーが発生した具体的な位置を特定しやすくなります。以下はそのためのコマンドです。

import os
os.environ['CUDA_LAUNCH_BLOCKING'] = "1"




RuntimeError: CUDA error: device-side assert triggered



import torch


t = torch.cuda.get_device_properties(0).total_memory
r = torch.cuda.memory_reserved(0) 
a = torch.cuda.memory_allocated(0)
f = r-a  # free inside reserved

print(f'Total memory: {t}, Reserved Memory: {r}, Allocated Memory: {a}, Free Inside Reserved: {f}')


  • バッチサイズを小さくする
  • 学習率を下げる
  • モデルの構造を簡略化する
  • より小さい事前学習済みモデルを使用する(例えば、distilbert-base-uncasedなど)




RuntimeError: CUDA error: device-side assert triggered


CUDA error: device-side assert triggered が出ている部分から、デバイスアサートがトリガーされていることがわかります。このエラーはCUDA実行時に何らかの問題が起きた場合に発生します。具体的な原因としてよくあるのは配列のインデックスが範囲外になっている(インデックスエラー)ことやGPUメモリが不足している(メモリエラー)ことなどがあります。


import os
os.environ['CUDA_LAUNCH_BLOCKING'] = '1'





distilbert-base-uncased に変えてみたつもりですが次のようなエラーになりました。

Some weights of BertModel were not initialized from the model checkpoint at distilbert-base-uncased and are newly initialized: ['encoder.layer.6.attention.self.key.weight', 'encoder.layer.5.output.dense.bias', 'encoder.layer.11.attention.output.dense.weight', 'encoder.layer.0.attention.self.value.bias', 'encoder.layer.2.intermediate.dense.weight', 'encoder.layer.4.output.LayerNorm.weight', 'encoder.layer.1.output.dense.weight', 'encoder.layer.10.intermediate.dense.weight', 'encoder.layer.8.attention.self.query.weight', 'encoder.layer.3.intermediate.dense.bias', 'encoder.layer.5.output.dense.weight', 'encoder.layer.3.attention.output.dense.weight', 'encoder.layer.5.output.LayerNorm.bias', 'embeddings.LayerNorm.weight', 'encoder.layer.2.intermediate.dense.bias', 'encoder.layer.6.output.LayerNorm.bias', 'encoder.layer.7.output.dense.weight', 'encoder.layer.9.attention.self.key.weight', 'encoder.layer.1.output.LayerNorm.weight', 'encoder.layer.6.intermediate.dense.bias', 'encoder.layer.3.intermediate.dense.weight', 'encoder.layer.7.attention.self.key.bias', 'encoder.layer.5.attention.output.dense.weight', 'encoder.layer.8.attention.self.key.bias', 'encoder.layer.8.intermediate.dense.bias', 'encoder.layer.9.intermediate.dense.bias', 'encoder.layer.10.attention.self.query.bias', 'encoder.layer.2.attention.output.dense.weight', 'encoder.layer.2.attention.self.query.bias', 'encoder.layer.6.attention.output.LayerNorm.weight', 'encoder.layer.4.output.LayerNorm.bias', 'encoder.layer.5.attention.self.key.weight', 'encoder.layer.6.attention.output.LayerNorm.bias', 'encoder.layer.1.attention.self.value.bias', 'encoder.layer.5.attention.self.value.weight', 'encoder.layer.7.attention.output.LayerNorm.bias', 'encoder.layer.4.intermediate.dense.weight', 'encoder.layer.0.output.LayerNorm.weight', 'encoder.layer.1.attention.self.key.weight', 'encoder.layer.11.attention.output.LayerNorm.weight', 'encoder.layer.0.attention.self.value.weight', 'encoder.layer.2.attention.self.value.bias', 'encoder.layer.0.output.dense.bias', 'encoder.layer.10.output.LayerNorm.weight', 'encoder.layer.2.attention.self.value.weight', 'embeddings.word_embeddings.weight', 'encoder.layer.5.attention.self.query.bias', 'encoder.layer.3.attention.output.LayerNorm.weight', 'encoder.layer.5.attention.output.LayerNorm.bias', 'encoder.layer.6.attention.self.value.weight', 'encoder.layer.3.attention.output.dense.bias', 'encoder.layer.4.intermediate.dense.bias', 'encoder.layer.6.attention.self.key.bias', 'encoder.layer.2.attention.output.dense.bias', 'encoder.layer.2.attention.self.key.weight', 'encoder.layer.1.attention.self.query.weight', 'encoder.layer.1.attention.output.LayerNorm.weight', 'encoder.layer.3.output.LayerNorm.weight', 'encoder.layer.11.attention.self.key.weight', 'encoder.layer.11.attention.self.query.weight', 'encoder.layer.9.intermediate.dense.weight', 'encoder.layer.4.attention.self.query.bias', 'encoder.layer.2.attention.output.LayerNorm.weight', 'encoder.layer.10.attention.self.value.bias', 'encoder.layer.3.output.dense.weight', 'encoder.layer.7.attention.self.value.weight', 'encoder.layer.2.output.LayerNorm.weight', 'encoder.layer.9.attention.output.dense.weight', 'encoder.layer.11.intermediate.dense.bias', 'encoder.layer.10.attention.output.LayerNorm.bias', 'encoder.layer.8.output.dense.weight', 'encoder.layer.7.attention.output.LayerNorm.weight', 'embeddings.position_embeddings.weight', 'encoder.layer.2.attention.self.key.bias', 'encoder.layer.7.output.LayerNorm.weight', 'encoder.layer.3.attention.output.LayerNorm.bias', 'encoder.layer.9.output.dense.weight', 'encoder.layer.7.attention.self.query.bias', 'encoder.layer.3.output.dense.bias', 'encoder.layer.9.attention.self.query.weight', 'encoder.layer.9.output.dense.bias', 'encoder.layer.5.attention.self.query.weight', 'embeddings.LayerNorm.bias', 'encoder.layer.9.attention.output.dense.bias', 'encoder.layer.11.output.LayerNorm.bias', 'encoder.layer.11.attention.self.key.bias', 'encoder.layer.0.attention.self.key.weight', 'encoder.layer.8.attention.output.dense.weight', 'encoder.layer.1.intermediate.dense.weight', 'encoder.layer.1.attention.self.query.bias', 'encoder.layer.8.intermediate.dense.weight', 'encoder.layer.10.attention.self.key.bias', 'encoder.layer.5.output.LayerNorm.weight', 'encoder.layer.7.intermediate.dense.weight', 'encoder.layer.10.output.dense.weight', 'encoder.layer.8.attention.self.value.bias', 'encoder.layer.8.attention.self.key.weight', 'encoder.layer.1.output.LayerNorm.bias', 'encoder.layer.7.attention.self.value.bias', 'encoder.layer.9.attention.output.LayerNorm.bias', 'encoder.layer.3.attention.self.query.weight', 'encoder.layer.0.intermediate.dense.bias', 'encoder.layer.10.attention.self.value.weight', 'encoder.layer.11.intermediate.dense.weight', 'encoder.layer.1.attention.self.value.weight', 'pooler.dense.weight', 'encoder.layer.10.attention.output.dense.weight', 'encoder.layer.6.output.dense.bias', 'encoder.layer.10.attention.self.key.weight', 'encoder.layer.3.attention.self.key.bias', 'encoder.layer.1.output.dense.bias', 'encoder.layer.2.output.dense.bias', 'encoder.layer.4.attention.self.key.bias', 'encoder.layer.6.attention.self.query.bias', 'encoder.layer.9.output.LayerNorm.bias', 'encoder.layer.10.intermediate.dense.bias', 'encoder.layer.6.output.dense.weight', 'encoder.layer.4.attention.output.dense.bias', 'encoder.layer.11.attention.output.LayerNorm.bias', 'encoder.layer.0.attention.self.query.weight', 'encoder.layer.4.attention.self.value.bias', 'encoder.layer.6.attention.self.query.weight', 'encoder.layer.5.attention.output.LayerNorm.weight', 'encoder.layer.1.intermediate.dense.bias', 'encoder.layer.4.attention.output.LayerNorm.weight', 'encoder.layer.8.output.dense.bias', 'encoder.layer.9.attention.self.query.bias', 'encoder.layer.8.attention.output.dense.bias', 'embeddings.token_type_embeddings.weight', 'encoder.layer.0.output.dense.weight', 'encoder.layer.0.attention.output.dense.bias', 'encoder.layer.9.attention.self.key.bias', 'encoder.layer.0.attention.self.key.bias', 'encoder.layer.7.intermediate.dense.bias', 'encoder.layer.10.attention.self.query.weight', 'encoder.layer.4.attention.self.key.weight', 'encoder.layer.9.attention.self.value.bias', 'encoder.layer.5.intermediate.dense.weight', 'encoder.layer.0.output.LayerNorm.bias', 'encoder.layer.10.attention.output.dense.bias', 'encoder.layer.11.output.dense.bias', 'encoder.layer.0.attention.output.LayerNorm.weight', 'encoder.layer.7.attention.output.dense.bias', 'encoder.layer.2.output.dense.weight', 'encoder.layer.11.attention.self.value.bias', 'encoder.layer.6.attention.output.dense.bias', 'encoder.layer.4.attention.self.value.weight', 'encoder.layer.1.attention.output.dense.bias', 'encoder.layer.4.attention.self.query.weight', 'encoder.layer.1.attention.output.dense.weight', 'encoder.layer.0.intermediate.dense.weight', 'encoder.layer.4.output.dense.weight', 'encoder.layer.4.output.dense.bias', 'encoder.layer.3.attention.self.key.weight', 'encoder.layer.6.intermediate.dense.weight', 'encoder.layer.8.output.LayerNorm.weight', 'encoder.layer.11.output.LayerNorm.weight', 'encoder.layer.8.attention.self.query.bias', 'encoder.layer.5.attention.self.key.bias', 'encoder.layer.7.attention.output.dense.weight', 'encoder.layer.1.attention.self.key.bias', 'encoder.layer.7.attention.self.query.weight', 'encoder.layer.1.attention.output.LayerNorm.bias', 'encoder.layer.8.attention.output.LayerNorm.weight', 'encoder.layer.3.attention.self.value.weight', 'encoder.layer.6.attention.output.dense.weight', 'encoder.layer.2.output.LayerNorm.bias', 'encoder.layer.8.attention.self.value.weight', 'encoder.layer.6.attention.self.value.bias', 'encoder.layer.8.output.LayerNorm.bias', 'encoder.layer.10.output.LayerNorm.bias', 'encoder.layer.0.attention.output.LayerNorm.bias', 'encoder.layer.4.attention.output.dense.weight', 'encoder.layer.11.attention.self.query.bias', 'encoder.layer.9.output.LayerNorm.weight', 'encoder.layer.4.attention.output.LayerNorm.bias', 'encoder.layer.11.attention.self.value.weight', 'encoder.layer.3.output.LayerNorm.bias', 'encoder.layer.0.attention.self.query.bias', 'encoder.layer.3.attention.self.query.bias', 'encoder.layer.11.output.dense.weight', 'encoder.layer.10.output.dense.bias', 'encoder.layer.10.attention.output.LayerNorm.weight', 'encoder.layer.9.attention.output.LayerNorm.weight', 'pooler.dense.bias', 'encoder.layer.2.attention.self.query.weight', 'encoder.layer.6.output.LayerNorm.weight', 'encoder.layer.7.output.LayerNorm.bias', 'encoder.layer.3.attention.self.value.bias', 'encoder.layer.9.attention.self.value.weight', 'encoder.layer.0.attention.output.dense.weight', 'encoder.layer.5.intermediate.dense.bias', 'encoder.layer.5.attention.output.dense.bias', 'encoder.layer.2.attention.output.LayerNorm.bias', 'encoder.layer.5.attention.self.value.bias', 'encoder.layer.11.attention.output.dense.bias', 'encoder.layer.7.output.dense.bias', 'encoder.layer.8.attention.output.LayerNorm.bias', 'encoder.layer.7.attention.self.key.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.
RuntimeError: CUDA error: device-side assert triggered



Some weights of BertModel were not initialized from the model checkpoint at distilbert-base-uncased and are newly initialized:



from transformers import DistilBertModel

class DistilBertClassifier(nn.Module):
    def __init__(self, num_labels):
        super(DistilBertClassifier, self).__init__()
        self.num_labels = num_labels
        self.distilbert = DistilBertModel.from_pretrained('distilbert-base-uncased')
        self.dropout = nn.Dropout(config.hidden_dropout_prob)
        self.classifier = nn.Linear(config.hidden_size, num_labels)

    def forward(self, input_ids, attention_mask=None, head_mask=None):
        distilbert_output = self.distilbert(input_ids=input_ids, attention_mask=attention_mask, head_mask=head_mask)
        hidden_state = distilbert_output[0]  # get the hidden state
        pooled_output = hidden_state[:, 0]  # get the pooled output
        pooled_output = self.dropout(pooled_output)
        logits = self.classifier(pooled_output)

        return logits



上記の議論を踏まえて、torchtextを使用して "IMDb" データセットをダウンロードし感情分析するコードを書いてください。torchtextバージョン0.9.0以降で非推奨となった Field と BucketIterator のクラスを使わずにお願いします。


 最新のTorchTextによるデータの読み込みと前処理を行い、Hugging FaceのTransformersライブラリを利用してDistilBertをトレーニングするための完全なPythonコード例を以下に示します。このコードは次の手順で行います:

  1. 必要なライブラリのインポート
  2. IMDbデータセットのダウンロードと前処理
  3. モデルの定義
  4. モデルの訓練と評価行程の定義
  5. モデルの訓練と評価


import torch
from torch import nn, optim
from torch.utils.data import DataLoader
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from transformers import DistilBertTokenizerFast, DistilBertModel, AdamW
from torchtext.datasets import IMDB
from torchtext.data.utils import get_tokenizer
from torchtext.vocab import build_vocab_from_iterator
from tqdm import tqdm

# IMDbデータのダウンロードと前処理
def yield_tokens(data_iter):
    for _, text in data_iter:
        yield tokenizer.tokenize(text)

tokenizer = DistilBertTokenizerFast.from_pretrained('distilbert-base-uncased')

train_iter, test_iter = IMDB()
train_data = list(train_iter)
test_data = list(test_iter)

vocab = build_vocab_from_iterator(yield_tokens(train_data), specials=["[CLS]", "[SEP]"])

pad_idx = vocab["[SEP]"]
tokenizer = get_tokenizer('basic_english')

def data_process(raw_text_iter):
    data = [(torch.tensor([vocab[token] for token in tokenizer(label) + [y]], dtype=torch.long), x) for x, y in raw_text_iter]
    return torch.nn.utils.rnn.pad_sequence(data, padding_value=pad_idx, batch_first=True)

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

train_data, valid_data = train_test_split(train_data, test_size=0.1)
train_data = data_process(train_data).to(device)
valid_data = data_process(valid_data).to(device)
test_data = data_process(test_data).to(device)

# モデルの定義
class DistilBertClassifier(nn.Module):
    def __init__(self):
        super(DistilBertClassifier, self).__init__()
        self.distilbert = DistilBertModel.from_pretrained('distilbert-base-uncased')
        self.dropout = nn.Dropout(0.3)
        self.fc = nn.Linear(768, 1)
        self.sigmoid = nn.Sigmoid()

    def forward(self, input_ids):
        outputs = self.distilbert(input_ids)
        pooled_output = outputs[0][:, 0, :]
        pooled_output = self.dropout(pooled_output)
        return self.sigmoid(self.fc(pooled_output))
model = DistilBertClassifier().to(device)
optimizer = AdamW(model.parameters(), lr=2e-5)

# 訓練と評価行程の定義
def train_step(batch_item, epoch, batch, training):
    token_ids = batch_item['token_ids'].to(device)
    labels = batch_item['labels'].to(device)
    if training:
        with torch.set_grad_enabled(True):
            outputs = model(token_ids)
            loss = nn.BCELoss()(outputs, labels)
        if batch % 1000 == 0:
            output_str = f"Epoch: {epoch}, Loss: {loss.item()}"
        return loss.item()

        with torch.no_grad():
            outputs = model(token_ids)

        return ((outputs > 0.5).view(-1) == labels).sum().item()

# モデルの訓練と評価
max_epoch = 3
for epoch in range(max_epoch):
    train_losses, val_accs = [], []
    for batch, batch_item in enumerate(DataLoader(train_data, batch_size=16, shuffle=True)):
        train_loss = train_step(batch_item, epoch, batch, True)
    for batch, batch_item in enumerate(DataLoader(valid_data, batch_size=16, shuffle=True)):
        val_acc = train_step(batch_item, epoch, batch, False)
    print(f"Epoch {epoch}, Train Loss: {sum(train_losses)/len(train_losses)}, Valid Acc: {sum(val_accs)/len(val_accs)}")

# テストデータで評価
test_accs = []
for batch, batch_item in enumerate(DataLoader(test_data, batch_size=16)):
    test_acc = train_step(batch_item, 0, batch, False)

print(f"Test Acc: {sum(test_accs)/len(test_accs)}")



Token indices sequence length is longer than the specified maximum sequence length for this model (718 > 512). Running this sequence through the model will result in indexing errors
NameError: name 'label' is not defined




from transformers import DistilBertTokenizerFast
from torchtext.data import get_tokenizer
from torchtext.vocab import build_vocab_from_iterator
from torchtext.datasets import IMDB
import torch
from sklearn.model_selection import train_test_split

special_symbols = ['<PAD>', '<UNK>', '<BOS>', '<EOS>']
max_input_length = 512  # DistilBertの最大長

# 前処理を行う関数
def preprocessing(data):
    _data = []
    for (label, text) in tqdm(data):  # tqdmでプログレスバーを表示
        if label == 'pos':
            _data.append(['1', text])
            _data.append(['0', text])
    return _data

# 文字列をID列に変換する関数
def str2id(tokenizer, data):
    return [torch.tensor([tokenizer.encode(tokenizer.cls_token) + tokenizer.encode(text, truncation=True, max_length=max_input_length-2) + tokenizer.encode(tokenizer.sep_token), for label, text in data], dtype=torch.long)]

print("Load Dataset...")
train_dataset, test_dataset = IMDB()
train_dataset, test_dataset = list(train_dataset), list(test_dataset)
train_dataset = preprocessing(train_dataset)
test_dataset= preprocessing(test_dataset)

print("Load Tokenizer...")
tokenizer = DistilBertTokenizerFast.from_pretrained('distilbert-base-uncased')
vocab_dic = dict(tokenizer.get_vocab())
vocab = build_vocab_from_iterator(vocab_dic.keys(), specials=special_symbols)

tokenizer = get_tokenizer('basic_english')

print('Transforming datasets...')
train_X = str2id(tokenizer, train_dataset)
train_Y = torch.tensor([int(label) for label, text in train_dataset], dtype=torch.long)
test_X = str2id(tokenizer, test_dataset)
test_Y = torch.tensor([int(label) for label, text in test_dataset], dtype=torch.long)

train_X, val_X, train_Y, val_Y = train_test_split(train_X, train_Y, test_size=0.2)
train_data = [(x, y) for x, y in zip(train_X, train_Y)]
val_data = [(x, y) for x, y in zip(val_X, val_Y)]
test_data = [(x, y) for x, y in zip(test_X, test_Y)]

上記のコードでは、入力文を符号化するときに、DistilBertの最大入力長を超えないように注意するために、符号化関数(tokenizer.encode)にtruncationとmax_lengthパラメータを追加しました。そして、Field, BucketIteratorの代わりにtrain_test_split(train_dataの訓練データとトレーニングデータの分割)を使用しました。そのため、訓練データとテストデータが正しく分割され即興でデータを取り扱うことができます。また、各サポートはエンコードされ、Train_X, Train_Yの形で保存されます。



  Cell In[20], line 23
    return [torch.tensor([tokenizer.encode(tokenizer.cls_token) + tokenizer.encode(text, truncation=True, max_length=max_input_length-2) + tokenizer.encode(tokenizer.sep_token), for label, text in data], dtype=torch.long)]
SyntaxError: did you forget parentheses around the comprehension target?


このエラーメッセージは、トークンをIDへ変換するための内包表記(list comprehension)の周りに括弧がないために発生していますね。

内包表記部分の前に括弧を追加すれば修正できます。また、コンマ , も不要で、またtorch.tensorの外側にある[]は削除します。これらの修正を行い、以下のように改定したコードを見てみましょう。

from transformers import DistilBertTokenizerFast
from torchtext.data import get_tokenizer
from torchtext.vocab import build_vocab_from_iterator
from torchtext.datasets import IMDB
import torch
from sklearn.model_selection import train_test_split

special_symbols = ['<PAD>', '<UNK>', '<BOS>', '<EOS>']
max_input_length = 512  # DistilBertの最大長

# 前処理を行う関数
def preprocessing(data):
    _data = []
    for (label, text) in tqdm(data):  # tqdmでプログレスバーを表示
        if label == 'pos':
            _data.append(['1', text])
            _data.append(['0', text])
    return _data

# 文字列をID列に変換する関数
def str2id(tokenizer, data):
    return [torch.tensor(tokenizer.encode(tokenizer.cls_token) + tokenizer.encode(text, truncation=True, max_length=max_input_length-2) + tokenizer.encode(tokenizer.sep_token), dtype=torch.long) for label, text in data]

print("Load Dataset...")
train_dataset, test_dataset = IMDB()
train_dataset, test_dataset = list(train_dataset), list(test_dataset)
train_dataset = preprocessing(train_dataset)
test_dataset= preprocessing(test_dataset)

print("Load Tokenizer...")
tokenizer = DistilBertTokenizerFast.from_pretrained('distilbert-base-uncased')
vocab_dic = dict(tokenizer.get_vocab())
vocab = build_vocab_from_iterator(vocab_dic.keys(), specials=special_symbols)

tokenizer = get_tokenizer('basic_english')

print('Transforming datasets...')
train_X = str2id(tokenizer, train_dataset)
train_Y = torch.tensor([int(label) for label, text in train_dataset], dtype=torch.long)
test_X = str2id(tokenizer, test_dataset)
test_Y = torch.tensor([int(label) for label, text in test_dataset], dtype=torch.long)

train_X, val_X, train_Y, val_Y = train_test_split(train_X, train_Y, test_size=0.2)
train_data = [(x, y) for x, y in zip(train_X, train_Y)]
val_data = [(x, y) for x, y in zip(val_X, val_Y)]
test_data = [(x, y) for x, y in zip(test_X, test_Y)]




AttributeError: 'function' object has no attribute 'encode'


このエラーは、get_tokenizer('basic_english') で取得したtokenizerencodeメソッドを持っていないために起きています。このtokenizerを、DistilBertTokenizerFastを利用したtokenizerで上書きしてしまっています。


from transformers import DistilBertTokenizerFast
from torchtext.data import get_tokenizer
from torchtext.vocab import build_vocab_from_iterator
from torchtext.datasets import IMDB
import torch
from sklearn.model_selection import train_test_split

max_input_length = 512  # DistilBertの最大長

def preprocessing(data):
    _data = []
    for (label, text) in tqdm(data):  # tqdmでプログレスバーを表示
        if label == 'pos':
            _data.append(['1', text])
            _data.append(['0', text])
    return _data

def str2id(tokenizer, data):
    return [torch.tensor(tokenizer.encode(tokenizer.cls_token) + tokenizer.encode(text, truncation=True, max_length=max_input_length-2) + tokenizer.encode(tokenizer.sep_token), dtype=torch.long) for label, text in data]

print("Load Dataset...")
train_dataset, test_dataset = IMDB()
train_dataset, test_dataset = list(train_dataset), list(test_dataset)
train_dataset = preprocessing(train_dataset)
test_dataset= preprocessing(test_dataset)

print("Load Tokenizer...")
tokenizer = DistilBertTokenizerFast.from_pretrained('distilbert-base-uncased')

print('Transforming datasets...')
train_X = str2id(tokenizer, train_dataset)
train_Y = torch.tensor([int(label) for label, text in train_dataset], dtype=torch.long)
test_X = str2id(tokenizer, test_dataset)
test_Y = torch.tensor([int(label) for label, text in test_dataset], dtype=torch.long)

train_X, val_X, train_Y, val_Y = train_test_split(train_X, train_Y, test_size=0.2)
train_data = [(x, y) for x, y in zip(train_X, train_Y)]
val_data = [(x, y) for x, y in zip(val_X, val_Y)]
test_data = [(x, y) for x, y in zip(test_X, test_Y)]




それは素晴らしいです!続きは、モデルの訓練とテストのフローに移りましょう。今回はDistilBertModelを利用し、その上に1層の線形層(Linear layer)を追加することで評価を行うクラシフィケーションモデルを設定する例を以下に記載します。

*DistilBertの学習済みモデルを使うため、Transformersライブラリが必要です。まだインストールしていない場合は、!pip install transformersでインストールしてください。

from transformers import DistilBertModel
from torch import nn

class SentimentClassifier(nn.Module):
    def __init__(self):
        super(SentimentClassifier, self).__init__()

        self.bert = DistilBertModel.from_pretrained('distilbert-base-uncased')
        self.out = nn.Linear(self.bert.config.dim, 2)  # 2 is the number of classes

    def forward(self, x):
        h = self.bert(x)[0]  # get the last hidden state
        h = h[:, 0]  # get the [CLS] token's hidden state
        return self.out(h) 

device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
model = SentimentClassifier().to(device)

no_decay = ['bias', 'LayerNorm.weight']
optimizer_grouped_parameters = [
    {'params': [p for n, p in model.named_parameters() if not any(nd in n for nd in no_decay)], 'weight_decay': 0.01},
    {'params': [p for n, p in model.named_parameters() if any(nd in n for nd in no_decay)], 'weight_decay': 0.0}
optimizer = torch.optim.AdamW(optimizer_grouped_parameters, lr=1e-5)
criterion = nn.CrossEntropyLoss()




具体的には、"CUDA error: device-side assert triggered"というエラーですね。これは、GPU上で実行されているCUDAカーネルの途中でアサーション(条件式)が失敗したことを示しています。このエラーは通常、データに問題がある場合や、データがモデルにとって適切な形状でない場合などに発生します。


import os
os.environ['CUDA_LAUNCH_BLOCKING'] = "1"



  1. GPUのメモリが不足していないか確認する: 大きなモデルや大量のデータを扱う場合、GPUのメモリが不足してエラーが発生することがあります。GPUのメモリ使用状況はNVIDIAのnvidia-smiコマンドで確認できます。

  2. データの形状や型がモデルの入力として適切か確認する: モデルの入力となるデータの形状や型が正しくないと、モデルの順伝播(forward)中にエラーが発生することがあります。たとえば、入力テンソルの次元数やサイズが正しいか、データ型が浮動小数点型(float)であるかなどを確認します。




データの形状や型がモデルの入力として適切か確認する: モデルの入力となるデータの形状や型が正しくないと、モデルの順伝播(forward)中にエラーが発生することがあります。たとえば、入力テンソルの次元数やサイズが正しいか、データ型が浮動小数点型(float)であるかなどを確認します。



id系列は tokenizer.encode によって作成したベクトルですので、それぞれのidは唯一のトークンを参照します。そして tnsorizer.encodeは、各トークンidを要素としたリスト型で返します。

従って、id系列(トークン化されたテンソル)をモデルにフィードする段階で的確に形状を管理することが重要です。つまり、予測をする際、各レビューは既にトークン化されていて、それらのベクトルはモデルに対して正しい形で与える必要があります: (batch_size, sequence_length)。ここで batch_size は一度に処理するデータの数、sequence_length は各データの長さ(トークン数)です。


torch.tensor(tokenizer.encode(tokenizer.cls_token) + tokenizer.encode(text, truncation=True, max_length=max_input_length-2) + tokenizer.encode(tokenizer.sep_token), dtype=torch.long)







上記の議論を踏まえて、torchtextを使用して "IMDb" データセットをダウンロードしDistilBertModelで感情分析するコードを書いてください。torchtextバージョン0.9.0以降で非推奨となった Field と BucketIterator のクラスを使わずにお願いします。





import torch
from torchtext.datasets import IMDB
from transformers import DistilBertTokenizerFast

tokenizer = DistilBertTokenizerFast.from_pretrained('distilbert-base-uncased')

def encode(examples):
    return tokenizer.batch_encode_plus(examples, padding='max_length', max_length=512, truncation=True)

text_transform = lambda x: encode([x])['input_ids'][0]

# Prepare raw text data
train_dataset, test_dataset = IMDB(split=('train', 'test'))
train_data = list(train_dataset)
test_data = list(test_dataset)

# Prepare dataset for model
X_train = [item[1] for item in train_data]
y_train = [0 if item[0] == 'neg' else 1 for item in train_data]

X_test = [item[1] for item in test_data]
y_test = [0 if item[0] == 'neg' else 1 for item in test_data]


from torch.utils.data import DataLoader
from torch.nn.utils.rnn import pad_sequence
from torch import LongTensor 

device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

def collate_batch(batch):
    label_list, text_list = [], []
    for (_label, _text) in batch:
    return pad_sequence(label_list).to(device), pad_sequence(text_list).permute(1, 0).to(device)

train_dataloader = DataLoader(list(zip(y_train, X_train)), batch_size=8, shuffle=True, collate_fn=collate_batch)
test_dataloader = DataLoader(list(zip(y_test, X_test)), batch_size=8, shuffle=False, collate_fn=collate_batch)


from torch import nn
from transformers import DistilBertModel
from torch.optim import AdamW

class SentimentClassifier(nn.Module):
    def __init__(self):
        super(SentimentClassifier, self).__init__()
        self.bert = DistilBertModel.from_pretrained('distilbert-base-uncased')
        self.out = nn.Linear(self.bert.config.dim, 2)

    def forward(self, x):
        return self.out(self.bert(x)[0][:,0,:])

# model to the GPU
model = SentimentClassifier().to(device)

# the classifier with the binary-cross-entropy loss and the AdamW optimizer
criterion = nn.CrossEntropyLoss()
optimizer = AdamW(model.parameters(), lr=1e-5)


def train(dataloader):
    total_acc, total_count = 0, 0
    for idx, (label, text) in enumerate(dataloader):
        prediction = model(text)
        loss = criterion(prediction, label.squeeze())
        torch.nn.utils.clip_grad_norm_(model.parameters(), 0.1)
        total_acc += (prediction.argmax(1) == label.squeeze()).sum().item()
        total_count += label.size(0)
    return total_acc/total_count

def evaluate(dataloader):
    total_acc, total_count = 0, 0
    with torch.no_grad():
        for idx, (label, text) in enumerate(dataloader):
            prediction = model(text)
            total_acc += (prediction.argmax(1) == label.squeeze()).sum().item()
            total_count += label.size(0)
    return total_acc/total_count


# number of training epochs

for epoch in range(EPOCHS):
    train_acc = train(train_dataloader)
    valid_acc = evaluate(test_dataloader)

    print(f"Epoch: {epoch+1}\nTrain accuracy: {train_acc}\nTest accuracy: {valid_acc}\n\n")




File ~/.local/lib/python3.10/site-packages/torch/utils/data/dataloader.py:674, in _SingleProcessDataLoaderIter._next_data(self)
    672 def _next_data(self):
    673     index = self._next_index()  # may raise StopIteration
--> 674     data = self._dataset_fetcher.fetch(index)  # may raise StopIteration
    675     if self._pin_memory:
    676         data = _utils.pin_memory.pin_memory(data, self._pin_memory_device)

File ~/.local/lib/python3.10/site-packages/torch/utils/data/_utils/fetch.py:54, in _MapDatasetFetcher.fetch(self, possibly_batched_index)
     52 else:
     53     data = self.dataset[possibly_batched_index]
---> 54 return self.collate_fn(data)

Cell In[2], line 11, in collate_batch(batch)
      9 for (_label, _text) in batch:
     10     label_list.append(LongTensor([_label]))
---> 11     text_list.append(LongTensor(_text))
     12 return pad_sequence(label_list).to(device), pad_sequence(text_list).permute(1, 0).to(device)

TypeError: new(): invalid data type 'str'


エラーメッセージから見るに、LongTensor(_text)でエラーが発生しているようです。torch.LongTensorは整数のテンソルを作成しますが、その引数に文字列 _text を渡そうとしているため、このエラーが発生していると考えられます。




# Prepare dataset for model
X_train = [text_transform(item[1]) for item in train_data]  # Using the encoding transformation created before
y_train = [0 if item[0] == 'neg' else 1 for item in train_data]

X_test = [text_transform(item[1]) for item in test_data]  # Same here
y_test = [0 if item[0] == 'neg' else 1 for item in test_data]




Epoch: 1
Train accuracy: 7.99744
Test accuracy: 8.0

Epoch: 2
Train accuracy: 8.0
Test accuracy: 8.0

Epoch: 3
Train accuracy: 8.0
Test accuracy: 8.0


結果を見ると、Train accuracyとTest accuracyが非常に高く(8.0)、モデルが適切に学習されているようには思えません。出力結果から重大な間違いが起きており、おそらく問題はラベルの処理にあります。


また、上記コードでは感情ラベル 'neg' を 0、 'pos' を 1 として変換していますが、一方で出力の評価では正解ラベルを取得するために argmax(1) を使っています。つまり、モデルの出力が2つのクラスに対する確率であり、取得しているのは大きい方のインデックスであれば意図した結果を取得できます。しかし、出力層が1つのユニットしかない場合、あるいは全体のスケーリングがオフであるなど、何かが間違っていると推定されます。






import random

# Randomly sample 10 examples from the training data
samples = random.sample(train_data, 10)

# Print each example's text and label
for i, sample in enumerate(samples):
    label, text = sample
    print(f'Sample {i+1}:')
    print(f'Text: {text[:500]}...')  # print the first 500 chars only
    print(f'Label: {"Negative" if label == "neg" else "Positive"}\n')





BERT(Bidirectional Encoder Representations from Transformers)は、NLP(自然言語処理)タスクに対する多様な応用例を持つモデルであり、その能力は基本的にテキストデータの特徴を精緻に捉えられることから来ています。BERTの応用例としては以下のようなものがあります。

  1. 感情分析: 上述のコード例におけるように、BERTは正または負の感情が表現されているかどうかを判断する感情分析タスクに使用されることが多いです。

  2. 文書分類: 新聞の記事がどのカテゴリーに属するかを予測する一連のタスクにもBERTを使用できます。

  3. 質問応答: BERTは質問応答システムにも使われています。ここでは、与えられた文章コンテキストの中から特定の質問に対する答えを見つけ出します。

  4. 命名エンティティ認識 (NER): BERTは、テキスト内の固有名詞 (人名、地名、会社名など)を認識するために使われます。これは情報抽出タスクにおいて重要なステップとなります。

  5. 文章生成: 最近ではBERTの亜種であるGPT-3などを使って、自然な文章を生成するタスクにも取り組まれています。

  6. 機械翻訳: BERTやその亜種は文書の自動翻訳にも利用されています。








We strongly recommend passing in an `attention_mask` since your input_ids may be padded. See https://huggingface.co/docs/transformers/troubleshooting#incorrect-output-when-padding-tokens-arent-masked.








import torch
from torch import LongTensor, nn
from torch.nn.utils.rnn import pad_sequence
from torch.optim import AdamW
from torch.utils.data import DataLoader
from torchtext.datasets import IMDB
from transformers import DistilBertModel, DistilBertTokenizerFast

tokenizer = DistilBertTokenizerFast.from_pretrained("distilbert-base-uncased")

def encode(examples):
    return tokenizer.batch_encode_plus(
        examples, padding="max_length", max_length=512, truncation=True

text_transform = lambda x: encode([x])["input_ids"][0]

# Prepare raw text data
train_dataset, test_dataset = IMDB(split=("train", "test"))
train_data = list(train_dataset)
test_data = list(test_dataset)

# Prepare dataset for model
X_train = [item[1] for item in train_data]
y_train = [0 if item[0] == "neg" else 1 for item in train_data]

X_test = [item[1] for item in test_data]
y_test = [0 if item[0] == "neg" else 1 for item in test_data]

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

# Prepare dataset for model
X_train = [
    text_transform(item[1]) for item in train_data
]  # Using the encoding transformation created before
y_train = [0 if item[0] == "neg" else 1 for item in train_data]

X_test = [text_transform(item[1]) for item in test_data]  # Same here
y_test = [0 if item[0] == "neg" else 1 for item in test_data]

def collate_batch(batch):
    label_list, text_list = [], []
    for _label, _text in batch:
    return pad_sequence(label_list).to(device), pad_sequence(text_list).permute(
        1, 0

train_dataloader = DataLoader(
    list(zip(y_train, X_train)), batch_size=8, shuffle=True, collate_fn=collate_batch
test_dataloader = DataLoader(
    list(zip(y_test, X_test)), batch_size=8, shuffle=False, collate_fn=collate_batch

class SentimentClassifier(nn.Module):
    def __init__(self):
        super(SentimentClassifier, self).__init__()
        self.bert = DistilBertModel.from_pretrained("distilbert-base-uncased")
        self.out = nn.Linear(self.bert.config.dim, 2)

    def forward(self, x):
        return self.out(self.bert(x)[0][:, 0, :])

# model to the GPU
model = SentimentClassifier().to(device)

# the classifier with the binary-cross-entropy loss and the AdamW optimizer
criterion = nn.CrossEntropyLoss()
optimizer = AdamW(model.parameters(), lr=1e-5)

def train(dataloader):
    total_acc, total_count = 0, 0
    for idx, (label, text) in enumerate(dataloader):
        prediction = model(text)
        loss = criterion(prediction, label.squeeze())
        torch.nn.utils.clip_grad_norm_(model.parameters(), 0.1)
        total_acc += (prediction.argmax(1) == label.squeeze()).sum().item()
        total_count += label.size(0)
    return total_acc / total_count

def evaluate(dataloader):
    total_acc, total_count = 0, 0
    with torch.no_grad():
        for idx, (label, text) in enumerate(dataloader):
            prediction = model(text)
            total_acc += (prediction.argmax(1) == label.squeeze()).sum().item()
            total_count += label.size(0)
    return total_acc / total_count

# number of training epochs

for epoch in range(EPOCHS):
    train_acc = train(train_dataloader)
    valid_acc = evaluate(test_dataloader)

        f"Epoch: {epoch+1}\nTrain accuracy: {train_acc}\nTest accuracy: {valid_acc}\n\n"



def encode(examples):
    return tokenizer.batch_encode_plus(
        examples, padding="max_length", max_length=512, truncation=True, return_attention_mask=True

text_transform = lambda x: encode([x])

X_train = [text_transform(item[1]) for item in train_data]
y_train = [0 if item[0] == 'neg' else 1 for item in train_data]

X_test = [text_transform(item[1]) for item in test_data]
y_test = [0 if item[0] == 'neg' else 1 for item in test_data]

def collate_batch(batch):
    label_list, text_list, attention_mask_list = [], [], []
    for _label, _text in batch:
    return pad_sequence(label_list).to(device), pad_sequence(text_list).permute(1, 0).to(device), pad_sequence(attention_mask_list).permute(1, 0).to(device)

train_dataloader = DataLoader(list(zip(y_train, X_train)), batch_size=8, shuffle=True, collate_fn=collate_batch)
test_dataloader = DataLoader(list(zip(y_test, X_test)), batch_size=8, shuffle=False, collate_fn=collate_batch)

class SentimentClassifier(nn.Module):
    def __init__(self):
        super(SentimentClassifier, self).__init__()
        self.bert = DistilBertModel.from_pretrained('distilbert-base-uncased')
        self.out = nn.Linear(self.bert.config.dim, 2)

    def forward(self, x, attention_mask):
        return self.out(self.bert(x, attention_mask=attention_mask)[0][:, 0, :])

def train(dataloader):
    total_acc, total_count = 0, 0
    for idx, (label, text, attention_mask) in enumerate(dataloader):
        prediction = model(text, attention_mask)

def evaluate(dataloader):
    total_acc, total_count = 0, 0
    with torch.no_grad():
        for idx, (label, text, attention_mask) in enumerate(dataloader):
            prediction = model(text, attention_mask)




エラーの原因は、pad_sequenceが作成するパディングされたテンソルが3次元である一方、permute関数が2次元の入力を想定しているため生じています。具体的に言うと、pad_sequenceはバッチ内の各シーケンスにパディングを追加し、その結果をテンソルにまとめます。一方、.permute(1, 0)は2次元テンソルの転置を試みています。


def collate_batch(batch):
    label_list, text_list, attention_mask_list = [], [], []
    for _label, _text in batch:
    return torch.tensor(label_list).to(device), pad_sequence(text_list, batch_first=True).to(device), pad_sequence(attention_mask_list, batch_first=True).to(device)

上記のコードでは、まずtorch.tensorを使ってinput_idsattention_maskのリストをテンソルに変換します。そして、pad_sequenceを使ってパディングを行いますが、ここで重要なのはbatch_first=Trueです。これにより、出力テンソルの次元は[batch_size, sequence_length]となります。permuteメソッドは不要になります。



このエラーは、queryテンソルから3つの要素をアンパックしようとしたときに発生していますが、queryテンソルには2つ以上の要素がありません。queryは推測される model(text, attention_mask) から返され、textattention_maskはそれぞれinput_idsattention_maskです。

このエラーを修正するためには、input_idsattention_maskをモデルに渡すときに、それらが次元 [batch_size, sequence_length] のテンソルであることを確認する必要があります。


def collate_batch(batch):
    label_list, text_list, attention_mask_list = [], [], []
    for _label, _text in batch:
    return torch.tensor(label_list).to(device), torch.cat(text_list).to(device), torch.cat(attention_mask_list).to(device)

この修正では、各 input_idsattention_maskのテンソルに対してunsqueeze(0)を呼び出して新しい次元を追加し、結果となるテンソルの形状が[batch_size, sequence_length]になるようにしています。最後に、torch.catを使用して全てのテンソルを結合します。



このエラーは、コードがqueryテンソルから3つの要素をアンパックしようとしているのに対し、 queryテンソルには3つの要素がないときに発生します。ここでのqueryself.attentionメソッドに渡される入力の一部です。

取り扱っているモデルはトランスフォーマーアーキテクチャを使っていて、そのforwardメソッドは通常3次元のテンソル (バッチサイズ x シーケンスの長さ x 埋め込み次元) を期待しますが、queryテンソルはこれを満たしていません。

このエラーを修正するには、queryテンソルが期待される形状を持つように修正する必要があります。これは通常、input_idsattention_maskをモデルに渡すときに、それらが次元 [batch_size, sequence_length] のテンソルであることを確認することで行います。したがって、input_idsattention_maskを生成または変換する部分のコードを確認し、それらが正しい形状を持つように修正する必要があります。



class SentimentClassifier(nn.Module):
    def __init__(self):
        super(SentimentClassifier, self).__init__()
        self.bert = DistilBertModel.from_pretrained("distilbert-base-uncased")
        self.out = nn.Linear(self.bert.config.dim, 2)

    def forward(self, x, attention_mask):
        return self.out(self.bert(x, attention_mask=attention_mask)[0][:, 0, :])


この部分のコードは問題ないように見えます。モデルの入力データがモデルにとって期待される形状を持つようにする責任は、大抵はデータの前処理やデータローダ部分にあります。つまり、データローダやそれに関連した箇所を探して、そこで input_idsattention_mask を正しい形状にする処理が行われているかを確認すべきです。

しかし注意点として、DistilBertModel のアウトプットについて知っておく必要があります。distilbert_model(input_ids, attention_mask=attention_mask)[0] のアウトプットは形状 [batch_size, sequence_length, hidden_size] のテンソルです。[:, 0, :] はこのテンソルの最初のトークン(各シーケンスの先頭)だけを取得します。そしてその先頭トークンを対象に最終出力層へと入力します。この挙動が意図したものであるならば、そのままでも問題ありません。

もし各シーケンス内の全てのトークンレベルで分類を行いたいのであれば、[:, 0, :]出なくともよく、self.out(self.bert(x, attention_mask=attention_mask)[0]) のようにすれば良いでしょう。



def collate_batch(batch):
    label_list, text_list, attention_mask_list = [], [], []
    for _label, _text in batch:
    return (


はい、おそらくこの関数の修正が必要となるでしょう。ここでバッチ内のそれぞれの input_idsattention_mask をプロパーな次元( [batch_size, sequence_length] )に整形しています。

しかしながら、現状のコードでは unsqueeze(0) を使用しているため、生成されるテンソルの次元は [1, sequence_length] となります。それがそのまま torch.cat に渡されてバッチ次元が増えるため、結果として [batch_size, 1, sequence_length] のような次元を持つテンソルが生成されます。

そのため、この問題を解決するためには unsqueeze(0) を削除することで各 input_idsattention_mask[sequence_length] の次元を持つようにし、それを torch.cat で結合しましょう。その結果、望む形のテンソルが得られるでしょう。


def collate_batch(batch):
    label_list, text_list, attention_mask_list = [], [], []
    for _label, _text in batch:
    return (

ここでは torch.tensor でリストをテンソルに変換し、次に torch.stack を使ってそれらをまとめています。torch.stack は新しい次元を追加してテンソルを結合しますが、torch.cat の代わりに torch.stack を使うことで望む形状を持つテンソルを得ることができます。



提案した修正が適用され、バッチ毎の入力テンソルinput_idsattention_maskの次元が (batch_size, sequence_length) になることを確認してみてください。これを確認する一つの方法は、train 関数内にデバッグプリントステートメントを追加することです。

def train(dataloader):
    total_accuracy = 0
    for idx, (label, text, attention_mask) in enumerate(dataloader):
        print(text.shape, attention_mask.shape)  # <- add debug print
        prediction = model(text, attention_mask)

このデバッグプリントが形状 (batch_size, sequence_length)を出力することで、上記の問題が解決したことが確認できます。


torch.Size([8, 1, 512]) torch.Size([8, 1, 512])



ありがとうございます。出力から見ると、textattention_maskの形状がまだ(batch_size, 1, sequence_length)となっています。これはおそらくデータの前処理やデータローダ部に問題があるからでしょう。その結果、モデルが想定している形状(batch_size, sequence_length)とは異なります。

修正案は、collate_batch関数で各input_idsattention_mask[batch_size, sequence_length]の形状になるようにします。具体的には、unsqueeze(0)を削除して、torch.stackを使用しましょう。


def collate_batch(batch):
    label_list, text_list, attention_mask_list = [], [], []
    for _label, _text in batch:
    return (







def collate_batch(batch):
    label_list, text_list, attention_mask_list = [], [], []
    for _label, _text in batch:
    debug_text_shape = torch.stack(text_list).shape
    debug_mask_shape = torch.stack(attention_mask_list).shape 
    print(f"Debug shapes text: {debug_text_shape}, mask: {debug_mask_shape}")  # debug print
    return (



Debug shapes text: torch.Size([8, 1, 512]), mask: torch.Size([8, 1, 512])
torch.Size([8, 1, 512]) torch.Size([8, 1, 512])




  • Datasetの実装部分で、特に__getitem__の中で、input_idsattention_maskが作られている部分を確認してみてください。これらはおそらくリストまたは1次元のテンソルとして作られているべきです。もしunsqueeze(0)のような操作を行って2次元にしている場合、それが原因かもしれません。

  • DataLoaderを作るときに、既存のcollate_fnを使用しているのか、あるいは全く使用していないのかを確認してみてください。既存のcollate_fnが問題を引き起こしている場合、これを上記で定義したcollate_batch関数で置き換えることをおすすめします。もしcollate_fnが設定されていない場合は、DataLoadercollate_fn=collate_batchと設定します。




# Prepare raw text data
train_dataset, test_dataset = IMDB(split=("train", "test"))
train_data = list(train_dataset)
test_data = list(test_dataset)

# Prepare dataset for model
X_train = [text_transform(item[1]) for item in train_data]
y_train = [0 if item[0] == "neg" else 1 for item in train_data]

X_test = [text_transform(item[1]) for item in test_data]
y_test = [0 if item[0] == "neg" else 1 for item in test_data]

# Prepare dataset for model
X_train = [
    text_transform(item[1]) for item in train_data
]  # Using the encoding transformation created before
y_train = [0 if item[0] == "neg" else 1 for item in train_data]

X_test = [text_transform(item[1]) for item in test_data]  # Same here
y_test = [0 if item[0] == "neg" else 1 for item in test_data]

train_dataloader = DataLoader(
    list(zip(y_train, X_train)), batch_size=8, shuffle=True, collate_fn=collate_batch
test_dataloader = DataLoader(
    list(zip(y_test, X_test)), batch_size=8, shuffle=False, collate_fn=collate_batch




したがって、text_transform関数が2次元のテンソル(特に形状が[1, sequence_length]のような)を返している場合、それを1次元に修正してみてください。具体的には、unsqueeze(0)のような操作を削除する、またはsqueeze(0)を追加することで修正できます。



text_transform = lambda x: encode([x])







したがって、encode関数が2次元のテンソル(特に形状が[1, sequence_length]のような)を返している場合、それを1次元に修正してみてください。具体的には、unsqueeze(0)のような操作を削除する、またはsqueeze(0)を追加することで修正できます。


def encode(examples):
    return tokenizer.batch_encode_plus(







最後に考えられるのは、tokenizer.batch_encode_plus が返す input_idsattention_mask の形が何らかの理由で2次元になってしまっているのかもしれません。以下のようにデバッグプリントを追加して確認してみてください。

def encode(examples):
    encoded = tokenizer.batch_encode_plus(
    debug_inp_ids_shape = encoded["input_ids"].shape
    debug_att_mask_shape = encoded["attention_mask"].shape
    print(f"Debug shapes inp_ids: {debug_inp_ids_shape}, att_mask: {debug_att_mask_shape}") 
    return encoded

もしここで2次元のテンソル(例えば、形状が [1, 512])が出力されるのであれば、ここが問題の原因となります。この結果に基づいて、tokenizer.batch_encode_plusの動作を調べてみてください。自分で明示的に新しい次元を追加しているとか、それとも使用している特定のトークナイザが独自の形状を返しているとか、理由は様々考えられます。



def encode(examples):
    encoded = tokenizer.batch_encode_plus(
    debug_inp_ids_shape = len(encoded["input_ids"][0])  # First list's length
    debug_att_mask_shape = len(encoded["attention_mask"][0])  # First list's length
    print(f"Debug shapes inp_ids: {debug_inp_ids_shape}, att_mask: {debug_att_mask_shape}") 
    return encoded




Debug shapes inp_ids: 512, att_mask: 512





for i, (labels, input_ids, attention_masks) in enumerate(train_dataloader):
    if i < 5:  # Print only the first 5 batches
        print(f"Batch {i} labels: {labels}")
        print(f"Batch {i} input ids: {input_ids}")
        print(f"Batch {i} attention masks: {attention_masks}")





Debug shapes text: torch.Size([8, 1, 512]), mask: torch.Size([8, 1, 512])
Batch 0 labels: tensor([1, 1, 1, 1, 1, 1, 1, 1], device='cuda:0')
Batch 0 input ids: tensor([[[  101,  1996,  3185,  ...,     0,     0,     0]],

        [[  101, 10166,  2023,  ...,     0,     0,     0]],

        [[  101,  3100,  1010,  ...,     0,     0,     0]],


        [[  101,  2004,  2521,  ...,     0,     0,     0]],

        [[  101,  1011,  2919,  ...,     0,     0,     0]],

        [[  101, 28038,  1010,  ..., 12114,  9969,   102]]], device='cuda:0')
Batch 0 attention masks: tensor([[[1, 1, 1,  ..., 0, 0, 0]],

        [[1, 1, 1,  ..., 0, 0, 0]],

        [[1, 1, 1,  ..., 0, 0, 0]],


        [[1, 1, 1,  ..., 0, 0, 0]],

        [[1, 1, 1,  ..., 0, 0, 0]],

        [[1, 1, 1,  ..., 1, 1, 1]]], device='cuda:0')
Debug shapes text: torch.Size([8, 1, 512]), mask: torch.Size([8, 1, 512])
Batch 1 labels: tensor([1, 1, 1, 1, 1, 1, 1, 1], device='cuda:0')
Batch 1 input ids: tensor([[[  101,  1045,  2064,  ...,  7106, 18781,   102]],

        [[  101,  2474,  9588,  ...,     0,     0,     0]],

        [[  101,  2383,  2074,  ...,     0,     0,     0]],


        [[  101,  2292,  2033,  ...,  3977,  1997,   102]],

        [[  101,  2065,  2069,  ...,     0,     0,     0]],

        [[  101,  2023,  3185,  ...,     0,     0,     0]]], device='cuda:0')
Batch 1 attention masks: tensor([[[1, 1, 1,  ..., 1, 1, 1]],

        [[1, 1, 1,  ..., 0, 0, 0]],

        [[1, 1, 1,  ..., 0, 0, 0]],


        [[1, 1, 1,  ..., 1, 1, 1]],

        [[1, 1, 1,  ..., 0, 0, 0]],

        [[1, 1, 1,  ..., 0, 0, 0]]], device='cuda:0')
Debug shapes text: torch.Size([8, 1, 512]), mask: torch.Size([8, 1, 512])
Batch 2 labels: tensor([1, 1, 1, 1, 1, 1, 1, 1], device='cuda:0')
Batch 2 input ids: tensor([[[  101,  2023,  2003,  ...,     0,     0,     0]],

        [[  101,  1045,  2572,  ...,     0,     0,     0]],

        [[  101, 15252, 10556,  ...,  1010,  4098,   102]],


        [[  101,  1000, 20816,  ...,     0,     0,     0]],

        [[  101,  1045,  6618,  ...,     0,     0,     0]],

        [[  101,  3083,  3427,  ...,     0,     0,     0]]], device='cuda:0')
Batch 2 attention masks: tensor([[[1, 1, 1,  ..., 0, 0, 0]],

        [[1, 1, 1,  ..., 0, 0, 0]],

        [[1, 1, 1,  ..., 1, 1, 1]],


        [[1, 1, 1,  ..., 0, 0, 0]],

        [[1, 1, 1,  ..., 0, 0, 0]],

        [[1, 1, 1,  ..., 0, 0, 0]]], device='cuda:0')
Debug shapes text: torch.Size([8, 1, 512]), mask: torch.Size([8, 1, 512])
Batch 3 labels: tensor([1, 1, 1, 1, 1, 1, 1, 1], device='cuda:0')
Batch 3 input ids: tensor([[[  101,  1045,  2428,  ...,     0,     0,     0]],

        [[  101,  2023,  2003,  ...,     0,     0,     0]],

        [[  101,  1045,  2387,  ...,     0,     0,     0]],


        [[  101,  1045,  2228,  ...,     0,     0,     0]],

        [[  101,  2045,  1005,  ...,     0,     0,     0]],

        [[  101,  4763, 12114,  ...,     0,     0,     0]]], device='cuda:0')
Batch 3 attention masks: tensor([[[1, 1, 1,  ..., 0, 0, 0]],

        [[1, 1, 1,  ..., 0, 0, 0]],

        [[1, 1, 1,  ..., 0, 0, 0]],


        [[1, 1, 1,  ..., 0, 0, 0]],

        [[1, 1, 1,  ..., 0, 0, 0]],

        [[1, 1, 1,  ..., 0, 0, 0]]], device='cuda:0')
Debug shapes text: torch.Size([8, 1, 512]), mask: torch.Size([8, 1, 512])
Batch 4 labels: tensor([1, 1, 1, 1, 1, 1, 1, 1], device='cuda:0')
Batch 4 input ids: tensor([[[ 101, 2023, 2003,  ...,    0,    0,    0]],

        [[ 101, 2035, 6077,  ...,    0,    0,    0]],

        [[ 101, 2023, 3185,  ...,    0,    0,    0]],


        [[ 101, 2009, 3138,  ...,    0,    0,    0]],

        [[ 101, 2023, 3185,  ...,    0,    0,    0]],

        [[ 101, 1045, 2001,  ...,    0,    0,    0]]], device='cuda:0')
Batch 4 attention masks: tensor([[[1, 1, 1,  ..., 0, 0, 0]],

        [[1, 1, 1,  ..., 0, 0, 0]],

        [[1, 1, 1,  ..., 0, 0, 0]],


        [[1, 1, 1,  ..., 0, 0, 0]],

        [[1, 1, 1,  ..., 0, 0, 0]],

        [[1, 1, 1,  ..., 0, 0, 0]]], device='cuda:0')


出力を確認すると、入力データの形状が (8, 1, 512)となっていることが分かります。一般的なトランスフォーマーチュートリアルでは形状が (8, 512) であることが期待されます。それはBatch sizeが 8(これは正しい)で、各エンコードされた文が 512 トークン(これも正しい)であるべきです。余分な 1 という次元が発生している原因を特定するために、encode 関数を再度確認します:

def encode(examples):
    encoded = tokenizer.batch_encode_plus(
    return {"input_ids": encoded["input_ids"][0], "attention_mask": encoded["attention_mask"][0]}

ソースコードの形状と一致していますか?タプルが text_transform 関数で作成される方法も確認してください:

def collate_batch(batch):
    label_list, text_list, attention_mask_list = [], [], []
    for _data in batch:
    return (




エラーメッセージNameError: name 'label_transform' is not definedから、label_transformという関数または変数が定義されていないことが分かります。







for _data in batch:

ただし、元々のコードはHugging Faceのtokenizerを使用しており、このtokenizerは通常、既にテンソルを返します。なので、問題はそれ以前のステップ、特にtokenizerの使用方法にある可能性があります。tokenizerが実際にテンソルを返していない場合は、上記の修正で問題が解決すべきです。tokenizerがすでにテンソルを返している場合、問題は単にテンソルをリストに変換してしまう別の部分にあるかもしれません。



Epoch: 1
Train accuracy: 0.99944
Test accuracy: 1.0

Epoch: 2
Train accuracy: 1.0
Test accuracy: 1.0

Epoch: 3
Train accuracy: 1.0
Test accuracy: 1.0


おめでとうございます!学習が成功裏に完了し、精度が 非常に高いことが確認できます。ただし、学習では、正解率が100%に近いことが何かしらの問題を示す可能性があります。常に完全正確さを達成することは難しく、ほぼ100%の精度は適合または過学習を示している可能性があります。





import torch
from torch import LongTensor, nn
from torch.nn.utils.rnn import pad_sequence
from torch.optim import AdamW
from torch.utils.data import DataLoader
from torchtext.datasets import IMDB
from transformers import DistilBertModel, DistilBertTokenizerFast

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
tokenizer = DistilBertTokenizerFast.from_pretrained("distilbert-base-uncased")

def encode(examples):
    encoded = tokenizer.batch_encode_plus(
    return {
        "input_ids": encoded["input_ids"][0],
        "attention_mask": encoded["attention_mask"][0],

def collate_batch(batch):
    label_list, text_list, attention_mask_list = [], [], []
    for _data in batch:
    return (

text_transform = lambda x: encode([x])

# Prepare raw text data
train_dataset, test_dataset = IMDB(split=("train", "test"))
train_data = list(train_dataset)
test_data = list(test_dataset)

# Prepare dataset for model
X_train = [text_transform(item[1]) for item in train_data]
y_train = [0 if item[0] == "neg" else 1 for item in train_data]

X_test = [text_transform(item[1]) for item in test_data]
y_test = [0 if item[0] == "neg" else 1 for item in test_data]

# Prepare dataset for model
X_train = [
    text_transform(item[1]) for item in train_data
]  # Using the encoding transformation created before
y_train = [0 if item[0] == "neg" else 1 for item in train_data]

X_test = [text_transform(item[1]) for item in test_data]  # Same here
y_test = [0 if item[0] == "neg" else 1 for item in test_data]

train_dataloader = DataLoader(
    list(zip(y_train, X_train)), batch_size=8, shuffle=True, collate_fn=collate_batch
test_dataloader = DataLoader(
    list(zip(y_test, X_test)), batch_size=8, shuffle=False, collate_fn=collate_batch

class SentimentClassifier(nn.Module):
    def __init__(self):
        super(SentimentClassifier, self).__init__()
        self.bert = DistilBertModel.from_pretrained("distilbert-base-uncased")
        self.out = nn.Linear(self.bert.config.dim, 2)

    def forward(self, x, attention_mask):
        return self.out(self.bert(x, attention_mask=attention_mask)[0][:, 0, :])

# model to the GPU
model = SentimentClassifier().to(device)

# the classifier with the binary-cross-entropy loss and the AdamW optimizer
criterion = nn.CrossEntropyLoss()
optimizer = AdamW(model.parameters(), lr=1e-5)

def train(dataloader):
    total_acc = 0
    total_count = 0
    for idx, (label, text, attention_mask) in enumerate(dataloader):
        prediction = model(text, attention_mask)
        loss = criterion(prediction, label.squeeze())
        torch.nn.utils.clip_grad_norm_(model.parameters(), 0.1)
        total_acc += (prediction.argmax(1) == label.squeeze()).sum().item()
        total_count += label.size(0)
    return total_acc / total_count

def evaluate(dataloader):
    total_acc, total_count = 0, 0
    with torch.no_grad():
        for idx, (label, text, attention_mask) in enumerate(dataloader):
            prediction = model(text, attention_mask)
            total_acc += (prediction.argmax(1) == label.squeeze()).sum().item()
            total_count += label.size(0)
    return total_acc / total_count

# number of training epochs

for epoch in range(EPOCHS):
    train_acc = train(train_dataloader)
    valid_acc = evaluate(test_dataloader)

        f"Epoch: {epoch+1}\nTrain accuracy: {train_acc}\nTest accuracy: {valid_acc}\n\n"



  1. ライブラリと依存関係のインポート: 必要なライブラリ(torch, transformers等)をインポートしています。依存関係やプリトレーニングされたモデル(この場合は distilbert-base-uncased)をダウンロード・読み込んでいます。

  2. エンコード関数の定義: Hugging Faceのtokenizerを使用してテキストデータをエンコード(数値化)します。このエンコードはトークン化、数値化、そして最大長へのパディングを行います。

  3. バッチ処理関数の定義: トークン化されたテキストデータとラベルをバッチ処理する関数を定義しています。テンソルをdevice(GPUまたはCPU)に送ることで、後でモデルの学習と評価ができます。

  4. データの前処理: IMDBデータセットをロードし、訓練データとテストデータに分割します。その後、ラベルは数値(0または1)に、テキストデータはエンコードします。

  5. データローダの作成: データセットからバッチを作成し、シャッフルまたは非シャッフルを選択できます。バッチ処理関数も指定しています。

  6. モデルの定義: DistilBertモデルと、それに続く2クラス分類器から成るモデルを定義します。モデルの重複パラメータの初期化も行います。

  7. 学習と評価関数の定義: 学習(train)と評価(evaluate)の関数を定義します。学習関数はモデルのパラメータを更新し、評価関数はモデルの性能を評価します。

  8. 学習ループ: 学習エポック数に基づいて訓練データで学習(train)し、テストデータで評価(evaluate)して、その精度を出力します。







