More than 1 year has passed since last update.

BERTとLUKEの感情分析の精度を比較してみた（既存のモデルvs自作のモデル）

Last updated at 2023-01-03Posted at 2022-12-29

こんにちにゃんです。
水色桜（みずいろさくら）です。
今回は前回の記事で作成したLUKEでの感情分析モデルと既存のモデル（BERT）の精度面の比較を行っていこうと思います。

結論

感情スコアベースの比較では、作成したモデルは既存のモデルより、高い正答率となり、誤差も小さかった。

BERTを用いた際の誤差は0.4051273187220645
BERTを用いた際の正答率は66.17647058823523%
LUKEを用いた際の誤差はtensor(0.2993, grad_fn=<AddBackward0>)
LUKEを用いた際の正答率は73.5294117647058%

作成した感情分析モデルを使用してみたいという方は下記の記事から使用してみてください。初心者でも簡単に使用できるようになっています。

LUKE

2020年4月当時、5つのタスクで世界最高精度を達成した新しい言語モデル。
日本語バージョンのLUKEは執筆現在（2022年12月）も4つのタスクで最高スコアを有しています。RoBERTaを元として構成され、entity-aware self-attentionという独自のメカニズムを用いています。LUKEに関して詳しくは下記記事をご覧ください。

比較手法

下記のコードと文章群を用いて、それぞれのモデルについて正答率と誤差を算出しました。

analysis.py

import torch
from transformers import MLukeTokenizer
from torch import nn 
import re
from transformers import pipeline, AutoModelForSequenceClassification, BertJapaneseTokenizer

with open('Sentiment_accuracy_analysis2.txt', encoding = 'utf-8') as file:
    text_pre = file.read()
    text = re.split('\n|　', text_pre)


model_bert = AutoModelForSequenceClassification.from_pretrained('daigo/bert-base-japanese-sentiment') 
tokenizer_bert = BertJapaneseTokenizer.from_pretrained('cl-tohoku/bert-base-japanese-whole-word-masking')
nlp = pipeline("sentiment-analysis",model=model_bert,tokenizer=tokenizer_bert)

num_bert = 0
num_luke = 0
acc_bert = 0
acc_luke = 0

for i in range(len(text)//2):
            result=nlp(text[2*i])
            num=re.findall(r'\d+',str(result))
            num0='0.'+num[1]
            value=float(num0)
            teacher = float(text[2*i+1])
            if value>0.95 and teacher>0.5:
                acc_bert += 2/(len(text))
            elif value <0.95 and teacher <0.5:
                acc_bert += 2/(len(text))
            num_bert+=(teacher - value)**2/(len(text)//2)

print('BERTを用いた際の誤差は' + str(num_bert))
print('BERTを用いた際の正答率は' + str(acc_bert*100) + '%')

tokenizer = MLukeTokenizer.from_pretrained('studio-ousia/luke-japanese-base-lite')
model = torch.load('My_luke_model_pn.pth')

for i in range(len(text)//2):
    encoded_dict = tokenizer.encode_plus(
                            text[2*i],                     
                            return_attention_mask = True,   # Attention maksの作成
                            return_tensors = 'pt',     #  Pytorch tensorsで返す
                    )

    pre = model(encoded_dict['input_ids'], token_type_ids=None, attention_mask=encoded_dict['attention_mask'])
    SOFTMAX=nn.Softmax(dim=0)
    num=SOFTMAX(pre.logits[0])
    teacher = float(text[2*i+1])
    if num[1] < 0.95 and teacher < 0.5:
        acc_luke += 2/(len(text))
    elif num[1] > 0.95 and teacher > 0.5:
        acc_luke += 2/(len(text))
    num_luke += (num[1] - teacher)**2/(len(text)//2)

print('LUKEを用いた際の誤差は' + str(num_luke))
print('LUKEを用いた際の正答率は' + str(acc_luke*100) + '%')

分析に用いた文章群

今日は楽しかった　１おいしいスイーツを食べられて幸せだった　１美玲さんの歌声は最高だ　１なんか今日は調子が良い　１この商品は使い心地がいい　１お姉さんは優しい　１あの人はハンサムだ　１この紅茶は香りが上品だ　１このクリームを使ってから肌がいい感じだ　１この本はとても役に立った　１学校で褒められてうれしかった　１私は優香ちゃんのことが好きだ　１先生は優しくて好きだ　１この前のライブは最高だった　１プレゼントをもらえてうれしかった　１四つ葉のクローバーが見つかって幸せな気持ちになった　１このクッキーはとてもおいしい　１家でまったり過ごすのも悪くない　１彼女は怒らないので好きだ　１このピーマンは苦くないので、食べられる　１サッカーをするのは楽しい　１このはさみは様々な機能があって役に立つ　１優しいあなたが好き　１この商品は状態が良い　１梱包も丁寧で素晴らしい　１昨日家に来た人は感じが良かった　１今日は遊園地に行って楽しかった　１このコードは読みやすい　１この講義は内容がわかりやすい　１あなたのことを一生愛し続けると誓う　１寝顔さえも愛おしい　１この香りは好ましい　１剣道の試合はやっぱり楽しい　１お母さんに褒められてうれしかった　１今日は雨が降って気分も落ち込む　０テストで赤点をとってへこんだ　０お母さんに怒られて最悪だった　０すぐ壊れるなんてありえない　０この芳香剤はにおいがきつくて苦手だ　０図書館にいったのに騒がしい人がいて嫌だった　０昨日部活で突き指をしてしまって痛かった　０スマホを落とした時、画面が割れてしまった　０いつも怒ってばかりいる人は嫌いだ　０お菓子を食べようと思ったら鳥に取られてしまった　０イメージと全く違う商品が届いて怒りしかない　０お正月に食べ過ぎて太ってしまった　０本音が言えなくて苦しい　０今日友達と喧嘩をしてしまい最悪だった　０単身赴任で寂しい　０新しい学校で友達ができなくてつらい　０思いっきり転んでしまってけがをしてしまった　０こんなプレゼントは全く嬉しくない　０こんな些細なミスでチャンスを台無しにしてしまうなんて笑えない　０この競技は全く楽しくない　０子供が独り立ちして寂しくなる　０この紅茶は苦くて苦手だ　０あの芸人は不細工だ　０あの人の話し方は下品だ　０こんなに努力してるのに評価されないのは不満だ　０負けたのに負けを認めないのは醜い　０テントが簡素すぎてひいた　０財布を落としてしまうなんて最悪だ　０命乞いをするなんて美しくない　０声が小さい人をみるといらだつ　０相手が格下だと思ってあなどる　０おばあちゃんが亡くなった　０最後の最後に負けてしまうなんて最悪だ　０いかがわしいコンテンツが表示された　０

終わりに

今回作成したモデルは既存モデルより若干精度が良かったとはいえ、遠回しな言い回しなどに関してはまだ正確に判定できない部分もあります。
今後より精度の高いモデルを構築できるように微調整をしていこうと思います。
では、ばいにゃん～。

参考

著者である山田先生には感謝いたします

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up