More than 5 years have passed since last update.

「きたねえ花火だ」は汚くないのか、Amazon Comprehendに分析させてみた

Last updated at 2020-01-05Posted at 2020-01-05

ボンッ！！！！

へっ！　きたねえ花火だ

ベジータの名台詞ですよね

ただ、あのセリフを言うのには1つ条件があると思うんです。

それは**「言う方が汚くないこと」**

「汚い」って相対的なものじゃないですか

「外で遊んでメチャクチャ汚れてる男の子」と「室内で遊んでたから特に汚れてない女の子」が隣に並ぶからこそ男の子は「汚い」と思うわけです。

また、「汚い」という言葉には「物理的に汚い」という意味の他に**「精神的に汚い」**という意味もあります。

「ずる賢い」「悪い」人のことを「汚い人間」というアレです。

ですから、ベジータがドロドロに汚れてて、相手を倒すためだったらどんな卑怯な手も使うみたいな汚れ人間だったら、

「きたねえ花火だ」

「お前のほうが汚えわ！」

と言えてしまうので、あの名台詞は矛盾しているということになります。

同様に言葉にも「汚い言葉遣い」という表現がありますよね

なのであの「きたねえ花火だ」というセリフも汚くては使ってはいけないということになります。

今回はベジータも含め、**Amazon Comprehendを用いて、あの名台詞は汚いの？綺麗なの？**というところを検証していきたいと思います。

検証方法

そもそも、Amazon Comprehendというのは、英語の文章を投げると、それがネガティブな言葉なのか、ボジティブな言葉なのかというのを数値化して判断してくれる自然言語処理のサービスです。

今回は**「ネガティブな言葉は汚れている」**と仮定して、果たしてあの名台詞はどうなのかというのをComprehendに判断してもらおうと思います。

また、Comprehendは英語の文章しか対応していないので、同じくAWSのサービスであるAmazon Translateという翻訳のサービスを用いて、日本語の文章を英語に直してからComprehendに投げたいと思います。

コード

コードはこんな感じです

dirty_check.py

# 各種インポート
import boto3
import json
import sys

# コマンドライン引数が2つじゃなかったら抜ける
if len(sys.argv) != 2:
    print('python', sys.argv[0], 'sentence')
    exit()

# クライアントサービスを作成
translate = boto3.client('translate')
comprehend = boto3.client('comprehend', 'us-east-2')

# 日本語表示
text_ja = sys.argv[1]
print('日本語:', text_ja)

# 翻訳
result = translate.translate_text(
    Text=text_ja, SourceLanguageCode='ja', TargetLanguageCode='en')
text_en = result['TranslatedText']

# 英語表示
print('英語:', text_en)

# 汚いのかどうか判断
result = comprehend.detect_sentiment(Text=text_en, LanguageCode='en')

# 結果表示
print(json.dumps(result, indent=4))