##Comprehendとは
自然言語処理を行うAIサービスです。主に①言語検出、②感情分析、③キーフレーズ抽出、④エンティティ認識、⑤構文解析の処理を行い情報を取得することができます。
今回は①の言語検出と②の感情分析を紹介させていただきます。
##言語の検出
初めに言語の検出を実行して行きます。
以下の文章の言語を検出します。
私はこれから起こる出来事を楽しみにしています。
この文章の言語を検出して行きましょう。
検出するpythonファイルの概要
①ライブラリのインポート
②comprehend作成
③言語検出と表示
import boto3
import json
comprehend = boto3.client('comprehend', 'ap-northeast-1')
text = "私はこれから起こる出来事を楽しみにしています。"
result = comprehend.detect_dominant_language(Text=text)
print(json.dumps(result, indent=4))
comp_japanese.pyを実行します。
python comp_japanese.py
###実行結果
{
"Languages": [
{
"LanguageCode": "ja",
"Score": 1.0
}
],
"ResponseMetadata": {
文章が日本語であるということを検出しています。
##感情の分析
次にconprehendを用いて感情の分析を行なって行きましょう。
文章は先ほどの文章で分析を行なって行きます。
感情分析を行うpythonファイルの概要
①ライブラリのインポート
②comprehend作成
③感情分析と表示
import boto3
import json
comprehend = boto3.client('comprehend','ap-northeast-1')
text = "私はこれから起こる出来事を楽しみにしています。"
result = comprehend.detect_sentiment(Text=text, LanguageCode='ja')
print(json.dumps(result, indent=4))
comp_sentiment.pyを実行
python comp_sentiment.py
###実行結果
{
"Sentiment": "POSITIVE",
"SentimentScore": {
"Positive": 0.9983951449394226,
"Negative": 0.0002934910589829087,
"Neutral": 0.0013023141073063016,
"Mixed": 9.037842573889066e-06
},
文章が肯定的であるという結果になりました。
他にも文章によっては否定的(Negative),中立的(Neutral),混じった感情(Mixed)というスコアが与えられています。
この文章は肯定的というのは正しい結論と言える。
##CSVファイルの感情を分析してみる
最後にcsvファイルの文章の感情分析を行なって行きましょう。
以下のcsvファイルの感情分析を行なって行きます。
その結果は素晴らしいですね。
その料金は高いです。
今回ご契約いただくのはお得ですね。
料金は高いですが、サービスが素晴らしいのですね。
csvファイルの感情分析を行うpythonファイルの概要
①ライブラリのインポート
②comprehendの作成
③csvファイルを開きfor文で1行ずつ分析
④原文と分析結果、スコアの表示
import boto3
import csv
comprehend = boto3.client('comprehend', 'ap-northeast-1')
with open('sentiment.csv', 'r', encoding='utf-8') as file:
for row in csv.reader(file):
result_comp = comprehend.detect_sentiment(
Text=row[0], LanguageCode='ja')
print(row[0])
print(result_comp['Sentiment'])
for key, value in result_comp['SentimentScore'].items():
print(' {:10} {}'.format(key, value))
print()
comp_sentiment_csv.pyを実行
python comp_sentiment_csv.py
###実行結果
その結果は素晴らしいですね。
POSITIVE
Positive 0.9997738003730774
Negative 3.3891989005496725e-05
Neutral 0.0001706768525764346
Mixed 2.1686157197109424e-05
その料金は高いです。
NEGATIVE
Positive 0.11720975488424301
Negative 0.8386894464492798
Neutral 0.04406021162867546
Mixed 4.061001163790934e-05
今回ご契約いただくのはお得ですね。
POSITIVE
Positive 0.989083468914032
Negative 0.002980673685669899
Neutral 0.007930162362754345
Mixed 5.5876575970614795e-06
料金は高いですが、品質が素晴らしいのですね。
MIXED
Positive 0.20779219269752502
Negative 8.993058872874826e-05
Neutral 8.160676225088537e-05
Mixed 0.7920363545417786
実行結果をみると各文章の肯定か否定かそれとも混じった感情かが結果として表示されてます。また各感情のスコアも表示されています。
(eは自然対数のため、3.3891989005496725e-05はpythonで0.0000338920となります)
自然対数の解説はこちら
Pythonで数字がおかしくなる 3.209e-05って何? 浮動小数点と解決方法
##まとめ
今回はcomprehendを用いて文章から感情を分析してみました。comprehendは大手のtranscribeと組み合わせてコールセンターの顧客分析に用いられているようです。
##引用
Pythonで数字がおかしくなる 3.209e-05って何? 浮動小数点と解決方法
##参考文献
この記事は以下の情報を参考にして執筆しました
AWSでつくるAIプログラミング入門