目次
1.はじめに(完成形ご紹介)
2.元データについて
3.前処理
4.LLMレシピを活用したデータ加工(非構造化→構造化)
5.後処理
6.Tableauで可視化
7.おわりに
1. はじめに(完成形ご紹介)
40,000件の俳句データを集め、その中から桜に関する言葉を含む俳句(約900)に焦点を当て、深い分析を行いました。Dataiku上で生成AI使用をし、感情分析、形態素解析、カナ変換などのデータ加工を経て、Tableauで視覚化しました。
この分析で3つの洞察を得ることができました。
1.感情分析によれば、哀愁を帯びた寂しさを感じさせる俳句が最も多かった。人はさみしい・わびしい時に俳句をよみたくなるんですね
2.桜(サクラ)という単語は、俳句の下五の句に51%の割合で現れ、結句に最も用いられている
3."咲く"と"散る"という動詞がほぼ等しく使用されており、これは咲くという喜びと同じくらい桜が散る儚さに心を動かされていることの表れと言えます。
2. 元データについて
こちらにある俳句データ40000件ある俳句のデータを拝借しました。
こんな感じ。これ分析してって渡されても泣いちゃいますよね。。。
メジャーもディメンションもないじゃん(泣)って、、
3. 前処理
3-1. 行番号をふる
ノーコードでできるはずだけど、パッと思いつかなかったのでChat GPTにPythonコード書いてもらってPythonレシピで実装。
コピペして入力データと出力データの名前変えるだけ
3-2. ”さくら”が入っている俳句に絞る
フィルタレシピで関連する語句が含まれているものだけをフィルタで残す
これで40000件→900件へ
4. LLMレシピを活用したデータ加工(非構造化→構造化)
4-1.感情分析
LLMレシピでPrompt Studioで下記の通りプロンプトを書いて実行!
4-2.形態素分析
4-3.俳句を上五・中七・下五に分解
そこで一度カタカナに直してからのほうが精度が高くなるのでは?と閃く
精度を良くするポイントは例示(Examples)を書いてあげること
5. 後処理
6. Tableauで可視化
省略。
(今Tableau Publicにログインできないのでカスタマーサポートにお問合せ中)
7. おわりに
DataikuのLLMレシピを活用することで非構造化データを構造化し分析していくことができるようになりました。それをTableauの表現力で魅せることで、インサイトが伝わります。
最後に一句。
桜が咲くと同じくらい散る時に人間は心が動いて俳句を詠むんだなというインサイトがDataikuの分析(カワセミ閃く)で得ることができて、Tableau(散る桜で彩られている水面)で表現しました。
この俳句も背景も生成AIで作っています。