2
2

俳句をDataiku上でLLMレシピを用いて構造化し、Tableauで可視化してみた

Last updated at Posted at 2024-04-09

目次

1.はじめに(完成形ご紹介)
2.元データについて
3.前処理
4.LLMレシピを活用したデータ加工(非構造化→構造化)
5.後処理
6.Tableauで可視化
7.おわりに

1. はじめに(完成形ご紹介)

40,000件の俳句データを集め、その中から桜に関する言葉を含む俳句(約900)に焦点を当て、深い分析を行いました。Dataiku上で生成AI使用をし、感情分析、形態素解析、カナ変換などのデータ加工を経て、Tableauで視覚化しました。

この分析で3つの洞察を得ることができました。

1.感情分析によれば、哀愁を帯びた寂しさを感じさせる俳句が最も多かった。人はさみしい・わびしい時に俳句をよみたくなるんですね

2.桜(サクラ)という単語は、俳句の下五の句に51%の割合で現れ、結句に最も用いられている

3."咲く"と"散る"という動詞がほぼ等しく使用されており、これは咲くという喜びと同じくらい桜が散る儚さに心を動かされていることの表れと言えます。

image.png

Dataikuで作成したフローはこちら
image.png

2. 元データについて

こちらにある俳句データ40000件ある俳句のデータを拝借しました。

こんな感じ。これ分析してって渡されても泣いちゃいますよね。。。
メジャーもディメンションもないじゃん(泣)って、、

image.png

3. 前処理

3-1. 行番号をふる

ノーコードでできるはずだけど、パッと思いつかなかったのでChat GPTにPythonコード書いてもらってPythonレシピで実装。

image.png

コピペして入力データと出力データの名前変えるだけ

image.png

3-2. ”さくら”が入っている俳句に絞る

フィルタレシピで関連する語句が含まれているものだけをフィルタで残す
これで40000件→900件へ
image.png

4. LLMレシピを活用したデータ加工(非構造化→構造化)

4-1.感情分析

LLMレシピでPrompt Studioで下記の通りプロンプトを書いて実行!
image.png

4-2.形態素分析

こちらもこれだけ!
image.png

4-3.俳句を上五・中七・下五に分解

最初にそのままするもあまり精度が良くない・・・
image.png

そこで一度カタカナに直してからのほうが精度が高くなるのでは?と閃く

image.png

精度を良くするポイントは例示(Examples)を書いてあげること
image.png

5. 後処理

どの句に”さくら”が含まれているのかフラグ立てします。
image.png

後でTableauで使いやすいようにFoldします。
image.png

出来上がったデータは下記2つ
image.png

image.png

6. Tableauで可視化

省略。
(今Tableau Publicにログインできないのでカスタマーサポートにお問合せ中)

7. おわりに

DataikuのLLMレシピを活用することで非構造化データを構造化し分析していくことができるようになりました。それをTableauの表現力で魅せることで、インサイトが伝わります。

最後に一句。

桜が咲くと同じくらい散る時に人間は心が動いて俳句を詠むんだなというインサイトがDataikuの分析(カワセミ閃く)で得ることができて、Tableau(散る桜で彩られている水面)で表現しました。

この俳句も背景も生成AIで作っています。

図2.png

2
2
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
2
2