2
5

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 1 year has passed since last update.

テキスト分析は 原文検索がサクサクできないとね

Last updated at Posted at 2022-08-18

 
2022/08/21 この記事に関連する Part2:Word2Vec編 をアップしました。


image.png

はじめに

前回記事GiNZAに「国語研長単位モデル」を適用し、テキスト処理した単語を「自然言語可視化ライブラリ NLPLOT」に与えて、頻出語グラフと共起ネットワーク を描きました。

国語研長単位モデル」は、それはもうすばらしいのですが、テキスト処理には少々時間を要します。(400未満のレコードのデータで数分)

共起ネットワークやWordCloudを描いたり、原文検索を行う毎にテキスト処理を行うと、分析よりも待ち時間の方が長いんじゃないかという状況になります。これはよくありません。

テキストアナリティクスを効率的に進めるためには、テキスト情報を共起ネットワークなどで効果的に可視化し、ポイントを絞ったうえで原文を確認し・・・ということをサクサクできるようにしたい。。。
サクサク実行するには、「可視化や検索」のたびに「テキスト処理」は実行せず、「可視化や検索」は「テキスト処理」を行った結果を利用して実行するようにした方がよさそうです。

前回記事では、 GiNZA と「国語研長単位モデル」でテキスト処理(分かち書き)した結果をデータフレームに格納しましたので、原文検索をこの結果を利用して実行したいと思います。

実行したこと

  • Google Colabで実行しています。
  • テキストデータは、Excel表形式にまとめられたアンケート等を想定し、csvデータとしています。適用データは 前回記事 同様、tweetデータ(csv)です。(※「再エネ」でtweet検索したつぶやきを ついすぽ でcsvにエクスポートしたデータです。)

以下、前回記事で実行した内容です。

  • 読込んだcsvデータをデータフレームに格納し、GiNZAで行単位でテキスト処理した後、分かち書きの結果をデータフレームのカラムに反映しています。
  • 分かち書きした結果を「自然言語可視化ライブラリ NLPLOT」で取り込み、頻出語グラフと共起ネットワークを描いています。

今回は「頻出語グラフ」や「共起ネットワーク」に表示された単語をキーワードに原文検索を行います。
「共起ネットワーク」実行までの内容は、前回の記事を確認いただくとして、以下は原文検索の内容についてのみを触れるようにします。

原文検索

以下は、今回対象としたテキスト処理後のデータフレームの一部を表示したものです。
左端の「テキスト」カラムが原文、右端のー「 separate_words」カラムが分ち書きした結果となっています。
467EFF93-16E5-42EB-8A2D-EF6A8FB3D1C4.jpeg

まず、テキスト処理を実行したいデータフレームカラムの指定です。
GoogleColabのフォーム機能を利用し、フォームにカラム名の入力することにより指定できるようにしています。
今回のデータの場合、「テキスト」カラムが対象となりますので、’テキスト’と入力しています。

#@title 意見カラムの名称は? { run: "auto" }

column_name = 'テキスト' #@param {type:"raw"}

以下は、原文検索を実行するコードです。
先の通り、df['separate_words']には、[’再エネ’,’原発再稼働’,’断念’・・・]等、行毎に分かち書きした結果が格納されています。
Keywordは 2つ設定できるようにしており、df['separate_words'] にフォームに入力したKeywordが含まれている場合、その行の原文(df[column_name]に格納)を抽出し、データフレーム(dfa)に格納した後、1行づつNotebook内に表示させています。

#@title Keyword による原文検索

Keyword1 = '基礎講座' #@param {type:"raw"}
Keyword2 = '原発再稼働' #@param {type:"raw"}

import re

# Keyword1を含む元文を検索
print('\n')
print('● [', Keyword1,'] 検索結果')
print('\n')
try:
  dfa=pd.DataFrame(df[column_name][df['separate_words'].apply(lambda x: Keyword1 in x)])
  for i in dfa[column_name]:
    print('\t',i)
except:
  print(Keyword1,'unknown keyword')
print('\n')
print('---------------------------------------------------------------------------------------------------------------------------------------------------------------')
print('\n')

# Keyword2を含む元文を検索
print('● [', Keyword2,'] 検索結果')
print('\n')
try:
  dfa=pd.DataFrame(df[column_name][df['separate_words'].apply(lambda x: Keyword2 in x)])
  for i in dfa[column_name]:
    print('\t',i)
except:
  print(Keyword2,'unknown keyword')
print('\n')
print('---------------------------------------------------------------------------------------------------------------------------------------------------------------')

以下は、検索の一例です。
CF2D3915-4B7B-4AD9-A5CD-A0D660E335F0.jpeg
次は、AND検索です。
先との違いは、df['separate_words'] にフォームに入力した2つのKeywordが含まれている、その行の原文(df[column_name]に格納)を抽出し、データフレーム(dfa)に格納した後、1行づつNotebook内に表示させるという内容です。

#@title Keyword のANDによる原文検索

Keyword_A1 = '再エネ' #@param {type:"raw"}
Keyword_A2 = 'サウジアラビア' #@param {type:"raw"}

import re

# Keyword1とKeyword2 を含む元文を検索
print('\n')
print('● [', Keyword_A1,'] & [',Keyword_A2,'] 検索結果')
print('\n')
try:
  dfa=pd.DataFrame(df[column_name][df['separate_words'].apply(lambda x: Keyword_A1 and Keyword_A2 in x)])
  for i in dfa[column_name]:
    print('\t',i)
except:
  print('unknown keyword')
print('\n')
print('---------------------------------------------------------------------------------------------------------------------------------------------------------------')

以下は、前回描いた共起ネットワークです。
1D706616-CB45-4B64-BE96-C36AF966718C.jpeg
このなかで「再エネ」と「サウジアラビア」が気になりましたので、原文を検索してみました。
ED366546-FBD0-43E4-B2F7-5B2902E3589F.jpeg
サウジアラビアって、再エネ進んでるんですね。

最後に

df['原文カラム'][df['分ち書き'].apply(lambda x: 'キーワード' in x)])

上記1行コードだけでNotebookに検索結果は表示されましたが、表示範囲、表示数は制限されていました。制限を広げると検索原文はすべてNotebookに表示されたのですが、中央揃え表示となってしまいました。

なので、上記1行コードの結果をデータフレームに格納し、printで検索原文を表示すると、今度は右揃え表示に。。。
次に、for文で1行づつprintで検索原文をNotebookに表示すると、ようやく左揃え表示となりました。

うーん、もっといい方法があるような気はしますが、サクサクと原文検索は実行できるようになりましたので、結果オーライとしたいと思います。

それにしても、GiNZA + 国語研長単位モデル はいいです。サクサク原文検索の目処もたちましたのでテキスト分析がはかどりそうです。

参考

2
5
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
2
5

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?