2022/08/21 この記事に関連する Part2:Word2Vec編 をアップしました。
はじめに
前回記事で GiNZAに「国語研長単位モデル」を適用し、テキスト処理した単語を「自然言語可視化ライブラリ NLPLOT」に与えて、頻出語グラフと共起ネットワーク を描きました。
「国語研長単位モデル」は、それはもうすばらしいのですが、テキスト処理には少々時間を要します。(400未満のレコードのデータで数分)
共起ネットワークやWordCloudを描いたり、原文検索を行う毎にテキスト処理を行うと、分析よりも待ち時間の方が長いんじゃないかという状況になります。これはよくありません。
テキストアナリティクスを効率的に進めるためには、テキスト情報を共起ネットワークなどで効果的に可視化し、ポイントを絞ったうえで原文を確認し・・・ということをサクサクできるようにしたい。。。
サクサク実行するには、「可視化や検索」のたびに「テキスト処理」は実行せず、「可視化や検索」は「テキスト処理」を行った結果を利用して実行するようにした方がよさそうです。
前回記事では、 GiNZA と「国語研長単位モデル」でテキスト処理(分かち書き)した結果をデータフレームに格納しましたので、原文検索をこの結果を利用して実行したいと思います。
実行したこと
以下、前回記事で実行した内容です。
今回は「頻出語グラフ」や「共起ネットワーク」に表示された単語をキーワードに原文検索を行います。
「共起ネットワーク」実行までの内容は、前回の記事を確認いただくとして、以下は原文検索の内容についてのみを触れるようにします。
原文検索
以下は、今回対象としたテキスト処理後のデータフレームの一部を表示したものです。
左端の「テキスト」カラムが原文、右端のー「 separate_words」カラムが分ち書きした結果となっています。
まず、テキスト処理を実行したいデータフレームカラムの指定です。
GoogleColabのフォーム機能を利用し、フォームにカラム名の入力することにより指定できるようにしています。
今回のデータの場合、「テキスト」カラムが対象となりますので、’テキスト’と入力しています。
#@title 意見カラムの名称は? { run: "auto" }
column_name = 'テキスト' #@param {type:"raw"}
以下は、原文検索を実行するコードです。
先の通り、df['separate_words']には、[’再エネ’,’原発再稼働’,’断念’・・・]等、行毎に分かち書きした結果が格納されています。
Keywordは 2つ設定できるようにしており、df['separate_words'] にフォームに入力したKeywordが含まれている場合、その行の原文(df[column_name]に格納)を抽出し、データフレーム(dfa)に格納した後、1行づつNotebook内に表示させています。
#@title Keyword による原文検索
Keyword1 = '基礎講座' #@param {type:"raw"}
Keyword2 = '原発再稼働' #@param {type:"raw"}
import re
# Keyword1を含む元文を検索
print('\n')
print('● [', Keyword1,'] 検索結果')
print('\n')
try:
dfa=pd.DataFrame(df[column_name][df['separate_words'].apply(lambda x: Keyword1 in x)])
for i in dfa[column_name]:
print('\t✓',i)
except:
print(Keyword1,'unknown keyword')
print('\n')
print('---------------------------------------------------------------------------------------------------------------------------------------------------------------')
print('\n')
# Keyword2を含む元文を検索
print('● [', Keyword2,'] 検索結果')
print('\n')
try:
dfa=pd.DataFrame(df[column_name][df['separate_words'].apply(lambda x: Keyword2 in x)])
for i in dfa[column_name]:
print('\t✓',i)
except:
print(Keyword2,'unknown keyword')
print('\n')
print('---------------------------------------------------------------------------------------------------------------------------------------------------------------')
以下は、検索の一例です。
次は、AND検索です。
先との違いは、df['separate_words'] にフォームに入力した2つのKeywordが含まれている、その行の原文(df[column_name]に格納)を抽出し、データフレーム(dfa)に格納した後、1行づつNotebook内に表示させるという内容です。
#@title Keyword のANDによる原文検索
Keyword_A1 = '再エネ' #@param {type:"raw"}
Keyword_A2 = 'サウジアラビア' #@param {type:"raw"}
import re
# Keyword1とKeyword2 を含む元文を検索
print('\n')
print('● [', Keyword_A1,'] & [',Keyword_A2,'] 検索結果')
print('\n')
try:
dfa=pd.DataFrame(df[column_name][df['separate_words'].apply(lambda x: Keyword_A1 and Keyword_A2 in x)])
for i in dfa[column_name]:
print('\t✓',i)
except:
print('unknown keyword')
print('\n')
print('---------------------------------------------------------------------------------------------------------------------------------------------------------------')
以下は、前回描いた共起ネットワークです。
このなかで「再エネ」と「サウジアラビア」が気になりましたので、原文を検索してみました。
サウジアラビアって、再エネ進んでるんですね。
最後に
df['原文カラム'][df['分ち書き'].apply(lambda x: 'キーワード' in x)])
上記1行コードだけでNotebookに検索結果は表示されましたが、表示範囲、表示数は制限されていました。制限を広げると検索原文はすべてNotebookに表示されたのですが、中央揃え表示となってしまいました。
なので、上記1行コードの結果をデータフレームに格納し、printで検索原文を表示すると、今度は右揃え表示に。。。
次に、for文で1行づつprintで検索原文をNotebookに表示すると、ようやく左揃え表示となりました。
うーん、もっといい方法があるような気はしますが、サクサクと原文検索は実行できるようになりましたので、結果オーライとしたいと思います。
それにしても、GiNZA + 国語研長単位モデル はいいです。サクサク原文検索の目処もたちましたのでテキスト分析がはかどりそうです。
参考