More than 5 years have passed since last update.

言語処理100本ノック-83(pandas使用):単語／文脈の頻度の計測

Last updated at 2020-01-09Posted at 2020-01-08

言語処理100本ノック 2015の83本目「単語／文脈の頻度の計測」の記録です。
約800MBのファイルに対する処理なので時間がかかります(7分程度)。一括で読むとメモリエラーが出るかと思いpandasのchunksizeオプションを使って乗り切ろうとしていたら全然できずに苦労しました。結局一括で読み込めて特に問題なかったです。

参考リンク

リンク	備考
083.単語／文脈の頻度の計測.ipynb	回答プログラムのGitHubリンク
素人の言語処理100本ノック:83	言語処理100本ノックで常にお世話になっています
言語処理100本ノック 2015年版 (83,84)	第9章では参考にしました
Pandas の groupby の使い方	pandasのgroupby使い方がわかりやすい
to_pickle関数	to_pickle関数の公式ヘルプ

環境

種類	バージョン	内容
OS	Ubuntu18.04.01 LTS	仮想で動かしています
pyenv	1.2.15	複数Python環境を使うことがあるのでpyenv使っています
Python	3.6.9	pyenv上でpython3.6.9を使っています 3.7や3.8系を使っていないことに深い理由はありませんパッケージはvenvを使って管理しています

上記環境で、以下のPython追加パッケージを使っています。通常のpipでインストールするだけです。

種類	バージョン
pandas	0.25.3

課題

t(対象語)	c(文脈語)
t1	c1
t1	c2
t2	c1
t1	c1

t(対象語)	c(文脈語)	共起回数
t1	c1	2
t1	c2	1
t2	c1	1

t(対象語)	出現回数
t1	3
t2	1

c(文脈語)	出現回数
c1	3
c2	1

回答

回答プログラム 083.単語／文脈の頻度の計測.ipynb

import sys

import pandas as pd

df = pd.read_table('./082.context.txt', header=None, names=['t', 'c'])
print(df.info())

def to_pickle_file(grouped, path):
    print('length:', grouped.size)
    grouped.to_pickle(path)

to_pickle_file(df.groupby(['t','c'])['c'].agg('count'), './083_group_tc.zip')
to_pickle_file(df.groupby('t')['c'].agg('count'), './083_group_t.zip')
to_pickle_file(df.groupby('c')['c'].agg('count'), './083_group_c.zip')

回答解説

pandas使って列名をtとしてcファイルを読み込んでいます。

df = pd.read_table('./082.context.txt', header=None, names=['t', 'c'])
print(df.info())

df.info()の結果として以下が出力され、*「$ N $:単語と文脈語のペアの総出現回数」*の結果が68000317だとわかります。メモリを1GBほど使っているのもわかります。ちなみに読込部分に限ると1.5分ほどかかりました。

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 68000317 entries, 0 to 68000316
Data columns (total 2 columns):
t    object
c    object
dtypes: object(2)
memory usage: 1.0+ GB
None

ここで、pandasのgroupby結果のカウントをpickleで保存しています。ファイル拡張子をzipにすると自動で圧縮してくれるので便利です。ここで保存したファイルを読み込むと、保存時と同じpandasのSeriesオブジェクトとして復元できます。

def to_pickle_file(grouped, path):
    print('length:', grouped.size)
    grouped.to_pickle(path)

今回のメイン部分です。pandasのgroupbyを使ってグルーピングをして、その結果をカウントしています。

to_pickle_file(df.groupby(['t','c'])['c'].agg('count'), './083_group_tc.zip')
to_pickle_file(df.groupby('t')['c'].agg('count'), './083_group_t.zip')
to_pickle_file(df.groupby('c')['c'].agg('count'), './083_group_c.zip')

ちなみに以下が各処理の情報です。

	行数	処理時間	ファイルサイズ
$ f(t,c) $	21,327,945行	4min 38s	103.7MB
$ f(t,*) $	388,836行	34.7s	2.8MB
$ f(*,c) $	388,836行	24.2s	2.8MB

Tips/トラブルシュート系

Tips: ファイルの縮小

対象とするファイルサイズが大きい(約800MB)ので、試行錯誤が非常にしにくかったです。そのため、最初は最初の10万行のみを対象したファイルを作成してコーディングをしていました。

cat 082.context.txt | head -n 100000 >> 082.context_mini.txt

大きいサイズのファイルで特定行の出力

DataFrameでXX行目にエラー、とあったときにheadとtailを組み合わせてファイルの中身を見ました。通常は、単純にファイルを開くだけなのですが、大きいサイズのファイルの場合は開くだけで時間がかかるので、こんなことをしていました。
下記コマンドではファイルの12198行目から3行を表示しています。ちなみにこのエラーは、前回記事の「こぼれ話」に書いた文のトークン化に関する失敗です。

$ cat 082.context.txt | head -n 124150 | tail -n 3

"b")("s"	"c
−	"b")("s"
−	"c

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up