LoginSignup
0
1

言語処理100本ノック 2015 落ち穂拾い 第9章: ベクトル空間法 (I)

Last updated at Posted at 2019-01-23

言語処理100本ノック2015
http://www.cl.ecei.tohoku.ac.jp/nlp100/
自分では全部まだできていない。次の資料を参考にさせていただいている。
素人の言語処理100本ノック:まとめ
https://qiita.com/segavvy/items/fb50ba8097d59475f760

環境構築

Dockerでpython言語処理100本ノック
https://qiita.com/taguchi_tomo/items/24483ceaea7638e83310
言語処理100本ノックをdockerで。
https://qiita.com/kaizen_nagoya/items/7e7eb7c543e0c18438c4
Windows(MS)にPython(Anaconda)を導入する(6つの罠)
https://qiita.com/kaizen_nagoya/items/7bfd7ecdc4e8edcbd679
#play with docker

65歳からのプログラミング入門
https://qiita.com/kaizen_nagoya/items/1561f910c275b22d7c9f
Play with Docker でエラー
https://qiita.com/kaizen_nagoya/items/fbf054705bff725dbc25
65歳からのプログラミング入門(2) 二日目
https://qiita.com/kaizen_nagoya/items/57f362fb801fd3132803

第9章: ベクトル空間法 (I)

# wget http://www.cl.ecei.tohoku.ac.jp/nlp100/data/enwiki-20150112-400-r10-105752.txt.bz2
--2019-01-23 14:56:25--  http://www.cl.ecei.tohoku.ac.jp/nlp100/data/enwiki-20150112-400-r10-105752.txt.bz2
Resolving www.cl.ecei.tohoku.ac.jp (www.cl.ecei.tohoku.ac.jp)... 130.34.192.83
Connecting to www.cl.ecei.tohoku.ac.jp (www.cl.ecei.tohoku.ac.jp)|130.34.192.83|:80... connected.
HTTP request sent, awaiting response... 200 OK
Length: 221903910 (212M) [application/x-bzip2]
Saving to: ‘enwiki-20150112-400-r10-105752.txt.bz2’

enwiki-20150112-400-r10-105752. 100%[======================================================>] 211.62M  10.5MB/s    in 21s     

2019-01-23 14:56:45 (10.3 MB/s) - ‘enwiki-20150112-400-r10-105752.txt.bz2’ saved [221903910/221903910]

(base) root@46729dbc2b19:/home/100pon/100pon/chap09# ./p80.py
Traceback (most recent call last):
  File "./p80.py", line 8, in <module>
    with bz2.open(fname_input, 'rt') as data_file, \
  File "/opt/conda/lib/python3.7/bz2.py", line 318, in open
    binary_file = BZ2File(filename, bz_mode, compresslevel=compresslevel)
  File "/opt/conda/lib/python3.7/bz2.py", line 92, in __init__
    self._fp = _builtin_open(filename, mode)
FileNotFoundError: [Errno 2] No such file or directory: 'enwiki-20150112-400-r100-10576.txt.bz2'

# wget http://www.cl.ecei.tohoku.ac.jp/nlp100/data/enwiki-20150112-400-r100-10576.txt.bz2
--2019-01-23 14:57:51--  http://www.cl.ecei.tohoku.ac.jp/nlp100/data/enwiki-20150112-400-r100-10576.txt.bz2
Resolving www.cl.ecei.tohoku.ac.jp (www.cl.ecei.tohoku.ac.jp)... 130.34.192.83
Connecting to www.cl.ecei.tohoku.ac.jp (www.cl.ecei.tohoku.ac.jp)|130.34.192.83|:80... connected.
HTTP request sent, awaiting response... 200 OK
Length: 22022468 (21M) [application/x-bzip2]
Saving to: ‘enwiki-20150112-400-r100-10576.txt.bz2’

enwiki-20150112-400-r100-10576. 100%[======================================================>]  21.00M  8.99MB/s    in 2.3s    

2019-01-23 14:57:54 (8.99 MB/s) - ‘enwiki-20150112-400-r100-10576.txt.bz2’ saved [22022468/22022468]

80. コーパスの整形

素人の言語処理100本ノック:80
https://qiita.com/segavvy/items/ea485e66dd96eee891da

81. 複合語からなる国名への対処

素人の言語処理100本ノック:81
https://qiita.com/segavvy/items/216888c3549cea3d8e81

82. 文脈の抽出

素人の言語処理100本ノック:82
https://qiita.com/segavvy/items/a8e269294f2c834cff08

83. 単語/文脈の頻度の計測

素人の言語処理100本ノック:83
https://qiita.com/segavvy/items/614689e7c4e2ba387929

84. 単語文脈行列の作成

素人の言語処理100本ノック:84
https://qiita.com/segavvy/items/21455b802e34a9e49f92

85. 主成分分析による次元圧縮

素人の言語処理100本ノック:85
https://qiita.com/segavvy/items/f1a7f3200c3b771e8568

86. 単語ベクトルの表示

素人の言語処理100本ノック:86
https://qiita.com/segavvy/items/d0cfabf328fd6d67d003

87. 単語の類似度

素人の言語処理100本ノック:87
https://qiita.com/segavvy/items/663454567a191cf1b968

88. 類似度の高い単語10件

素人の言語処理100本ノック:88
https://qiita.com/segavvy/items/26ec387217b030a15c21

89. 加法構成性によるアナロジー

素人の言語処理100本ノック:89
https://qiita.com/segavvy/items/2d21c9b5ab7e338dcf51

参考資料(reference)

言語処理100本ノック 2015(python) 動作確認docker環境構築
https://qiita.com/kaizen_nagoya/items/abaf3fd0198f9f557243

「Python 入門」の入門
https://qiita.com/kaizen_nagoya/items/22c99c5926984ede6573
Windows(MS)にPython(Anaconda)を導入する(6つの罠)
https://qiita.com/kaizen_nagoya/items/7bfd7ecdc4e8edcbd679

なぜdockerで機械学習するか 書籍・ソース一覧作成中 (目標100)
https://qiita.com/kaizen_nagoya/items/ddd12477544bf5ba85e2
dockerで機械学習 with anaconda(1)「ゼロから作るDeep Learning - Pythonで学ぶディープラーニングの理論と実装」斎藤 康毅 著
https://qiita.com/kaizen_nagoya/items/a7e94ef6dca128d035ab
dockerで機械学習with anaconda(2)「ゼロから作るDeep Learning2自然言語処理編」斎藤 康毅 著
https://qiita.com/kaizen_nagoya/items/3b80dfc76933cea522c6
プログラミング言語教育のXYZ
https://qiita.com/kaizen_nagoya/items/1950c5810fb5c0b07be4

文書履歴(document history)

ver. 0.01 初稿 20190124
ver. 0.02 加筆 20190125

最後までおよみいただきありがとうございました。

いいね 💚、フォローをお願いします。

Thank you very much for reading to the last sentence.

Please press the like icon 💚 and follow me for your happy life.

このエントリーをはてなブックマークに追加

0
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
1