この記事の目的
「言語処理研究室の後輩」がMosesを使う(動かす)ために、できる限り最低限必要な情報および情報にたどり着く道筋をまとめる。(基本的に日本語の情報)
全てを理解するのは厳しいので、こんな情報があるということを頭に入れておく。
統計的機械翻訳の概要
*順不同
- 書籍「コロナ社の自然言語処理シリーズ4 機械翻訳」
- Graham Neubig先生のチュートリアル資料 フレーズベース統計的機械翻訳システムの構築法
- 筑波大、山本先生の統計的機械翻訳入門のスライド
- 上垣外さんの30分で学ぶ句に基づく統計的機械翻訳のスライド
統計的機械翻訳を構築するためにさまざまな手法があることや、評価にもいろいろあることを知っておく。
Mosesの概要
Mosesは統計的機械翻訳システムである。
対訳コーパスを用意すれば、統計的機械翻訳を試すことができる。
いろいろな統計翻訳の手法が実装されている。
ExternalToolsなどもかなり有益なツールの情報があるので、一度目を通すこと。
英語で検索できると、エラーはかなり解決できる。
Linuxの知識
Linuxの知識がないと、いちいち操作に手間取るのでできる限り習得すること。
-
必要な知識
- Linuxの基本的なディレクトリ操作
- ディレクトリ操作
- 圧縮・解凍
- 相対パス・絶対パス
- …
- 環境変数の知識
- 共有ライブラリの知識
- configure
- インストール先オプションが指定できることを知っていること
- シェルスクリプト
- 初歩的なGit
- Linuxの基本的なディレクトリ操作
インストールや実行
*順不同
- Moses奮闘記
- 松本宏さんのページ Moses
- y_utiのブログ 統計的機械翻訳システムMosesで遊ぶ
- Ryuuta Yoshiさん【機械学習】Google翻訳(みたいなもの)を自作してみた。
- Mosesのマニュアルインストール
- 林さん Mosesを使ったフレーズ機械翻訳の演習-2日目-
作業の残し方
単語分割の方法やパラメータなどがわからなくなるため、実験管理ツールやシェルスクリプトを用いるのがおすすめ
- Moses Experiment Management System
- luigi
- シェルスクリプト
- 例をGistにアップする予定です。
- Makefile
前処理
英語
- 小文字化
- 記号の置換
日本語
- 単語分割
- 半角・全角の統一
- NFKCなど