【はじめに】
皆さん、こんにちは。機械学習エンジニアの外人です。同時にSEもやってます。
今回は【自然言語処理】を勉強して行きたいと思います。元々は画像処理がメインなんですが自然言語処理の業務を頼まれてやることになりました。もし皆さんからこのサイトが良いですとか自分はここで勉強しましたとかあればぜひ教えて頂けたら嬉しいです。
あ!ちなみに【自然言語】という名前だけで難しいそうなイメージがあるので軽く説明しながらやって行きたいと思います。もし僕は論文レベルで勉強したいっていう方は他の方の記事を読んで下さい。
##自然言語とは
自然言語のウィキペディアこちらを引用します。
- 人間によって日常の意思疎通のために用いられる、文化的背景を持って自然に発展してきた言語である。
- 人間がお互いにコミュニケーションを行うための自然発生的な言語である。
もっと簡単に言うと英語、日本語、中国語など人間がいつも使っている単語とかが自然言語です。
##自然言語処理とは
自然言語処理のウィキペディアこちらを引用します。
- 人間の単語を理解できるアプリケーションとサービスを開発すること
- 人間が日常的に使っている自然言語をコンピュータ処理させること
##自然言語処理の特徴
機械学習における自然言語処理こちらを引用します。
-
英語版
文章から分割した単語をクリーニングした後特徴量を抽出します。これかベクトル化だと呼ばれます。そしてベクトル化したことで文章の類似度を比較したり、意味を抽出したり、機械翻訳することが可能となります。 -
日本語版
英語とは違い日本語には文章の区切りがないため単語の意味とか文法などをデータベース化する必要があります。日本語には時代によって意味が変わることもあり、新しいこと言葉が出たりするので曖昧さが存在します。なのでまず形態素解析→構文解析→意味解析→文脈解析の順番で処理が行います。
【まとめ】
やはり画像処理より難しいですね。自分なりにまとめたりして記事として載せますが皆さんに役に立つのかはわかりませんが、この記事は徐々にアップデートしますので、何かあったらコメント残して下さい。