はじめに
こんにちは、Webエンジニアの岩田史門(@SI_Monxy)です!
今回は生成AIきっかけで自然言語処理に興味を持ち学んでみたので、記事を書いてみました!
改善点や修正点があれば、コメントにて優しくご指導いただけると嬉しいです!
概要
自然言語処理(Natural Language Processing, NLP)は、コンピュータが人間の言語を理解し、処理する技術です。この記事では、NLPの基本的な技術と一般的な用語について解説します。
NLPの基本的な技術
トークン化(Tokenization)
自然言語のテキストを小さな単位に分割する処理です。例えば、文や単語に分割することがあります。
import nltk
from nltk.tokenize import word_tokenize
text = "Natural language processing is a subfield of artificial intelligence."
tokens = word_tokenize(text)
print(tokens)
品詞タグ付け(Part-of-Speech Tagging)
単語に品詞(名詞、動詞など)を付与する処理です。
from nltk import pos_tag
tags = pos_tag(tokens)
print(tags)
NLPの一般的な用語
形態素解析(Morphological Analysis)
単語を語幹や接尾辞に分割し、それぞれの形態素に分ける処理です。
意味解析(Semantic Analysis)
文の意味を理解するための処理で、単語の意味や文脈を解析します。