AI-900学習メモ：Text Analytics（テキスト分析）

Last updated at 2025-09-23Posted at 2025-09-23

導入

最近「テキスト分析」という言葉をよく目にする。なんとなくカッコよさそうだけど、具体的に何をするのかはピンとこない。AIとかビッグデータとかに出てくるから、どうせ数式と英単語だらけで難しいんだろうな……と身構えていた。

でも、いざ少し調べてみると「単語を数える」「似ている言葉をまとめる」みたいな、けっこうシンプルな発想から始まっているらしい。コーヒー片手に整理してみた学習メモをここに残しておく。

まず前提として出てくるのが「コーパス」。
これは たくさんの文章や会話を集めて検索できるようにしたデータの山 のこと。

たとえば「犬」という単語がどういう文脈で使われているのかを調べたいとき、辞書だけでは足りない。小説やSNS投稿、記事など実際の用例を大量に集めて「犬ってこんなときに使われやすいよ」というデータベースにする。それがコーパス。

次に出てくるのが「トークン分割」。
要するに文章を 意味のある最小単位（トークン） に切り分けること。

英語なら単語ごとに区切るのが基本。
日本語だと「私はリンゴを食べる」を「私 / は / リンゴ / を / 食べる」と細かく区切る。この作業は「形態素解析」に近い。

切り分けたあとにやっておくと便利な前処理もある：

こうしてシンプルにしたデータを使うと、その後の分析がだいぶやりやすくなる。

もっとも直感的なのがこれ。
どの単語がどれだけ出てきたかを数えるだけ。

たとえば日記の文章から「カフェ」「コーヒー」「エスプレッソ」がやたら出てくるなら、書き手はカフェ好きかもしれない。単純だけど、文章の主題を探る入口になる。

次は「テキストをグループ分けする」方法。

たとえばレビューをポジティブ（肯定的）とネガティブ（否定的）に分けるとき。

こういうルールを学習させて自動で分類する。
ここでよく出てくるのが ロジスティック回帰 という仕組み。名前は難しそうだけど、ざっくり言えば「条件に応じて確率的に0か1かを決める仕組み」くらいの理解でいい。

ここから少し高度になる。
単語同士の「意味の近さ」を数値で表す方法だ。

例えば：

このとき「dog」と「cat」は数値の並びが近いので、意味的にも近いと判断できる。逆に「skateboard」はまったく違う場所にあるので無関係とみなされる。

実際には数百〜数千次元のベクトルで表現されるので、人間の頭では直接イメージできないけれど、コンピュータはこの「ベクトルの距離」を計算して意味を推測している。

こうした仕組みを使って、いろいろなタスクが可能になる。たとえば：

映画のレビューを一瞬で「面白い派」と「つまらない派」に仕分けたり、ニュース記事を数行で要約したり。普段何気なく使っている検索エンジンやAIチャットも、この辺の技術が詰まっている。

クラウドサービスを使えば、自分で複雑なアルゴリズムを組まなくても、この分析を体験できる。

Microsoft Azureの AI Language では、以下のような機能が提供されている：

つまり「セマンティック言語モデルを自分で作る」のではなく、すぐ使えるAPIとして提供してくれている。これは便利。

ありがたいことに、Azure AI Languageを体験するための手順がまとめられているGithubサイトがある。
実際に触ってみると「ニュース記事を一瞬で要約」とか「人名と場所だけピックアップ」といった体験ができる。

今回の学習メモをざっくり整理すると：

数式や理論に深入りしなくても、「テキストを分解して、数を数えて、意味を近さでつなぐ」――そんなイメージがあれば十分入口に立てる。