日本経済新聞の記事を学習コーパスとした単語分散表現モデルの構築

Last updated at 2020-11-30Posted at 2020-11-30

はじめに

2018年のBERTの登場以降、自然言語処理（NLP）の分野では最先端（state-of-the-art）のアルゴリズムが次々と発表されています。あるアルゴリズムが発表されても半年後にはそれを凌駕する別のアルゴリズムが発表されるといった、一昔前には想像できなかった時代になっています。

このような時代において、2013年に発表されたWord2Vecを始めとした単語分散表現モデルは古い技術と言えるでしょう。しかし、WRD(Word Rotator's Distance)¹のように単語分散表現モデルを前提としたアルゴリズムが2020年に発表されるなど、単語分散表現モデルはいまだに幅広く使われています。そして、土台として使われている単語分散表現モデルの精度がいまいちだと、これらのアルゴリズムの精度にも悪影響を及ぼします。

Wikipediaを学習コーパスとした単語分散表現モデル

ホットリンク社のブログでも書かれているように、一般に公開されている日本語の単語分散表現モデルはWikipediaを学習コーパスとしたものがほとんどです。一般的な単語の場合はそれほど問題ありませんが、専門的な単語になると問題となることがあります。例えば、Word2vecでの「戦略」「モチベーション」「のれん」「ユニコーン」の類似単語上位10件²は次のようになります。

戦略	モチベーション	のれん	ユニコーン
戦術	プロ意識	暖簾	ドラゴン
戦略的	チーム力	木村屋	グリフォン
経営戦略	集中力	三河屋	タリスマン
軍事戦略	注目度	角屋	ゴブリン
マーケティング戦略	労働意欲	屋号	一角獣
ドクトリン	士気	玉屋	ケルベロス
外交政策	クオリティ	のれん分け	ガーゴイル
政策	認知度	呉服店	アフロディーテ
外交戦略	自己評価	松屋	蜘蛛
事業戦略	自尊心	和菓子店	ヴィーナス

MBAのようなビジネス分野のコンテキストで考えると、上記の結果は好ましくありません。「戦略」は「経営戦略」「マーケティング戦略」「事業戦略」のようなビジネス文脈の単語がより上位に、「モチベーション」は「やる気」という単語も上位に来て欲しいです。さらに、「のれん」は「木村屋」「三河屋」などの江戸時代の屋号名ではなくて会計文脈の単語、「ユニコーン」は「ドラゴン」「グリフォン」などの伝説上の生き物ではなくてベンチャー企業文脈の単語が上位に来て欲しいです。

日本経済新聞の記事を学習コーパスとした単語分散表現モデル

Wikipediaのデータにビジネス分野のデータをコーパスとして追加し、単語分散表現モデルを構築します。具体的には、ビジネス分野のデータとして次の2つを利用します。

グロービスが保有するテキストデータ（グロービスの書籍データとGLOBIS知見録の記事データを組み合わせたもの）
日本経済新聞の記事データ（2019年の一年分の記事データ³）

結果を下記に示します。v1はWikipediaのデータのみ、v2はv1にグロービスが保有するテキストデータを加えたもの、v3はv2に日本経済新聞の記事データを加えた場合の結果です。

v1よりもv2、v2よりもv3の方がビジネス分野のコンテキストに沿った結果になっていることが分かります。「戦略」は「経営戦略」「事業戦略」「マーケティング戦略」が上位3位を占め、ビジネス文脈の色合いが強い結果になりました。そして、「モチベーション」も「やる気」という単語が上位に来るようになりました。さらに、「のれん」「ユニコーン」については類位単語上位10件は全て入れ替わり、会計文脈の単語やベンチャー企業文脈の単語だけになりました。これより、Wikipediaのデータだけを学習コーパスとするのではなく、ビジネス分野のデータ、特に日本経済新聞の記事データを学習コーパスに加えることで、ビジネス分野のコンテキストに沿った単語分散表現モデルを構築できたことが確認できました。

「戦略」の結果

v1	v2	v3
戦術	戦術	経営戦略
戦略的	経営戦略	事業戦略
経営戦略	戦略的	マーケティング戦略
軍事戦略	事業戦略	戦術
マーケティング戦略	軍事戦略	戦略的
ドクトリン	マーケティング戦略	成長戦略
外交政策	ドクトリン	政策
政策	外交政策	軍事戦略
外交戦略	外交戦略	ドクトリン
事業戦略	政策	外交政策

「モチベーション」の結果

v1	v2	v3
プロ意識	エンゲージメント	集中力
チーム力	プロ意識	エンゲージメント
集中力	士気	チーム力
注目度	チーム力	やる気
労働意欲	集中力	自己肯定感
士気	自己評価	士気
クオリティ	自己効力感	労働意欲
認知度	自己肯定感	プロ意識
自己評価	免疫力	生産性
自尊心	勤労意欲	離職率

「のれん」の結果

v1	v2	v3
暖簾	暖簾	減損
木村屋	和菓子店	固定資産
三河屋	泉屋	減損損失
角屋	越後屋	償却
屋号	呉服店	評価損
玉屋	屋号	会計処理
のれん分け	布屋	繰延税金資産
呉服店	紅屋	特別利益
松屋	扇屋	減価償却
和菓子店	三河屋	貸方

「ユニコーン」

v1	v2	v3
ドラゴン	グリフォン	ユニコーン企業
グリフォン	ドラゴン	未上場企業
タリスマン	一角獣	デカコーン
ゴブリン	ケルベロス	スタートアップ
一角獣	ワタリガラス	非上場企業
ケルベロス	ゴブリン	企業評価
ガーゴイル	ギルガメッシュ	ドラゴン
アフロディーテ	クジャク	エンジェル
蜘蛛	蜘蛛	ＩＰＯ
ヴィーナス	ライオン	ベンチャー

おわりに

日本経済新聞の記事を学習コーパスに加えることで、ビジネス分野の文脈に沿った単語分散表現モデルを構築できたことを示しました。ある分野に特化したデータを学習コーパスに使えばその分野の文脈に沿った単語分散表現モデルを作れることは当然だし、今さら何の価値があるんだと思われる方が多いと思います。私も当然だと思いますが、これはこれで非常に価値のあることだと個人的に思います。なぜなら、「はじめに」で述べたように単語分散表現モデルはWRDを始めとした様々なアルゴリズムの土台としていまだに幅広く使われているからです。場合によっては、アルゴリズムを洗練化する効果よりも、アルゴリズムはそのままで単語分散表現モデルを本記事のように改善することによる効果の方が大きいこともあります。巷で流行っているアルゴリズムに飛び付くのも悪くはありませんが、古い技術となった単語分散表現モデルの改善にも是非目を向けて下さい。

テキスト間の類似度を計算するアルゴリズムとしては非常に精度が高いです。実装をGithubで公開しているので是非お試し下さい。 ↩
コサイン類似度が大きい順にソート。 ↩
人事やお悔やみなどを除いた約30万記事。電子版の有料記事も含む。 ↩

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up