LoginSignup
0
0

More than 5 years have passed since last update.

(30分)偉い人の頭の中をのぞき見る

Posted at

目的:売上向上に向けて、ビジネスプランを検討する

目標:部長のメールを構文解析して、キーワードを抽出する

環境:Outlook 2010

作業

メールをtext にする

Outlook 上で、部長のメールを全て選択する。
今回は、33件で調査した。
Outlook ファイル > 名前を付けて保存 > 任意のファイル名を入力 > text ファイルができる

だいたいがゴミデータ(署名やメールto など)なので、ゴミを削除する。今回は、後で使うサービス仕様のため、10,000文字以下まで文章を削る。

ゴミの削り方

今回は、Microsoft Excel で重複排除をしよう。
出力したtext ファイルの本文をExcel へコピペする。
その後、Excel の データ > 重複の削除
けっこう削れたな。18,000文字 > 13,000文字
あと、3,000 文字を削る。

あとは、目視だ。
まずは、AI に食わせたくないものを削除しよう。
効果の高かった(削除する文字数が多い)順に下の通り
・返信時の過去文書の引用文(>マークで同じ文章がつく機能)
・メルマガの配信停止など、後半に書いてある記事以外の情報
・署名
・メールヘッダー(送信先や名前)
 ※タイトルは残した

よし、削減完了(18,000 文字 > 9,811 文字)

キーワード抽出サービスにかける

下のサービスを利用しました。Yahoo さんのキーワード抽出と連携しているそうです。
https://so-zou.jp/web-app/text/key-phrase/

出力結果 を確認する

まだ、ゴミだらけでした。

データのクレンジング

キーフレーズの分析が終わったら、ゴミデータを削除します。
私の場合、ランキングに下の情報が入ってきたので削除しました。

・部長の名前の削除(本文に自分の名前があるため、出現頻度が一番高くキーワードになってしまう)
・メール本文中のメーリングリストの削除(係り受けするし、類似情報がないため、メーリングリストは上位にくるようだ)
・フルネームの削除(一通目の時、フルネームを本文へ記載するとキーワードとして拾うようだ。不要なら削除すること)

削除の方法は、ワードで、その文字を検索して空白へ置換しました。
部長のお名前をホイホイ削除するのはためらわれます。なので、日頃の不満を言いながらせめて、心が楽になるように作業しましょう。

再度、キーワード抽出

お、未来が見えてきた。

私の場合、下のようになりました。

フレーズ 重要度
NTTデータ 100
SAP Digital Manufacturing Cloud 99
is invalid or cannot be assumed 58
TechTargetジャパン 57
APIGWオリエン 54
NTTデータ次期社長 53
Japan SAP User's Group 52
PaaS 52
Virtustream 51
VMware Cloud Foundation 50
VMware Cloud on AWS 50
JSUG 50
ng-the-new-aws-blockchain-templates 50
Microsoft Azure Stack 49
Hyperledger Fabric 49
NTTコミュニケーションズ 49
クラウド 49
ブロックチェーンテンプレート 47
TechTarget Pick UP 45
IT Leaders Information 44

ひとまず、NTTデータさんとSAP、TechTargetジャパン の新聞記事を拾ってくると、部長の見てる"何か" が見えそうだ。

日経新聞の記事100件 を抽出する。
※ここから先の分析は、現状、未公開で。

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0