前提
FAQのように質問と回答がきれいにまとまっているわけではありません。
このデータに対してデータクレンジングやデータエンジニアリングを怠った場合,どんな機械学習を行なっても「綺麗な」質疑応答をするシステムは作れません.
前処理に関しては次の記事を参考にすると良いでしょう.
過去事例
LINE AiCallというベースシステムを採用したクロネコヤマトの自動集荷依頼受付があります.
したがって,
ひっ迫するコールセンターの業務を機械学習を使って解決したい
という解決手法はソリューションとして存在します.LINE AiCallのページを見るとわかりますがそれこそコールセンターに採用した場合のメリットが列挙されており,推奨されているようです.
どうしても!独自開発で!というなら,これら既存のものを真似るのが良いでしょう.
また,本ソリューションを実現するにあたって,必要な項目はNLPだけではないことがわかります.
- 音声⇆テキスト変換(Google Assistant等による変換など)
- 電話音声⇆音声データ(LINE AiCallで言うPBX/SBC)
- これらシステムを載せる環境
コールセンターを置換することにおいて,システムの一部でしかないNLPですら先ほど挙げたDialogFlowがある中で,これら各パーツもソリューションは整っています.
他の部分はこれらサービスに任せることができるので,NLPから手をつけたい!というのであれば,NLPの勉強からされても良いでしょう.
何からやるべきか
NLPの基礎を学ばずして,初手で機械学習に手を出すのは悪手であることは述べておきます.精度の面において,古典的手法の方が良いことがあるからです.それこそ機械学習で作った応答よりもDialogFlowで作った応答の方が良い.なんてことになりがちだと思います.
基礎の勉強が終わったら,最初に挙げた前処理から始められると良いでしょう.データの特徴を見つけたら,それに適するモデルを選択すれば良いです.
最後に
研究/開発分野としてコールセンター対応を目的としたNLPは,既存システムがあることから非推奨です.独自開発によるアイデンティティを確立しないことには,これら既存サービスより優位性が示せず,大抵の場合没案になります.
私なら,音声変換を頑張って「音声の抑揚と合わせて感情を読み取る/表現する」というアイデンティティを確保します.クロネコヤマトの事例で集計されたアンケートでは,違和感を感じられた人が多いように見えますし,こういった既存サービスの欠点を突いていくスタイルになると思います.
ちなみに自然言語処理に「音声の抑揚と合わせて感情を読み取る/表現する」のも既存モデルに存在します.