顧客との会議の音声を用いてマネージメントの評価を行ってみる

Posted at 2025-09-25

プロジェクトマネージャーのスキルって、評価は主観に頼りがちで難しい領域ですよね。この記事では、顧客との定例会議の音声録音からマネージャーのスキルを評価してみます。オンライン会議で録音を撮ることは割と普通に行われてますが、議事録を生成するくらいであとば捨てられてしまってることが多いと思います。捨てられる情報を活用して評価の基準にするのは面白いかもしれません。

長文を読みたくない、すぐに試してみたい人は以下のリンクから試せます
会議音声のテキスト（文字起こし）を貼って下さい。話者分離済みの方が精度が高くなります。

1. 問題意識：PMのマネジメントスキル評価が難しい理由

PMはプロジェクト全体を指揮・管理し、成果を左右する重要な役割ですが、「正解のない業務」ゆえに評価が難しい職種です。

従来の評価手法には以下の課題がありました：

主観評価に偏りが：上司や顧客の印象、メンバーからのフィードバックなど、評価者の記憶や感じ方に依存するため、公平性に欠ける場合がある。

成果指標だけでは不十分：予算・納期などの定量指標は評価しやすいものの、コミュニケーションやリーダーシップといった数値化しにくい能力は見落とされがちです。

評価の頻度が少ない：プロジェクト完了時の振り返りや年次評価だけでは、日頃の成長や問題をタイムリーに捉えられない。

その結果、「PMのマネジメント能力の成長促進」や「納得感のある人材評価」の仕組みが十分に機能していないのが現状でした。改善には、日常業務に即した客観データに基づく評価が求められます。

そこで注目するのが会議の音声データです。顧客との週次打ち合わせなど、PMが日常的に行う対話には、マネジメントスタイルやスキルが如実に表れます。以前は会議の質を測る術がなく、改善も“記憶や印象頼み”でした。しかし今や、録音データを文字起こししAIで分析すれば、コミュニケーションのパターンや品質を可視化できます。例えばクラウド電話システムの事例では、AIが通話内容を解析し営業電話の対応スキルを定量評価する仕組みも実用化されています。会議音声も同様に、PMの対話行動を客観的に捉える新たな材料となり得るのです。

2. 評価観点の定義：「顧客対応力」と「プロジェクト推進力」

まず評価の軸を明確にします。PMのマネジメント能力を顧客対応力とプロジェクト推進力の2軸で捉えます。それぞれの概要は以下のとおりです。

顧客対応力 – Client Communication & Relationship: 顧客との対話を通じて信頼関係を築き、満足度を高める力です。具体的には、顧客の要望や懸念を正確に把握し、的確かつ迅速に対応するコミュニケーション能力を指します。提案内容を分かりやすく説明するプレゼン力、相手の立場に配慮した傾聴や共感、約束を守る誠実さ、クレーム対応・問題解決力などが求められます。顧客対応力が高いPMは、顧客からの信頼を勝ち取り長期的な関係を築くとともに、プロジェクトへの理解・協力を得やすくします。

プロジェクト推進力 – Project Driving & Leadership: プロジェクトを計画通りに前進させ、目標達成へ導く力です。限られた時間とリソースの中で、課題を発見・解決しながらチームやステークホルダーを巻き込み、物事を前に進める推進力を指します。具体例として、進捗の管理と調整、リスクや課題への迅速な対処、関係者との合意形成や調整力、意思決定と実行力、会議内で次のアクションを明確に定めるファシリテーション能力などが含まれます。プロジェクト推進力の高いPMは、多少のトラブルが起きても粘り強く対策を講じ、プロジェクトを良い状態に維持し続けます。

両軸は相互に関連します。顧客対応力が高ければ顧客の信頼を得て協力を引き出せるためプロジェクトが円滑に進みますし、プロジェクト推進力が高ければ成果が出て顧客満足度も向上します。それぞれを明示的に評価することで、PMの強み・弱みをバランスよく把握する狙いです。

3. 音声テキストから得られる定量指標と発話特徴

次に、会議音声を文字起こししたテキストから抽出できる客観的な定量指標や発話の特徴量を整理します。文字起こしデータを分析することで、PMの対話上の振る舞いを数値やパターンで捉えることが可能です。

会議音声のデータ分析例（Hylable Adapterのレポート画面）: 発話量の推移（右上グラフ、各色が話者）、対話のネットワーク（左下チャート）や各参加者の発言割合（右下バー）などが自動で可視化される。このような客観指標により会議のコミュニケーションを振り返り改善できる。

具体的に注目すべき定量・定性データの例を挙げます。

発話時間・回数：PMと顧客それぞれの発話時間シェアや発言ターン数。例えば45分の会議でPMが発話70%、顧客が30%なら、PMが説明に多く時間を使ったことが分かります。発話の偏りが大きい場合、顧客から十分に意見を引き出せていない可能性も考えられます。逆に顧客発話が極端に少なければ、PMが一方的に話しすぎた懸念があります。

発話の応答パターン：会話のキャッチボールの様子も分析できます。例えば一問一答の往復回数や、議論が盛り上がった箇所（短時間での頻繁な発言交替）などです。やり取りが活発か停滞気味かは、発言間の沈黙時間や相槌・リアクションの頻度にも表れます。

割り込み・被り：発言の被り（同時発話）や割り込みの回数も指標になります。頻繁に話者が被る場合、相手の発言を遮っている可能性がありますし、逆に全くかぶりがないなら相手の発言を充分に待っているとも解釈できます（会議の文脈次第ですが）。適度な割り込みはブレストのような活発さを示す一方、顧客発言をPMが制してしまうような割り込みはマイナス評価につながります。

発話速度・間：PMの話すスピードや、質問された後に回答までにかかった沈黙時間も特徴的なデータです。対応に詰まった場面では長いポーズが生じるかもしれません。発話速度も、早口すぎると伝わりづらく顧客置いてきぼりになる懸念があり、ゆっくりすぎても自信なさや冗長さに繋がるため、適切な範囲か評価します。

感情・センチメント：テキスト分析により**発言の感情傾向（ポジティブ・ネガティブ）**も定量化できます。例えばUser Local社の音声議事録システムでは、テキストマイニングによって各発言のポジティブ/ネガティブ判定が可能です。会議全体の雰囲気が肯定的だったか、苦情や懸念が多くネガティブだったかを客観視できます。顧客が不満を示すキーワード（「遅れている」「問題が…」など）の出現頻度も重要指標です。

キーワード頻出：文字起こしから頻出語を抽出すると、会議で何が主に議論されたかが分かります。例えば「リスク」「納期」「変更依頼」といった言葉が多ければ課題対応に多く時間を割いたことが見えてきます。PMが強調したキーワード（「進捗」「計画」など）と、顧客が頻繁に口にしたキーワード（「要望」「懸念」など）の違いから、両者の認識ギャップや関心領域も分析できます。

こうした多角的なデータを組み合わせれば、会議におけるPMの振る舞いを数値で裏付ける客観的エビデンスが得られます。例えば「PMの説明ばかりで顧客からの質問が少なかった」「議論が白熱しすぎて双方感情的になっていた」「最後に次ステップの確認がなかった」といった振り返りを、データに基づき指摘できるのです。

4. NLP・生成AIの活用方法：会議テキスト分析の具体策

上記の指標を得るために、自然言語処理（NLP）技術や生成AIをどのように活用できるかを整理します。ポイントは、生の会話データから有益な情報を抽出・分類し、評価につなげることです。具体的な技術・手法例を挙げます。

話者分離（Speaker Diarization）：録音音声から誰が喋ったかを識別する処理です。Zoomなどのオンライン会議では、自動文字起こし時に発話者ラベルが付与されるため比較的容易に話者分離できます。話者が明確に区別されたテキストを用いることで、PMと顧客それぞれの発言量やセンチメントを別個に分析できます。音声から直接ディープラーニングで話者認識する技術もありますが、誤認識が課題なので、可能な限りシステム側で話者ラベル付きの文字起こしデータを取得することが望ましいです。

センチメント分析（Sentiment Analysis）：テキストから発言の感情極性を判定するNLP技術です。単語のポジネガ辞書やBERTのようなモデルで、各発話がポジティブかネガティブかをスコアリングできます。例えば顧客の発言がネガティブ連発であれば、顧客満足度の低下を示唆しますし、PMの応答が終始ポジティブなら、前向きに顧客対応していた可能性があります。ただし皮肉や文脈依存の感情は自動判定が難しい点に留意が必要です。最新の会議解析ツールではリアルタイムで感情検知を行いダッシュボード表示するものもあります。

発話内容の分類・タグ付け：生成AIを活用すれば、各発言の内容や目的を文脈に応じて分類することが可能です。例えば「質問」「回答」「提案」「同意」「謝罪」など発話のタイプ別にラベル付けすれば、会議でのPMの役割遂行ぶりを分析できます。何％の発言がPMからの質問だったか、顧客からの要望に対する説明が何件あったか、といったことです。またトピック分類により、「進捗状況についての発言」「リスクに関する議論」「要求仕様の確認」といったテーマ別の発言量も把握できます。NLPのトピックモデルや、ChatGPTのような大規模言語モデルに「各発言がどの話題かタグ付けしてください」と指示することで実現できます。

合意形成や決定事項の検出：会議のゴールは多くの場合、何らかの合意やアクションアイテムを得ることです。生成AIは文章の意味理解が得意なため、議事録テキストから「ここで意思決定が行われた」「タスクが割り当てられた」箇所を抽出できます。例えば「では次回までに試作を完了します」とPMが発言したら、それはアクションアイテムの確定とみなせます。また、複数人の発言から意見の一致を検出することも研究が進んでいます。ある研究では複数のLLMエージェント間の議論で、モデルが他者の発言内容から合意に達したかどうかを高精度で判定できると報告されています。実会議でも「全員が納得した瞬間」をAIが捉えられれば、PMが合意形成を主導できたかの評価に繋がります。

要約と洞察抽出：NLPの応用として、会議内容の自動要約があります。議事録を要約する過程で、重要な論点・決定事項・未解決の課題などを抽出できます。要約結果をレビューすれば、PMが会議をうまくまとめられたか、ゴールに導けたかを評価できます。また生成AIに「この会議で良かった点と改善点を列挙してください」とプロンプトを与え、AI視点のフィードバックを得ることもできます。これは評価というよりコーチング用途ですが、AIを会議の振り返りパートナーとして活用するイメージです。

以上のように、NLPと生成AIの技術を組み合わせることで、会議テキストから多面的な情報を引き出しPMを評価する材料とできます。特に重要なのは、人間が膨大な議事録全文を読むことなく、AIが要点とパターンを整理して示してくれる点です。これにより評価者は「データに基づいたレビュー」に注力でき、公平性・納得感の高いフィードバックが可能になります。

5. 評価スコアリングの考え方：定量×定性評価とルーブリック

実際にPMのマネジメント能力をスコアリングする際には、定量指標と定性評価の両面を組み合わせることが重要です。【定量評価】とはKPIの達成度や数値データによる評価、【定性評価】とは観察に基づく質的な評価を指します。どちらか一方では不十分であり、両者を統合して初めて公平で納得感のある評価が可能となります。

今回のケースでは、前述のような定量データ（発話割合、発言数、感情スコアなど）を踏まえつつ、最終的な評価は評価者の洞察や会議内容の質的判断を加味して行います。具体的なアプローチを示します。

評価スコアの例：顧客対応力とプロジェクト推進力それぞれについて、5点満点や10点満点でスコアを付けます。例えば「顧客対応力 4/5」「プロジェクト推進力 3/5」のように数値化し、ベンチマークとして社内平均や前回評価との比較を行います。スコア自体はシンプルですが、その根拠として必ず具体的な事実を伴わせます。ここで定量データが役立ちます。「顧客からの質問5件に対しすべて即答できている」「PM発話が全体の60%で適切な範囲」「ネガティブな発言ゼロ」等、客観データを根拠として示すことで評価の裏付けとします。

ルーブリック（評価基準表）の作成：スコアリングに主観が入りすぎないよう、あらかじめ評価基準（ルーブリック）を定義しておきます。ルーブリックとは「評価観点ごとに各評価段階の具体的な状態を記述した基準表」です。例えば顧客対応力について、「5点＝常に顧客の期待を上回る対応ができている（例：クレームに迅速に対処し顧客満足につなげた）、3点＝基本的な顧客対応は問題ないが一部受け身（例：質問への回答は的確だが自発的な提案が少ない）、1点＝顧客から不満の声が上がる対応ミスが散見される」のように定義します。プロジェクト推進力についても、「5点＝会議内で次のステップと責任者を必ず明確にしプロジェクトを前進させている、3点＝指示や決定は出すものの曖昧さが残る場合がある、1点＝会議を経ても課題が放置され前進が見られない」といった基準を定めます。こうしたルーブリックにより、評価者間のブレを抑え、評価の透明性が高まります。

定量と定性の統合：定量データは評価の客観的材料として強力ですが、それだけでは評価しきれないニュアンスもあります。一方、定性評価（「顧客との信頼関係が感じられる」「PMのリーダーシップでチームが安心している様子」など）は主観的になりがちです。両者を突き合わせ、矛盾やギャップを検討することが大事です。例えば「顧客発言が少ない」という定量結果があっても、会議録を読むと単に「顧客に問題がなくPMの説明で満足していた」から静かだったのか、「不満はあるが言い出せなかった」のか判断が異なります。そこでデータを踏まえた上で人間が内容を精査するプロセスが不可欠です。AI任せにせず人間の洞察と経験を融合させることで、より妥当な評価につながります。

フィードバックコメント：評価スコアに対して、必ず具体的なフィードバックコメントを添えます。良かった点は何か、改善すべき点はどこかを、会議中の具体的エピソードや発言を引用しながら記述します。こうすることで評価対象のPMにとって建設的な次アクションを提示できます。人事評価の目的は値踏みではなく成長促進ですから、コメントを通じて「次はどうすればより良くなるか」という示唆を与えることが重要です。

以上を踏まえ、評価者は 「定量データに裏付けられた質的コメント」 を作成することになります。これは手間に感じられるかもしれませんが、昨今の生成AIはこの部分の支援も得意としています。次章ではその具体的なプロンプト設計例を紹介します。

6. 実践に向けたプロンプト設計例：Markdown形式の評価レポート生成

実際に生成AI（例えばChatGPTなど）を用いてPMの会議評価レポートを作成するには、プロンプト（AIへの指示文）の工夫がカギとなります。ここでは「週次会議の文字起こしデータ」をAIに分析させ、評価スコアシートとコメントをMarkdown形式で出力させるプロンプト設計の一例を示します。

プロンプト設計のポイント

役割の明示：AIに対し、「あなたはプロジェクトマネジメント評価の専門家です」のように役割を与えます。専門家視点で回答させることで、より実務的で洗練されたフィードバックが期待できます。

評価観点と基準の提示：あらかじめ用意した評価観点（顧客対応力・プロジェクト推進力）と簡単な定義、さらに各観点の評価基準（ルーブリックの要約）をプロンプト内で説明します。例えば「顧客対応力とは～であり、5=卓越、3=平均、1=要改善」「プロジェクト推進力とは～であり…」と伝えます。

入力データ（文字起こし）の供給：会議の文字起こしテキストをプロンプトに添付するか、あるいは要約した内容を提示します。長大な全文を投げ込む場合は、AIの入力トークン制限に注意が必要です。必要なら会議をセクションごとに要約して順次分析させるアプローチもあります。

出力フォーマットの指定：Markdownで「スコア表＋コメント」という構成になるよう具体的に指示します。例えば箇条書きで「1）表形式で各観点のスコアを示す、2）その下に各観点ごとの評価コメントを書く。コメント内では該当の発言を引用（Quote）し根拠を示す。」といった要件を伝えます。引用は、「"・・・"（発言内容）」のように引用符で囲んだり、マークダウンのブロック引用 > を用いると見やすくなります。

口調とスタイル：ビジネス文書らしく論理的で簡潔な文体を使うよう依頼します。上司やPM本人が読むことを想定し、上から目線にならないよう注意しつつ、改善点は遠慮なく指摘するバランスが重要です。

プロンプト例

以下に具体的なプロンプトの一例を示します。

あなたはプロジェクトマネジメントの専門家です。以下の「会議記録」に基づき、プロジェクトマネージャー(PM)のマネジメント能力を評価してください。**評価はMarkdown形式**で行い、指示された構成で出力してください。

評価する観点と基準は以下の通りです（各観点の優先度は同等）:

- **顧客との信頼構築**: 顧客との信頼関係を構築する能力。誠実で透明性のある対応を行い、約束を守ろうとしているかを評価する。  
- **課題の明確化**: 顧客の要望や問題を正確に把握・定義し、共通認識を形成できているかを評価する。質問や言い換えにより不明点をなくしているか。  
- **コミュニケーションの明確さとレスポンス**: 情報を分かりやすく簡潔に伝えているか、顧客からの質問・要求に適切かつ迅速に応答できているかを評価する。  
- **課題解決への取り組み**: 発生した問題に対し主体的に解決策を提案・実行しようとしているかを評価する。問題を放置せず、解決に向けた行動が見られるか。  
- **アクションアイテムとフォローアップ**: 会議で決定した次の行動を明確にし、責任者や期限を定めてフォローアップしているかを評価する。前回までの約束事項の履行状況も含む。

各観点について、**1〜5のスコア**を以下の基準で付けてください（5=非常に優れている、4=優れている、3=標準的、2=やや問題あり、1=重大な問題あり）。スコアは整数のみで判断します。

評価にあたっては**会議記録中のPMの具体的発言**や顧客とのやりとりを引用し、それを根拠に上記観点ごとに評価してください。引用は必要に応じて発言者名を付与し、発言内容を「`...`」で囲んで示してください。

**出力は以下のMarkdown構成にしてください**:

- 「# 評価レポート」というタイトル
- 「## スコアシート」という見出しと、評価観点ごとのスコアをまとめた表（観点名と1〜5のスコア列）
- 「## 評価詳細」という見出しと、各観点ごとの評価コメント（観点名を太字で記し、括弧でスコアを表示した後に100〜200字程度のコメント。コメント中に会議記録からの具体的発言を引用しつつ評価根拠を述べる）
- 「## 総合コメントおよび改善提案」という見出しと、全体総括コメント（PMの総合評価と今後の提案を数文で）

上記フォーマット・構成を厳守し、一貫した書式で評価レポートを作成してください。

以下に評価対象の**会議記録**があります。内容を精査し、上記の観点と基準でPMを評価してください。

上記プロンプトでは、役割・評価基準・出力形式を具体的に指定しています。あとは文字起こしデータさえあれば、生成AIがそれを分析し所定のフォーマットで評価を吐き出してくれるでしょう。

出力イメージ

（上記は出力イメージであり、実際の会議内容に即したものではありません）

このように、スコアの根拠となる発言を引用スタイルで示すことで、評価に説得力が増します。Markdown形式なら箇条書きや強調も利用できるため、読みやすく整理されたレポートになる利点があります。実務では、このAI生成結果を評価者が確認・修正し、最終的な評価フィードバックとしてPM本人に共有する、といった形になるでしょう。

7. 今後の可能性と実務導入のための留意点

会議音声データを用いたPMマネジメント評価は、まだ新しい試みですが人材育成・評価の革新につながるポテンシャルを秘めています。最後に、その将来可能性と導入上のポイントを述べます。

今後の可能性・拡張アイデア

継続的な自己フィードバック：毎週の会議データを蓄積し、PM自身がトレンドを追えるようにすれば継続学習の仕組みになります。例えば「過去1か月で顧客対応力スコアが徐々に向上している」「発話割合が適正化してきた」といった推移が見えれば、本人のモチベーションにもつながるでしょう。

複数PMのベンチマーク：組織内のPM複数人のデータを集めれば、相対評価やベストプラクティスの抽出も可能です。「顧客対応力が高いPMは会議冒頭の質問回数が多い」などの傾向を分析し、他のPMへのフィードバックや研修コンテンツに活かすことも考えられます。

他の対人業務への応用：この手法はPMと顧客の会議に限らず、例えば営業担当者と顧客との商談評価、コールセンター対応の品質評価、1on1面談での上司のコーチングスキル評価など、様々な場面に応用可能です。実際、電話応対や面談スキルの可視化ツールが続々登場しており、業務での対人コミュニケーション改善にAIが一役買いつつあります。

因果分析と改善提案：将来的には、蓄積した会議データから機械学習で「何がプロジェクト成功に寄与したか」の因果推論を行うことも視野に入ります。例えば「顧客対応力のスコアが高いプロジェクトでは、納期遵守率も高い」などが分かれば、評価を超えて経営指標との関連知見が得られます。また生成AIが「スコア向上のためのアドバイス」まで提示してくれるようになれば、まさにAIコーチとしてPM育成に寄与してくれるでしょう。

試してみたい人は

会議音声のテキスト（文字起こし）を貼って下さい。話者分離済みの方が精度が高くなります。

おわりに

会議音声の分析を通じたPMマネジメント評価は、「人材評価を実務データに基づいて行う」という新たなアプローチです。定量データと定性評価を組み合わせることで、これまで曖昧になりがちだったPMのソフトスキルを見える化し、公平かつ継続的なフィードバックが可能になります。生成AIの発展によって、その分析・評価プロセスはますます効率的かつ高度になるでしょう。一方で、人間ならではの洞察や現場感覚との組み合わせが成功の鍵となる点も忘れてはなりません。最終目的はプロジェクトマネージャーの成長とプロジェクト成功率の向上です。本記事の考察が、実務に根差した人材評価の仕組みづくりの一助になれば幸いです。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up