背景
SEとして働きながら、最近自社のエンジニア採用に少し携わることがあります。
採用担当からこのような声があります:
自分は技術に関する知識がないので、応募者のスキル感が把握しずらいです。
技術リーダーは忙しいくて、技術面接のスケジュールを調整が難しい、そもそも、現場と会話する機会がそこまでがないので、ほしい人物像は未だに分からないです....
中小企業ですので、大手みたいにどんどん採用をプロにソースアウトの経費がないし、コーディング試験を導入するもかなりお金をかかります。エンジニアを育つのが大事ですが、会社はただのエンジニアの集団ではないので、会社の中の一人一人を大事にして、成長させるのが重要ではないかと思いました。人事採用担当も重要な一員なので、もちろん育成しないといけないです。
しかし、自分はあくまでちょっとおせっかい性格をもつエンジニアですし、採用に関する知識当然不足です。自分が何かできるかを考え挙句、Speech-to-textを使って、面接の振り返りできるサービスを作ってみになりません。
設計
面接官と応募者のオンライン面接の会話をテキストへ変化、記録、分析、面接官へフィットバックします。
Speech-to-text と ASR
ASR: Automatic Speech Recognition
Speech-to-text : 文面通り、会話をテキストに変換する技術
NVIDIAさんのモデル:
https://developer.nvidia.com/blog/how-to-build-domain-specific-automatic-speech-recognition-models-on-gpus/
huggingfaceさんのモデル:
https://huggingface.co/transformers/v4.4.2/model_doc/speech_to_text.html
Google AI
https://cloud.google.com/speech-to-text?hl=ja
APIの利用可能
https://cloud.google.com/speech-to-text/docs/reference/rest
OpenAIさんはもちろんAPIを提供しています
https://platform.openai.com/docs/guides/speech-to-text
https://github.com/openai/whisper
Amazonさんの製品:
https://aws.amazon.com/jp/transcribe/?p=pm&c=transcribe&z=4
MicroSoftさんの製品:
https://speech.microsoft.com/portal/speechtotexttool
https://learn.microsoft.com/ja-jp/azure/ai-services/speech-service/whisper-overview
より早いモデルもあります。
https://github.com/SYSTRAN/faster-whisper
モデルの選択
ついでにcudaも勉強したいので、GPUを使って、faster-whisperでより自社のシチュエーションにあるものを作りたいと思いました。