kazhouse
@kazhouse

Are you sure you want to delete the question?

Leaving a resolved question undeleted may help others!

複数の人がいるところで録音した音声から自分の声だけ消したい

解決したいこと

複数の人がいるところで録音した音声から自分の声だけ消したい

発生している問題・エラー

4人が話している録音音声データから、自分の声や、特定の人の声だけを削除したいです。
無料のツールでできるのであれば望ましいですが、有料のツールでも検討しています。
解決方法を教えて下さい。

環境:
windows10 64bit
(スマートフォンやタブレット上で消す作業は検討していませんが、その方法しかないようでしたら検討します)

該当するソースコード

特にありません

自分で試したこと

以下のツールでできるか調べたり、操作しましたが、実現できませんでした。

CyberLink PowerDirector
InShot
vivavideo

0

2Answer

複数人の声のなかから、特定の人の声だけを削除するのはかなり難しいと思います。

音というのは、周波数と振幅と波の形の3要素で定まってきます。

環境音やノイズがある音声データの中から人の声だけを抽出するのは、人の声の周波数帯以外の部分をカットすることで実現できます。
ですので、音楽データからボーカル音源だけを抜き取ったり、逆にボーカル音源だけカットしてカラオケ音源を作成するようなツールはいくつかあると思います。

ただ、複数人の声の中から特定の人の声を特定するとなると、上記音の3つの要素がかなり限られてくるので特定することがかなり難しくなります。
(4人のうち、1人だけ男性もしくは1人だけ女性で、話し声の周波数帯が異なればその周波数帯をカットすることである程度実現できると思います。)

最近では、ある1人の人物の声を事前に10秒ほど録音してAIに学習させ、複数人の声のなかからその人の声だけ抽出するような技術の研究もあるようですが、まだ一般的に利用できるツールとして開発が進められていないのか、少し探した限りではそういったツールは見つかりませんでした。

声が重なっていないのであれば、人の耳で聞きながら、人力で特定の人が話している部分だけ削除するのが手っ取り早いような気がします。

1Like

Comments

  1. @kazhouse

    Questioner

    とてもわかりやすかったです。
    現状の市場にでているツールでは難しい、ということがよくわかりました。
    なぜ音楽系だと音源と人の声分けられるのに…、とまさに思っていました。
    ありがとうございます。
  2. すみません、もう少し調べてみたところ記載内容に多少の誤りがありました。
    ボーカルカットツールなどの仕組みは、単純に周波数カットだけではないようでした。
    ステレオ音源でのボーカル音声は中央に振られることが多いようで、左右の音の信号の差を利用してもボーカル音源がカットできるようです。

    以下の記事が参考になると思います。
    https://mahoroba.logical-arts.jp/archives/223#toc5
  3. @kazhouse

    Questioner

    参考になる資料をありがとうございます!
    ボーカルキャンセラーの構造、かなりイメージわきました。
    こちらを参考にすると、確かに「信号」に依存することがわかりました。
    インプット時や出力時の信号が、わかれていれば、片方をカットすることができる、という形ですね。
    大変参考になりました!
    m(_ _)m

音楽編集ソフトに頼るしかない気がします。
studio Oneなどで該当の音声が流れている部分をミュートするとか。
動画音声編集はqiitaで聞いてもあまり真っ当な答えがない気がします。

0Like

Comments

  1. @kazhouse

    Questioner

    ご助言ありがとうございました!

Your answer might help someone💌