DirectShowで仮想カメラを自作しよう

Last updated at 2025-02-22Posted at 2020-07-16

この仮想カメラ実装で使用しているDirectShowはかなり古いAPIです。Windows11からMediaFoundationという比較的新しいAPIでも仮想カメラが実装できるようになりました。このMediaFoundationによる仮想カメラについても以下の記事を書いているので、ぜひご覧ください。

MediaFoundationの仮想カメラで、キャプチャしたウィンドウを映してみた

Windows10やより古いWindows向けに仮想カメラを実装する場合は、ここで紹介しているDirectShowを使用した実装が必要です。

N.Mです。

リモート会議や配信などが増えてきた昨今、Webカメラの代わりとなる仮想カメラを耳にすることが多くなってきました。

今回、Windows環境で自作する機会があり、そこで滅茶苦茶つまづいたので、まとめました。

今回作ったコードはGitHubでも公開しました。わからない箇所は以下のリポジトリもぜひご覧ください。

NMVCamFilter

DirectShowの仮想カメラ実装に必要な要素をまとめたページを作りました。必要に応じてこちらもご覧ください。

DirectShowの仮想カメラ

そもそも仮想カメラとは

アプリケーションからの映像を、Webカメラからの映像と同じような形で流すモジュールのことです。導入されると、そのモジュールが他のWebカメラなどと同じように、一覧に表示されます。

最近だと、OBSの映像を仮想カメラのプラグインを介してZoom等に流すなんていう話も聞いたりします。
OBSをバーチャルカメラとして出力してZoomやTeamsで映像ソースとして認識させる方法

余談1：今回やりたかったこと

Zoomなどで音声のみの状態にしたいときに、マイクからの音声を波形映像として出力するアプリケーションを作って、公開できればと思いました。ただ、OBSなどほかのアプリケーション頼りになってしまうと、そのアプリケーションを入れてもらわないといけないなど手間がかかってしまうので、作れるなら仮想カメラの部分も自作できればと思いました。

（オレンジの自作仮想カメラが今回の対象）

Windows環境で仮想カメラを作るには

DirectShowというフレームワークを利用すると良いようです。~~後継にMediaFoundationがありますが、これにはアプリケーションの映像をWebカメラと同じように流すといった機能がないようです。~~ Windows11でMediaFoundationでも仮想カメラが作れるようになりました！（MediaFoundationの仮想カメラで、キャプチャしたウィンドウを映してみた）

DirectShowにはフィルタとピンという概念があります。それぞれ、このようなものです。

フィルタ...映像を流す機能（ソースフィルタ）や映像を画面に移す機能（レンダリングフィルタ）など、1つの機能
ピン...フィルタ同士をつなぎ、映像信号などをやり取りする端子。

仮想カメラの場合、他のWebカメラと同じように認識されるソースフィルタを作成することになります。

DirectShowがどういううものかを軽くつかむために、通常のWindowsであればすでに入っているGraphEditorというものを使ってみましょう。これはC:\Program Files (x86)\Windows Kits\10\bin\10.0.17134.0\x86\graphedt.exe (10.0.17134.0の部分は環境によって異なるかもしれません)にあり、フィルタがピンでつながっている様子を見ることができます。フィルタはGraph→Insert Filterから追加することができます。

この図ではWebカメラ（ソースフィルタ扱い）からの映像がVideo Rendererというフィルタにピンを介して送られています。真ん中の再生ボタンを押して実行すると、Webカメラの映像が映し出されます。

DirectShowやGraphEditorについてはここでもう少し詳しく説明されているので、気になる方はご覧ください。

ソースフィルタの例

ここで紹介されている例が、経過時間を表示するという単純なものでわかりやすかったです。GitHubにもリポジトリがあり、MITライセンスだったので、使わせていただきました。

32bit版（Win32）と64bit版（x64）の両方でビルドできるようにしておきましょう（理由は後述）。ビルドが完了すると、32bit版ならDebugかReleaseフォルダに、64bit版ならx64フォルダ内のDebugかReleaseフォルダにdllファイルが出力されます。

GraphEditorで確認するためにはregsvr32.exeで生成されたdllファイルを登録する必要があります。管理者権限でコマンドプロンプトを起動し、以下のコマンドを入力すれば登録できます。

regsvr32.exe "dllファイルのパス"

※64bit版を登録しようとして失敗する場合は、一度cd ../SysWOW64で64bit用のフォルダに移動してから、上記のコマンドを入力してください。（自分の環境ではSystem32のregsvr32.exeで問題なく登録はできました。）

登録が完了すると、GraphEditorでDirectShow Filtersとして認識されていることが確認できます。

DirectShowで仮想カメラ実装時に出てきた問題

DirectShowを用いて仮想カメラを実装していくわけですが、以下のような多くの問題が発生しました。

コンパイルに必要なインクルードファイルが見つからない
サンプルも全然見つからない。
ソースフィルタがWebカメラと同じカテゴリに配置されない。
Webカメラと同じカテゴリに配置されても、Webカメラの一覧に出てこない。
Discordだと映像が出力されない。
コンパイル後のdllファイルへの書き込みができない

コンパイルに必要なインクルードファイルが見つからない

DirectShowは結構古いフレームワークです。GraphEditorのコピーライトの年号が2002になっていることからも察することができます。そのため、Windows10にはDirectShowのincludeファイルやライブラリは含まれておらず、上記のソースフィルタの例もコンパイルすることができません。Windows7あたりまではあったようですが...

sdk71examples

そのため、ここからダウンロードし、sdk71examples/multimedia/directshow/baseclasses/にある、ソリューションファイルをビルドして、libファイルを出力しましょう。（ソリューションファイルでのincludeフォルダやライブラリフォルダのパス設定はダウンロードしてきた場所に応じて、修正する必要はあります。）

libファイルが無事出力されたら、ソースフィルタのサンプルについて、includeフォルダやライブラリフォルダのパスをsdk71examplesのものに変更することでビルドできるようになるはずです。

サンプルも全然見つからない

DirectShowのAPIなどはMicrosoftから調べることもできますが、基本英語なのと、そもそもパラメタの設定などが独特ということもあり、サンプルが欲しくなりました。ですが、ネットで探しても、DirectShowのサンプル、特に仮想カメラのサンプルが出てこないんですよね...

なので、見つかった数少ないサンプルを紹介するという目的もあり、今回の記事を書きました。後でも触れますが、今回ここのサンプルが大変参考になりました。

ソースフィルタのサンプル：mysourcefilter

仮想カメラ用フィルタで使用するインタフェースのサンプル：svcam

ソースフィルタがWebカメラと同じカテゴリに配置されない

ソースフィルタのサンプルでは、GraphEditor上でもDirectShow Filtersというデフォルトのカテゴリに配置されてしまい、Webカメラなどが入っているVideo Capture Sourcesのカテゴリに配置されません。カテゴリの配置はサンプルのDllSetup.cppで、登録（DllRegisterServer）のタイミングで行われております。しかし、サンプルのreturn AMovieDllRegisterServer2(TRUE);だと、目的のカテゴリに配置することができないので、以下のように変更する必要があります。（参考）

STDAPI DllRegisterServer() {

	HRESULT hr;
	IFilterMapper2 *pFM2 = NULL;
	hr = AMovieDllRegisterServer2(TRUE);
	if (FAILED(hr)) {
		return hr;
	}

	hr = CoCreateInstance(CLSID_FilterMapper2, NULL, CLSCTX_INPROC_SERVER,
		IID_IFilterMapper2, (void **)&pFM2);
	if (FAILED(hr)) {
		return hr;
	}

	hr = pFM2->RegisterFilter(
		CLSID_MySource,
		FILTER_NAME,
		NULL,
		&CLSID_VideoInputDeviceCategory,
		FILTER_NAME,
		&rf2FilterReg
	);
	if (pFM2) {
		pFM2->Release();
	}
	return hr;
}

この変更に合わせて、DllUnregisterServer（登録解除）のほうも修正する必要があります。

STDAPI DllUnregisterServer() {
	HRESULT hr;
	IFilterMapper2 *pFM2 = NULL;
	hr = AMovieDllRegisterServer2(FALSE);
	if (FAILED(hr)) {
		return hr;
	}

	hr = CoCreateInstance(CLSID_FilterMapper2, NULL, CLSCTX_INPROC_SERVER,
		IID_IFilterMapper2, (void **)&pFM2);
	if (FAILED(hr)) {
		return hr;
	}

	hr = pFM2->UnregisterFilter(
		&CLSID_VideoInputDeviceCategory,
		FILTER_NAME,
		CLSID_MySource
	);
	if (pFM2) {
		pFM2->Release();
	}
	return hr;
}

これで、ソースフィルタがGraphEditor上でVideo Capture Sourcesカテゴリに配置されるようになりました。

Webカメラと同じカテゴリに配置されても、Webカメラの一覧に出てこない

Video Capture Sourcesには配置されましたが、これだけではまだDiscordやZoomのWebカメラリストに自作フィルタが出てきませんでした。原因としては2つありました。

32bit版、64bit版を用意していなかった。
仮想カメラとして認識されるために必要なインタフェースを継承していなかった。

32bit版と64bit版

ここにもありますが、アプリのbitとdll側のbitが一致していないと、まず認識されないようです。DiscordやZoomは32bit（x86）アプリケーションで、Chromeは64bit（x64）アプリケーションであるため、すべてに対応させようとすると、前述のとおり32bit版、64bit版の両方でビルドし、それぞれのdllファイルをregsvr32.exeで登録する必要があります。

（自分はまさかDiscordとかZoomとかが32bitアプリケーションだとは思わず、64bit版のdllファイルのみを生成していたので、ここで1回詰まりました...）

仮想カメラとして認識されるために必要なインタフェース

ソースフィルタが仮想カメラとして認識されるためには、IAMStreamConfig, IKsPropertySet, IAMFilterMiscFlagsの3つのインタフェースをピンクラスに追加しておく必要があります。（参考）

これらを追加する際には、仮想関数となっている以下のメソッドを実装する必要があります。（IUnknownはIAMStreamConfigやIKsPropertySetに継承されているようで、IUnknownにあるメソッドも実装する必要があります。）

IUnknown: QueryInterface, AddRef, Release
IKsPropertySet: Get, Set, QuerySupported
IAMStreamConfig: GetFormat, GetNumberOfCapabilities, GetStreamCaps, SetFormat
IAMFilterMiscFlags: GetMiscFlags

これらのメソッドではポインタを引数として渡すものも多く、このメソッドでメモリを確保するのか、それともメモリが確保されたポインタが渡されるのかすら分かりません。というか、そもそもこれらのメソッドで具体的に何をすべきかもよく分かりません。そのため、素直にサンプルのコードに従いましょう。（実はこの実装のサンプルがなかなか見つからず、一番厄介なポイントでした。）

svcam
NMVCamFilter（自分のコードですが、上のsvcamを参考にしております。）

IAmStreamConfigのGetStreamCapsはビデオの形式の設定を伝える関数で、どうパラメタが対応しているのかわかりづらいのと、人によって設定を変えたりすると思うので、以下にパラメタを軽く説明しておきます。ここでパラメタを指定する構造体の詳細を詳しく知りたい方は

をご覧ください。

HRESULT NMVCamPin::GetStreamCaps(
	int           iIndex,
	AM_MEDIA_TYPE **ppmt,
	BYTE          *pSCC
)
{
	*ppmt = CreateMediaType(&m_mt);
	VIDEOINFOHEADER *pvi = (VIDEOINFOHEADER *)(*ppmt)->pbFormat;

	pvi->bmiHeader.biCompression = BI_RGB;  //圧縮形式。ここでは非圧縮のRGBで指定。
	pvi->bmiHeader.biBitCount = PIXEL_BIT;  //1ピクセル当たりのbit数
	pvi->bmiHeader.biSize = sizeof(BITMAPINFOHEADER);  //BITMAPINFOHEADER構造体のサイズ（バイト単位）
	pvi->bmiHeader.biWidth = WINDOW_WIDTH;  //画面の幅（ピクセル単位）
	pvi->bmiHeader.biHeight = WINDOW_HEIGHT;  //画面の高さ（ピクセル単位）
	pvi->bmiHeader.biPlanes = 1; //ここは必ず1。
	pvi->bmiHeader.biSizeImage = GetBitmapSize(&pvi->bmiHeader);  //1フレームあたりの画像のサイズ（バイト単位）
	pvi->bmiHeader.biClrImportant = 0;  //重要な色の数。0にするとすべての色が重要という扱いになる。とりあえず0でよい。

	SetRectEmpty(&(pvi->rcSource));
	SetRectEmpty(&(pvi->rcTarget));

	(*ppmt)->majortype = (const GUID)(*sudPinTypes.clsMajorType);  //ピンのメジャータイプ（仮想カメラの場合は MEDIATYPE_Video）
	(*ppmt)->subtype = (const GUID)(*sudPinTypes.clsMinorType);  //ピンのサブタイプ（仮想カメラの場合は MEDIASUBTYPE_RGB24）
	(*ppmt)->formattype = FORMAT_VideoInfo;  //ppmtの設定で使用するフォーマット形式。仮想カメラの場合はFORMAT_VideoInfo
	(*ppmt)->bTemporalCompression = FALSE;  //フレームの時間的な圧縮があるか（中間フレームを生成するか）
	(*ppmt)->bFixedSizeSamples = TRUE;  //1フレームあたりのデータサイズは固定か（非圧縮ならTRUE）
	(*ppmt)->lSampleSize = pvi->bmiHeader.biSizeImage;  //1フレームあたりの画像のサイズ（バイト単位）
	(*ppmt)->cbFormat = sizeof(VIDEOINFOHEADER);  //ppmtの指定で使用したフォーマットのサイズ (バイト単位)

	VIDEO_STREAM_CONFIG_CAPS *pvscc = (VIDEO_STREAM_CONFIG_CAPS *)pSCC;
	pvscc->guid = FORMAT_VideoInfo;  //pvsccの設定で使用するフォーマット形式。仮想カメラの場合はFORMAT_VideoInfo
	pvscc->VideoStandard = AnalogVideo_None;  //アナログ形式のビデオをサポートするか。通常はAnalogVideo_None

	//ここからの指定はMicrosoftのドキュメント上だとDeprecatedとなっているので、指定しなくても良さそう。
	//以下は入力画像について
	pvscc->InputSize.cx = WINDOW_WIDTH;  //画像の最大サイズの幅（ピクセル単位）
	pvscc->InputSize.cy = WINDOW_HEIGHT;  //画像の最大サイズの高さ（ピクセル単位）
	pvscc->MinCroppingSize.cx = WINDOW_WIDTH;  //拡大縮小した際の画像の最小の幅（ピクセル単位）
	pvscc->MinCroppingSize.cy = WINDOW_HEIGHT;  //拡大縮小した際の画像の最小の高さ（ピクセル単位）
	pvscc->MaxCroppingSize.cx = WINDOW_WIDTH;  //拡大縮小した際の画像の最大の幅（ピクセル単位）
	pvscc->MaxCroppingSize.cy = WINDOW_HEIGHT;  //拡大縮小した際の画像の最大の高さ（ピクセル単位）
	pvscc->CropGranularityX = 80;  //拡大縮小する際の幅の変化量（ピクセル単位）
	pvscc->CropGranularityY = 60;  //拡大縮小する際の高さの変化量（ピクセル単位）
	pvscc->CropAlignX = 0;  //拡大縮小する際の幅の変化量（ピクセル単位）
	pvscc->CropAlignY = 0;  //拡大縮小する際の高さの変化量（ピクセル単位）

	//以下は出力画像について
	pvscc->MinOutputSize.cx = WINDOW_WIDTH;  //拡大縮小した際の画像の最小の幅（ピクセル単位）
	pvscc->MinOutputSize.cy = WINDOW_HEIGHT;   //拡大縮小した際の画像の最小の高さ（ピクセル単位）
	pvscc->MaxOutputSize.cx = WINDOW_WIDTH;  //拡大縮小した際の画像の最大の幅（ピクセル単位）
	pvscc->MaxOutputSize.cy = WINDOW_HEIGHT;  //拡大縮小した際の画像の最大の高さ（ピクセル単位）
	pvscc->OutputGranularityX = 0;  //拡大縮小する際の幅の変化量（ピクセル単位）
	pvscc->OutputGranularityY = 0;  //拡大縮小する際の高さの変化量（ピクセル単位）
	pvscc->StretchTapsX = 0;  //横方向に拡大する際に、どうピクセルを処理するか
	pvscc->StretchTapsY = 0;  //縦方向に拡大する際に、どうピクセルを処理するか
	pvscc->ShrinkTapsX = 0;  //横方向に縮小する際に、どうピクセルを処理するか
	pvscc->ShrinkTapsY = 0;  //縦方向に縮小する際に、どうピクセルを処理するか
	//Deprecatedとなっているのはここまで

	pvscc->MinFrameInterval = 200000; //最小のフレーム間の時間（100nsec単位）。この指定だと50fps
	pvscc->MaxFrameInterval = 50000000; //最大のフレーム間の時間（100nsec単位）。この指定だと0.2fps
	pvscc->MinBitsPerSecond = (WINDOW_WIDTH * WINDOW_HEIGHT * PIXEL_BIT) / 5;  //1秒あたりの最小ビットレート
	pvscc->MaxBitsPerSecond = (WINDOW_WIDTH * WINDOW_HEIGHT * PIXEL_BIT) * 50;  //1秒あたりの最大ビットレート

	return S_OK;
}

Discordだと映像が出力されない

//NMVCamFilter.h
const AMOVIESETUP_MEDIATYPE sudPinTypes =
{
	&MEDIATYPE_Video,
	&MEDIASUBTYPE_RGB24
};

ここで、ピンのタイプを定義する際に、MEDIASUBTYPE_RGB32の1ピクセル32bitにしようとしたところ、形式が合わないのか、カメラのリストに仮想カメラが出現しても、映像が表示されませんでした。MEDIASUBTYPE_RGB24の場合は、Discord, Zoom, Google Chromeすべてで映像もしっかり映りました。

コンパイル後のdllファイルへの書き込みができない

これはDirectShowに限った話ではありませんが、dllファイルが使用されている間はコンパイルしても書き込みができないため、エラーが発生します。この場合は、一度DiscordやZoomなどWebカメラを使いそうなアプリをすべて終了してからコンパイルしましょう。（×で閉じるだけではダメで、タスクトレイで該当アプリを終了する必要があります。）regsvr32.exeでは引数に/uを与えると登録解除できますが、しなくても問題なくdllファイルの書き込みができ、更新が反映されます。

余談2：フィルタ内にOpenGLなどの処理をまとめて入れるのはやめよう。

ソースフィルタの例を見るとわかるように、デバイスコンテキストを利用しているので、OpenGLでこのデバイスコンテキストに書き込めば、仮想カメラと映像出力を1つにまとめられるのではないかと思い、試してみました。OpenGLの映像を映すこと自体はできるのですが、いろいろ不都合がありました。

滅茶苦茶遅い。通常なら余裕で60fpsくらい出るものも、10fps以下になってしまう。
フィルタ内の実装だとVertex Buffer Objectはおろか、Vertex Array Objectも使えず、ろくな高速化ができない（OpenGLのバージョンも1.1扱いになってしまい、glewのほとんどの拡張が使えない）。
GraphEditorではOpenGLの映像が映っても、Zoomでは映らなかったりした。
フィルタからマイクのバッファを直接触ろうとすると、セグフォで落ちる。おそらく、DirectShowのフィルタでやるならちゃんと音声用のピンを作らないといけないのだろうが、DiscordやZoomなどで使えるようにする以上、入力、出力両方のピンを作る必要がある。サンプルもあまり出てこないDirectShowでこれ以上はあまり実装したくない。

よって、OpenGLで映像を作る部分は、別にアプリケーションをつくって、以下のような流れにしたほうが楽だと思います。（windows.hをインクルードし、WindowsのAPIを使えるようにしています。）

別アプリケーションでOpenGLを使って映像を作る。
仮想カメラ側で、そのアプリケーションのデバイスコンテキストを取得してくる。
2で取得したデバイスコンテキストに映っているものをBitBltで仮想カメラ側のデバイスコンテキストに転送し、この転送されたものを仮想カメラの映像として出力する。

2のところで、目的のウィンドウを取得するために、EnumWindowsを使って各ウィンドウの名前を調べたりするかと思いますが、GetWindowTextだと特にカメラ切替で仮想カメラを終了する際にデッドロック状態になり、固まってしまいます。そのため、SendMessageTimeoutWを使用して、タイムアウトできる状態でウィンドウの名前を取得しましょう。（参考）

まとめ

今回の目的以外でも、DirectShowで仮想カメラフィルタを作成すれば、自作アプリの映像をWebカメラ経由で配信できるようになるので、ぜひ上記のことに気を付けて、試してみてください！

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up