Edited at

音声認識API 料金比較

More than 1 year has passed since last update.

なにをするにもまずは料金から。

個人でも、使えるかどうか調べてみた。

(20171228現在の情報。料金例は実際の請求料金と異なる可能性あります。)


4大API情報

巨人の肩に乗りたい。


google Cloud Platform

Speech API 料金情報含む

まずはgoogleが提供するSeech API。


料金体系

時間
料金

最初の60min
無料

以後
0.006$/15sec


IBM

IBM watson speech to text


料金体系

時間
料金

最初の1000min
無料

1001minから250,000min
0.02$/min

250,001minから500,000min
0.015$/min

500,000minから1,000,000min
0.0125$/min

1,000,000min以後
0.01$/min


AWS

AWS transcribe 料金


料金体系

時間
料金

最初の60min
無料(利用開始の12か月間)

以後
0.0004$/sec


Microsoft

Azure Bing Speech API 料金


料金体系

時間
料金

最初の5000トランザクション
無料

以後
4$/1000トランザクション

1トランザクションは最大15秒の音声データのリクエストの事のようです。


料金体系2

比較のため、アプリにおいて1トランザクションあたり平均で12秒音声を詰め込めると仮定。

時間
料金

最初の1000min
無料

以後
4$/200min


結局いくらくらいかシミュレーション

(単位:$)

時間
Google
IBM
AWS
MS

1,000
23
0
23
0

100,000
2,399
1,980
2,399
594

1,000,000
23,999
14,980
23,999
5,994

10,000,000
239,999
104,980
239,999
59,994


まとめ

あくまで料金のみについて、


  • ユーザー数が少ないチャレンジフェーズでは無料枠が大きいIBMかMS、

  • 規模が大きくなってくるとMS、

  • GoogleとAWSは料金に大差ないだろう


  • ただし、MSはトランザクション単位の課金なのでアプリで1トランザクション15secをどれだけ有効に使えるかがポイントだと思われます。


以上!私はまずMSにトライしてみようとおもいます。