Raspberry Pi3にディープラーニングを実装し、カメラ映像からリアルタイムにキャプションを生成・発話するトイガジェットを作りました。
生成されるキャプション文章の品質はまだまだ改善の余地ありのレベルではありますが、Raspberry Piのような小型PCでもここまでできるというご参考としてもご覧いただければと思います。
セットアップついての詳細はGitHub repoに掲載しております。
https://github.com/yoshihiroo/programming-workshop/tree/master/image_captioning_and_speech
また、当プロジェクトでは、Indiana Universityの筒井氏のソースコードをご本人のご了承のもとで使用しています。同氏による関連論文Using Artificial Tokens to Control Languages for Multilingual
Image Caption Generation: arXiv:1706.06275についても合わせてご参照ください。