VITSTRをもとにTAB譜を認識したい
解決したいこと
下のリンクのプログラムを変更して、下の図のような画像を識別してみたいのですが途中で詰まってしまったので助言いただきたいです。
https://github.com/roatienza/deep-text-recognition-benchmark
やりたいこととしては、上の画像の識別で例えば、最初のやつなら(8分音符4弦11フレット11フレット)=(8,4,11,11)を認識し、これをアルファベットに対応させた(i,e,l,l)と出力さたいです。
なぜ、アルファベットなのかというとこのプログラムは文字を認識して、a-Z文字で識別しているようなので、これを利用したほうが変更箇所少なく済むかなと思ったからです。
また、これ実現させるためには、学習させる画像の変更(上のようなものを大量に用意,入力は一小節で行うつもり)と例のように8分音符4弦11フレット11フレットを認識したら(i,e,l,l)と出力できるように出力の部分を変えないといけないのですが、この出力部分の変更でどんな感じに変更すればいいか詰まってしまったので助言をいただけたら助かります。また、何分この分野は初学者なので的外れなことを聞いていたら申し訳ないです。
a-0
b-1
c-2
d-3
e-4
f-5
g-6
h-7
i-8
j-9
k-10
l-11
0