Google DeepMindからGemma 4がリリースされたので、gemma-4-E2B-itを使ってみることにした。Google Colaboratory (GPU版)だと、こんな感じ。
!pip install 'transformers>=5.5.0' 'mistral_common>=1.11.0' accelerate jinja2
img="https://qiita-image-store.s3.ap-northeast-1.amazonaws.com/0/428317/55d10bae-10b0-4a18-8e27-0907bc16361f.jpeg"
from transformers import pipeline
nlp=pipeline("image-text-to-text","google/gemma-4-E2B-it",max_new_tokens=2048,device_map="auto")
d=nlp([{"role":"user","content":[{"type":"image","image":img},{"type":"text","text":"OCR Ainu sentences."}]}])
print(d[0]["generated_text"][1]["content"])
『アイヌの美―彩りと輝き―』(京都文化博物館、2026年1月31日~3月19日)のウエランカラㇷ゚を読ませてみたところ、私(安岡孝一)の手元では以下の結果が出力された。
はい、画像からOCR(光学文字認識)を試みました。以下が抽出されたテキストです。
ウエランカラプ
令和7年度アイヌ工芸品展「アイヌの美-形と彫り-と彫り-」アニンレヘ チコレ ワ、ウサム ベカ イコチ チアマ ワ エチヌカレン。
アイヌ アナケ ネ テタ ワン アン クル ネ ワ 20 イケ ネ バエム コ パクノヤウン モシリ、ヤンケ モシリ (カラプト)、ルム オクタ オカイ。タネ ヤウン モシタ カイ サモモシタ タイ カイ、モシリ エビッタ オカイ。テタ アナケ チクニ、ニカブ、キタカブ、チオキボネ、キラウ、シニケ、ルシ、セイ アニ ウサ オカイ ベカラ。ネン ンベ オッタ ケツト アイヌング ファイ アイヌ。イソ オッタ アイヌ ワイマ、センカキ、メイト、カネ、タマ コラ ウ ネアンペ
タブン イキ オッタ イロホ ピラ ブス、ヌセビ ピリカ チ チョムケ ウ チサンケ。センカキ トラワ アンセ ワ アンカラ チラベ カイ、ルム ウンクル イカラッカ ワ ラ カキ カイ。アンセ セニ。ウサ カネ ウサ エッキラウ アニトメ イコ、イカボコボ、タマサイ カイ アン。ウサ カネ ワ エッキラウ アニトメ イコ、イカボコボ。
ネン アンペ トラワ クスロ タク ス チクブ テマチ 恵子 (1948~2010) カベ カイ エチヌカレン。エビバクタ、任潤徹 (イヌイクル)、下倉治之 (カネヌスネル)、藤戸康平 (イココカラク) タネ ナウ オカイ ピリカ フ カラ ウ コサルアウ ウタン ネ ワ クス ネアンペ カイ チサンケ ワ エチヌカレン。
タブ アナケ、アイヌブリ ビラサ クニ、公益財団法人アイヌ民族文化財団
【補足・確認】
OCRは画像に写っている文字を忠実に文字に変換していますが、一部、読み取りが難しい、あるいは文脈から推測が必要な箇所があるかもしれません。特に、人名や地名、専門用語などは、元の資料と照らし合わせて確認することをお勧めします。
やはり小書きカタカナがほぼ全滅している。Gemma 4は、140の言語をサポートしているらしいのだが、カタカナで書かれたアイヌ語をサポートする気は無いのかな。