2月28日の記事の続きだが、PaddleOCR-VL-1.5をカタカナ書きのアイヌ語で追加学習して、PaddleOCR-VL-1.5-Ainuを試作してみた。Google Colaboratoryで動かしてみよう。
!pip install 'transformers>=5.7.0' accelerate jinja2
img="https://qiita-image-store.s3.ap-northeast-1.amazonaws.com/0/428317/55d10bae-10b0-4a18-8e27-0907bc16361f.jpeg"
from transformers import pipeline
nlp=pipeline("image-text-to-text","KoichiYasuoka/PaddleOCR-VL-1.5-Ainu",max_new_tokens=2048,device_map="auto")
doc=nlp([{"role":"user","content":[{"type":"image","image":img},{"type":"text","text":"OCR"}]}])
print(doc[0]["generated_text"][1]["content"])
『アイヌの美―彩りと輝き―』(京都文化博物館、2026年1月31日~3月19日)のウエランカラㇷ゚を読ませてみたところ、私(安岡孝一)の手元では、以下の結果が出力された。
ウエランカラㇷ゚
令和7年度アイヌ工芸品展「アイヌの美-彩りと鯽き-」アニ アン レヘ チコレ ワ、ウサㇺ
ペカ イコㇿ チアマ ワ エチヌカレアン。アイヌ アナㇰネ テエタ ワノ アン クㇽ ネ ワ 20 イㇰ ネ パ エㇵコ パㇰノヤウンモシㇼ、
ヤンケモシリ (カラゾト)、ルト オッタ オカイ。タネ ヤウンモシッ タ カイ サモㇿモシッ タ
カイ、モシㇼ エビッタ オカイ。テエタ アナㇰネ チクニ、ニカㇷ゚ キナカㇷ゚、チコイキㇷ ポネ、
キラウ、シキテ、ルㇱ、チエプカㇷ゚、セイ アニ ウサ オカイ ペ カㇻ。ネアンペ オッタ ケㇱト
アネイワンケ ㇷ カイ アン。イノミ オッタ アネイワンケ ㇷ カイ アン。ピㇱカン モシㇼ
エオカイ ウタㇱ トゥラ、アイヌ ウイマㇹ ワ、センカキ、ヌイト、カネ、タマ コㇿ ワ ネアンペ
アニ ピㇱカ イカㇻカㇻ ピㇱカ イヌイェ アイヌ キ。タパン イキ オッタ イロホ ピㇱカ ㇷ、ヌペキ ピㇱカ ㇷ チヌㇺケ ワ チサンケ。イコㇿ
エチヌカレアン カトゥ エネアニ。センカキ トゥラ アンニヌ ワ アンカㇻ イミ カイ アン。
センカキ トゥラ アンテセ ワ アンカㇻ チタㇻペ カイ アン。ルトㇺ ウンクㇽ イカㇻカㇻ ワ
カㇻ クㇱ カイ アン。ヤンケモシリ ウン クㇽ コㇿ タマサイ カイアン ワ、ポン コンコ コㇿ
タマサイ カイ アン。ウサ カネ ウサ ユッキラウ アニ アントㇺテ イコㇿ、イカヨピコㇿ、
タンパクオチ、マキリ カイ アン。イノミ オッタ アネイワンケ ㇷ゚ トゥキ、タカイサラ、パッチ
カイ アン。ネアンペ トゥラノ クスロッ タ シㇱヌ チカップ美恵子 (1948~2010) カㇻ ペ カイ
エチヌカレアン。エエパキタ、貝澤徹 (イメイエクㇽ)、下倉洋之 (カネヌイェクㇽ)、藤戸康平
(イコㇿカㇻクㇽ) タネ ウサ オカイ ピㇱカ ㇷ カㇻ ワ コアスルアㇱ ウタン ネ ワ クス ネアンペ
カイ チサンケ ワ エチヌカレアン。タㇷ アナㇰネ、アイヌプリ ピラサ クニ、公益財団法人アイヌ民族文化財団 (アヌココㇿ
トミ アニ アイヌプリ ピラサ ウタㇻ) ケㇱ パ キ ㇲ ネ ワ、タネ 30 スイ チキ シッタン
ナ。タンペ エチヌカㇻ ワ、テエタ アイヌプリ、タネ アン アイヌプリ、アㇱキㇼ クㇽ インネ
チキ ピㇱカ。イヨッタ イオㇱ、タパン イキ チコㇿ テッサマ、ピㇱカイコㇿ ウネルサ ア ウタㇻ
ウサ ウサ ウンカスイ ウタㇻ、パセタラ チコヤイライケ シッタン ナ。北海道立釧路芸術館
京都府
京都府京都文化博物館
公益財団法人アイヌ民族文化財団
私の能力不足でトークン追加ができなかったため、UTF-8のままで「ㇷ゚」や「ㇰ」を扱っている。結果として「ㇼ」と「ㇱ」が十分に見分けきれておらず、「ピㇼカ」が全て「ピㇱカ」になってしまっているのが残念だ。しかも、かなり遅い。うーん、やっぱりアイヌ語OCRは、Qwen3.5で進める方がいいのかなあ。