3月15日の記事の続きだが、Qwen3-VL-2B-Instructに小書きの「ㇿ」も追加することにした。「ㇿ」の単語ベクトルとしては、「ャ」と「ヤ」の差を「ロ」に足し込むことにした。ならば、小書きの「ㇷ゚」「ㇰ」「ㇱ」「ㇺ」「ㇻ」「ㇼ」「ㇽ」「ㇾ」の単語ベクトルも同様にすべきだと思う。Google Colaboratory (GPU版)だと、こんな感じ。
!pip install transformers accelerate jinja2
import torch
from transformers import pipeline
nlp=pipeline("image-text-to-text","Qwen/Qwen3-VL-2B-Instruct",device=-1)
for a,b in [("ㇷ゚","プ"),("ㇰ","ク"),("ㇱ","シ"),("ㇺ","ム"),("ㇻ","ラ"),("ㇼ","リ"),("ㇽ","ル"),("ㇾ","レ"),("ㇿ","ロ")]:
x=nlp.tokenizer(a)["input_ids"]
if len(x)>1:
w=len(nlp.tokenizer)
nlp.tokenizer.add_tokens(["".join(nlp.tokenizer.convert_ids_to_tokens(x))])
else:
w=x[0]
if w<nlp.model.config.text_config.vocab_size:
e=nlp.model.get_input_embeddings()
else:
e=nlp.model.resize_token_embeddings(w+1)
x=nlp.tokenizer(["ャ","ヤ",b])["input_ids"]
with torch.no_grad():
e.weight[w,:]=e.weight[x[0][0],:]-e.weight[x[1][0],:]+e.weight[x[2][0],:]
nlp.modelcard=None
nlp.save_pretrained("tmpdir")
img="https://qiita-image-store.s3.ap-northeast-1.amazonaws.com/0/428317/55d10bae-10b0-4a18-8e27-0907bc16361f.jpeg"
nlp=pipeline("image-text-to-text","tmpdir",max_new_tokens=2048,device_map="auto")
d=nlp([{"role":"user","content":[{"type":"image","image":img},{"type":"text","text":"OCR Ainu sentences."}]}])
print(d[0]["generated_text"][1]["content"])
京都文化博物館「アイヌの美―彩りと輝き―」(2026年1月31日~3月19日)のウエランカラㇷ゚を読ませてみたところ、私(安岡孝一)の手元では以下の結果が出力された。
ウエランカラㇷ゚
令和7年度アイス工芸品展「アイスの美-彩りと輝き-」アニ アン レ チㇿㇾ ワ、ウサム ペカ イコㇿ チアマ ワ エチヌカレアン。
アイス アナッネ テエタ ワノ アン クㇽ ネ ワ 20 イㇰ ネ パ エㇺコ パッノヤウンモシリ、ヤンケモシリ(カラドト)、ㇽトㇺ オッタ オカイ。タネ やウンモシッ タ カイサモロモㇱッ タカイ、モシリ エビッタ オカイ。テエタ アナッネ チㇰニ、ニカブ、キナカブ、チコイキナ ポネ、キラウ、シキテ、ㇽㇱ、チェㇷ゚カブ、セイ アニ ウサ オカイ ペ カㇻ。ネアンペ オッタ ケㇱト アネイワンケ ナ カイ アン。イノミ オッタ アネイワンケ ナ カイ アン。ビㇱカン モㇱリエオカイ ウタット ドㇻㇻ、アイス ウイマム ワ、センカキ、ヌイト、カネ、タマ コㇿ ワ ネアンペ アニ ビㇼカ イカラカラ ビㇼカ イスエアイス キ。
タパン イキ オッタ イㇿホ ビㇼカ ナ、スベキ ビㇼカ ナ チスㇺケ ワ チサンケ。イコㇿ エチヌカレアン カトツ エネアニ。センカキ トトラ アンデセ ワ アンカラ チタㇻベ カイ アン。ㇽトㇺ ウンㇰㇽ イカカラㇻ ワ カㇻㇰ キイ アン。ヤンケモシリ ウンㇰㇽ コㇿ タマサイ カイアン ワ、ボン コンコ コㇿ タマサイ カイ アン。ウサ カネ ウサ ユックㇻウ アニ アントㇺテ イコㇿ、イカヨビコㇿ、タンパクオナ、マキリ カイ アン。イノミ オッタ アネイワンケ ポートㇰキ、タカイサラ、パッチ カイ アン。
ネアンペ トトラノ クスㇿッ タ シㇰス チカップ美恵子(1948~2010)カラ ペ カイ エチヌカレアン。エエパキタ、貝澤徹(イヌイㇰㇽ)、下倉洋之(カネスイㇰㇽ)、藤戸康平(イコㇿカㇻㇰㇽ)タネ ウサ オカイ ビㇼカ プ カㇻ ワ コアスㇽㇱ ウタン ネ ワ クスネアンペ カイ チサンケ ワ エチヌカレアン。
タ ナナッネ、アイスプリ ピラサ クニ、公益財団法人アイス民族文化財団(アスココㇿトミ アニ アイスプリ ピㇻサ ウタラ)ケㇱ パ キ プ ネ ワ、タネ 30 スイ チキ シダンナ。タンペ エチヌカラ ワ、テエタ アイスプリ、タネ アン アイスプリ、アㇺキㇼㇰ インネチキ ビㇼカ。イョッタ イオシ、タパン イキ チㇿㇿ テッサマ、ピㇻカイコロ ウネㇽサ ア ウタラウサ ウサ ウンカスイ ウタㇻ、パセタラ チㇿキャイライケ シㇱタンナ。
北海道立釧路芸術館
京都府
京都府京都文化博物館
公益財団法人アイス民族文化財団
かなり良くなってきたように思える。ただ「アイヌ」が「アイス」になってしまうのは、正直いただけない。やっぱりトークナイザのmergesも作り直した上で、ちゃんと追加学習すべきかなあ。