ModernGBERTの1.32億(132M)パラメータモデルをもとに、ドイツ語品詞付与・係り受け解析モデルmodernbert-german-134m-ud-embedsを試作してみた。Google Colaboratoryで動かしてみよう。
!pip install transformers deplacy
from transformers import pipeline
nlp=pipeline("universal-dependencies","KoichiYasuoka/modernbert-german-134m-ud-embeds",trust_remote_code=True)
doc=nlp("Am besten spielten sie am Sonntag zusammen")
import deplacy
deplacy.serve(doc,port=None)
「Am besten spielten sie am Sonntag zusammen」を係り受け解析してみたところ、私(安岡孝一)の手元では以下の結果が出力された。
# text = Am besten spielten sie am Sonntag zusammen
1 Am _ ADV _ _ 2 advmod _ _
2 besten _ ADJ _ Degree=Sup|Variant=Short 3 advmod _ _
3 spielten _ VERB _ Mood=Ind|Number=Plur|Person=3|Tense=Past|VerbForm=Fin 0 root _ _
4 sie _ PRON _ Case=Nom|Number=Plur|Person=3|PronType=Prs 3 nsubj _ _
5-6 am _ _ _ _ _ _ _ _
5 an _ ADP _ AdpType=Prep|Case=Dat 7 case _ _
6 dem _ DET _ Case=Dat|Definite=Def|Gender=Masc,Neut|Number=Sing|PronType=Art 7 det _ _
7 Sonntag _ NOUN _ Gender=Masc|Number=Sing 3 obl _ _
8 zusammen _ ADP _ PartType=Vbp 3 compound:prt _ SpaceAfter=No
文頭の「Am」が副詞として解析される一方、5語目の「am」は縮約冠詞として「an」「dem」に分解されている。分離動詞の「zusammenspielten」は、ちゃんとcompound:prt
で繋がれていて完璧だ。続けて「besten」と「Sonntag」を入れ換えてみよう。
doc=nlp("Am Sonntag spielten sie am besten zusammen")
deplacy.serve(doc,port=None)
「Am Sonntag spielten sie am besten zusammen」を係り受け解析してみたところ、私(安岡孝一)の手元では以下の結果が出力された。
# text = Am Sonntag spielten sie am besten zusammen
1-2 Am _ _ _ _ _ _ _ _
1 an _ ADP _ AdpType=Prep|Case=Dat 3 case _ _
2 dem _ DET _ Case=Dat|Definite=Def|Gender=Masc,Neut|Number=Sing|PronType=Art 3 det _ _
3 Sonntag _ NOUN _ Gender=Masc|Number=Sing 4 obl _ _
4 spielten _ VERB _ Mood=Ind|Number=Plur|Person=3|Tense=Past|VerbForm=Fin 0 root _ _
5 sie _ PRON _ Case=Nom|Number=Plur|Person=3|PronType=Prs 4 nsubj _ _
6 am _ ADV _ _ 7 advmod _ _
7 besten _ ADJ _ Degree=Sup|Variant=Short 4 advmod _ _
8 zusammen _ ADP _ PartType=Vbp 4 compound:prt _ SpaceAfter=No
素晴らしい。かなり苦労しつつ縮約冠詞をチューニングした甲斐あって、ちゃんとこのあたりを見分けられるモデルになった。さて、ModernGBERTの10億(1B)パラメータモデルも、チューニングしてみようかな。