対応確認しようとしてよく忘れるのでメモ。
参考(短単位TSVデータのフィールド)
https://clrd.ninjal.ac.jp/bccwj/tsv.html
上記サイトに記載の短単位TSVフィールドに対応するUniDicのフィールド名を併記したのがこちら。
UniDicのフィールド名はこのページを参照。
https://clrd.ninjal.ac.jp/unidic/faq.html
BCCWJ TSV | UniDic | ||
---|---|---|---|
0 | サブコーパス名 | ||
1 | サンプルID | ||
2 | 文字開始位置 | ||
3 | 文字終了位置 | ||
4 | 連番 | ||
5 | 出現形開始位置 | ||
6 | 出現形終了位置 | ||
7 | 固定長フラグ | ||
8 | 可変長フラグ | ||
9 | 文頭ラベル | ||
10 | 語彙表ID | ||
11 | 語彙素ID | ||
12 | 語彙素 | lemma | |
13 | 語彙素読み | lForm | |
14 | 語彙素細分類 | mean | ここが空でない場合、lemma-mean がlemma |
15 | 語種 | goshu | |
16 | 品詞 | pos1(-pos2(-pos3(-pos4))) | |
17 | 活用型 | cType | |
18 | 活用形 | cForm | |
19 | 語形 | ||
20 | 用法 | ||
21 | 書字形 | ||
22 | 書字形出現形 | orth, orthToken | |
23 | 原文文字列 | ||
24 | 発音形出現形 | pron, pronToken |