LoginSignup
0
0

More than 1 year has passed since last update.

BCCWJの短単位TSVデータとUniDic基本10属性+語種の対応

Last updated at Posted at 2022-11-26

対応確認しようとしてよく忘れるのでメモ。

参考(短単位TSVデータのフィールド)
https://clrd.ninjal.ac.jp/bccwj/tsv.html

上記サイトに記載の短単位TSVフィールドに対応するUniDicのフィールド名を併記したのがこちら。
UniDicのフィールド名はこのページを参照。
https://clrd.ninjal.ac.jp/unidic/faq.html

BCCWJ TSV UniDic
0 サブコーパス名
1 サンプルID
2 文字開始位置
3 文字終了位置
4 連番
5 出現形開始位置
6 出現形終了位置
7 固定長フラグ
8 可変長フラグ
9 文頭ラベル
10 語彙表ID
11 語彙素ID
12 語彙素 lemma
13 語彙素読み lForm
14 語彙素細分類 mean ここが空でない場合、lemma-mean がlemma
15 語種 goshu
16 品詞 pos1(-pos2(-pos3(-pos4)))
17 活用型 cType
18 活用形 cForm
19 語形
20 用法
21 書字形
22 書字形出現形 orth, orthToken
23 原文文字列
24 発音形出現形 pron, pronToken
0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0