現状の音声認識において、学習というフェーズは外せない!!
テレビ、Youtubeなどのメディアから取得も可能だが、やはり綺麗なデータというものは貴重だ。
そこで今回は音声認識分野において有名なコーパス一覧を整理してみた。
音響モデル作成に使用
まず音声データベースの構成要素を整理する
1.発話単位
--音素や音節は 前後の音素や音節によって様々に変化するため、多様な文脈における音声データを学習に使用する必要あり。
2.朗読/自発的音声
--テキストを読み上げる場合とテキストがない場合では音声が大きく異なる。
---テキスト読み上げのデータは集めやすく、質も良いが実際の音声認識には不向き
---テキストがない場合は現実に則したデータになるので、音声認識には向いているが質の良いデータを集めづらい
3.発話内容/テキスト
--目的とする音響モデルの単位(音素や音節)の組み合わせがまんべんなく出現している方が良い。
--音素バランス単語、音素バランス文を読んでもらうケースが多い
4.録環境
--雑音の少ない環境が理想:防音室、無音室で収録された音声
5.ラベル
--音声に対して、単語、音素の対応付がされているもの
6.話者
--性別、年齢、出身地(方言)、職業(アナウンサー、一般)などがある。
7.ディジタル化
--標本化周波数、量子化ビットによって質が決まる。
言語モデル作成に使用
テキストコーパスの分類
1.プレーンテキスト
--生のテキストデータを集めたもの
2.タグ付きコーパス
--品詞情報が付与されているコーパス
3.木構造を持つコーパス
--構文解析木つきのコーパス
4.パラレルコーパス
--対訳付きのコーパス
5.各構造などの詳細な分析済みコーパス
--機械翻訳や対話などの自然言語理解の研究を進めるのにタグ情報、構文解析木だけで不十分なことが多い。
6.語彙・辞書・シソーラス
--見出し語とその読みと品詞を集めた語彙目録ないし単語・形態素一覧表
--語が複数の意味を持つ場合の語義の説明、格パターンを集めた辞書にする
日本語の代表的な音声/言語データベース
音声に関するコーパスを調べるなら下記サイトで
音声資源コンソーシアム
代表的な音声コーパス
1.ATR音素バランス文連絡音声コーパス
--64名の話者(成人男性30名、成人女性34名)
--9600文(ATR音素バランス文503文をセットに分ける)
2.案内タスク連続音声コーパス
--成人男性17名、成人女性17名
--11500文(音素バランス文以外)
3.新聞記事読み上げ音声データベース:JNAS
話者 | 男女格153名(306名) | |
---|---|---|
読み上げテキスト | 新聞記事文 | 155セット(100文/セット) |
音素バランス文 | 10セット(50文/セット) | |
文数/話者 | 新聞記事 | 1セット(100文/セット) |
音素バランス文 | 1セット(50文/セット) | |
総発話数 | 新聞記事文 | 31938発話 |
音素バランス文 | 15372発話 |
*読み上げ用テキスト
**語彙規模、文長、文の複雑さの3つのパラメータを考慮して選択された90文を含む約100文
*音声収録機関・話者
**大学・国立研究所を合わせて39機関(各機関は男女2〜5名(男女同数4〜10名)の音声収録を行っている。
*音声データ
**収録環境は防音室または静かなオフィス
**各発話は2つのマイクで収録(ヘッドセットマイクと卓上型マイクで同時録音)
**WAV形式(16kHz・16bit・Mono)
*転記テキスト音声認識コーパス 参考リンク(http://research.nii.ac.jp/src/list.html)
**読み上げられた新聞記事に対して、形態素解析の区切り情報を含む片仮名、ローマ字、漢字かな混じりテキスト
参考url
一般的に使用されるデータとしてCSJもある。
CSJは大きく分けて下記の5つの構成に分かれる
1.セグメント・テーブル
列名 | 説明 | 例 |
---|---|---|
TalkID | 談話ID | A01F0055 |
ClauseID、BunsetsuID、SUWID など | 各単位のID | 00720909L |
StartTime | 単位の開始時間 | 720.909 |
EndTime | 単位の終了時間 | 721.369 |
Channel | 話者ラベル | L |
*メリット
**各単位の生起位置を一意に特定することができます。
参照: http://pj.ninjal.ac.jp/corpus_center/csj/data/rdb-str/#t1
2.サブセグメント・テーブル
列名 | 説明 | 例 |
---|---|---|
TalkID | 談話ID | A01F0055 |
SUWID、 LUWID | サブセグメントが帰属するセグメントのID | 00720909L |
len | セグメント中のサブセグメントの総数 | 3(3つの単語が融合して発話された場合) |
nth | セグメント中のサブセグメントの位置 | 2 (冒頭から2番目の場合) |
*メリット
**自発音声では、複数の語が融合して、分割できない一つの要素を形成することがしばしば生じます。
*例
**「僕は」が融合して「ボカー」と発音されるような場合です。ここで、形態論情報(短単位・長単位)としては、「僕」と「は」の2つの要素に分けて記述されますが、融合して発音されているため、「僕」と「は」の境界の時間を特定することができません。
*セグメントテーブルで表す部分
**単語(長単位と短単位)のうち、時間的に分節化できる部分をセグメント・テーブル
*セグメント・テーブルには、開始・終了時間が特定できますが、「ボカー」のような単位も含まれるため、品詞などの情報は付きません。
*サブセグメントテーブルで表す部分
**時間的に分節化できない部分は、その下位にあるサブセグメントで表現しています。
*サブセグメント・テーブルは「僕」「は」のように分割されるため品詞などの情報を含みますが、開始・終了時刻を持ちません。
参照: http://pj.ninjal.ac.jp/corpus_center/csj/data/rdb-str/#t2
3.親子関係テーブル
列名 | 説明 | 例 |
---|---|---|
TalkID | 談話ID | A01F0055 |
ClauseID、BunsetsuID、SUWID など | 親(先祖)セグメントのID | 00262895L(図3では親である節単位のID) |
ClauseID、BunsetsuID、SUWID など | 子(子孫)セグメントのID | 00263769L(図3では子である文節のID) |
len | 親セグメント中の子セグメントの総数 | 4(4つの子単位からなる親単位の場合) |
nth | 親セグメント中の子セグメントの位置 | 3(冒頭から3番目の場合) |
親子関係テーブルとは、図1 に表された階層関係に従って、単位間の親子関係をID の対で表現したもの
図3のように、セグメント・テーブルとして「節単位テーブル」とそれに対応する「文節テーブル」があるとします。
節単位と文節は親(先祖)と子(子孫)の関係にあるため、両者の間の対応関係を表現した親子関係テーブルが提供されます。
*メリット
**複数の単位に関わる分析を容易に行える。
*節単位の最後の文節の継続長を取り出したり、10個以上の文節から構成される節単位を取り出す、といった検索ができます。
*他の単位間の親子関係も同様に記述されているため、例えば節単位の最後の文節の冒頭の短単位が接頭辞のものを抽出する。
参照: http://pj.ninjal.ac.jp/corpus_center/csj/data/rdb-str/#t3
4.リンク・テーブル
列名 | 説明 | 例 |
---|---|---|
TalkID | 談話ID | A01F0055 |
リンク元となる文節のBunsetsuIDなど | リンク元セグメントのID | 00358705L |
リンク先となる文節のBunsetsuIDなど | リンク先セグメントのID | 00359291L |
*メリット
**単位間の関係としては、親子関係以外の単位間の関係を表現可能。
*例:文節係り受けは、文節同士の間の関係。
基本データベースでは、このような親子関係以外の単位間の関係をリンク・テーブルで表現している。
1.「文節係り受け関係」
2.「トーンの帰属先」
後者は、韻律ラベルで与えられているアクセントや句末の音調などのトーンがどのアクセント句に帰属するかを表わしたものです。
参照: http://pj.ninjal.ac.jp/corpus_center/csj/data/rdb-str/#t4
5.メタ情報テーブル
*メタ情報テーブルに含まれる情報
1.談話の基本情報を納めた「談話基本情報」
2.話者に関する情報を納めた「話者基本情報」
3.対話(インタビュー)の話題の元となった談話のIDやインタビュアーの情報を納めた「対話情報」
4.再朗読の読み上げ対象となった談話のIDや再朗読固有の印象評定値を納めた「再朗読情報」
5.個々の談話の各種印象情報を納めた「単独印象評定情報」と「集合印象評定情報」
参照 :http://pj.ninjal.ac.jp/corpus_center/csj/data/rdb-str/#t4
CSJの詳細情報。
http://pj.ninjal.ac.jp/corpus_center/csj/data/rdb-str/
言語データベース
RWCPテキストデータベース
上記の毎日新聞記事形態素差分データが含んでいる言語情報は以下である。
1.単語分割
2.各単語の品詞
のべ形態素数 | 109734585 |
異なり形態素数 | 394845 |
形態素の平均頻度 | 278 |
形態素の品詞はTHIMCOと名付けられている品詞体系を使用
品詞体系は荒いレベルの精度は良いが、細かいレベルの精度は目的に合わない場合もある。
著者の解釈や抜けた部分もあるかもしれないので、間違っている部分があればご指摘頂けると幸いです。
参考リンク