LoginSignup
0

More than 3 years have passed since last update.

Lingua Libre - 失われつつある話し言葉を残すプロジェクト

Last updated at Posted at 2020-12-21

Lingua Libre はウィキメディア・フランスを中心に開発・運営されている、話し言葉を音声でコモンズにアーカイブしようというプロジェクトです。ネットが少数の言語に専有されつつある中、多様性を維持するために失われつつある少数民族の話し言語を保存することを主な目的としています。2020年12月現在、390名の話者により97の言語/方言で約33万件の単語が録音されています。

先日、ウィキメディア財団主催の2020年Coolest Tool AwardにおいてDiversity部門賞を受賞しました。

日本ではアイヌ語や各地の方言がその趣旨によく合致していそうですが、もちろん普通の日本語を録音して保存することもできます。
ウィキメディアのプロジェクトではウィクショナリーウィキデータの語彙素で使われています。単にコモンズのメディアファイルのひとつなのでそれ以外でも使われているかもしれません。

1.機材準備

PCとマイク、またはスマートフォンがあれば大丈夫です。オンラインミーティングの多い昨今、マイクを使う機会は増えているので録音するためのハードルはかなり低くなっています。

2.リストの準備

録音の対象とする単語は、その直前に入力することもできますが、ある程度まとまった数を録音する場合は事前にリストを作っておくと便利です。リストの作り方は「Help:自分のリストを作る」を参照してください。

3.ユーザー登録

ユーザー登録して使用言語などの初期設定をします。

4.録音ウィザード

録音作業はここで行います。

4.1 マイクのテスト

なんらか発声してみてマイクや録音状態を確認し、問題なければ「次へ」進みます。

4.2 話者のプロファイル

ひとつのユーザーアカウントであっても話す言語や方言などごとに、話者(スピーカー)のプロファイルは複数登録可能です。利用ライセンスもここで設定できます。

4.3 録音する単語のリスト

単語を入力して(+)ボタンで追加します。事前に作ったリストがある場合は「ローカルリスト」で読み込みます。「近所」ボタンでは現在地近くのウィキペディア記事の見出しを単語の候補として自動表示します。「ウィキメディアのカテゴリ」は日本語ではうまく動作しないようです。

4.4 発声

マイクのボタンをクリックして、準備した単語を読み上げます。

続けて複数録音できますが、ここではひとつだけ録音して「次へ」

4.5 公開

録音された音声が自動再生されます。問題があれば「前へ」戻り、問題なければ「ウィキメディア・コモンズで公開」をクリックするとファイル名を適当に自動生成してウィキメディア・コモンズ上で公開されます。

このようにコモンズ用のメタデータやファイル名は個々に意識しなくても話者のプロファイルや単語を元に自動的に付与されるため、PCでもスマホでも、単語を録音してコモンズにアップロードするまでの操作を簡単に手早く行うことができます。

5.その他補足

5.1 話者について

同じ単語について複数の話者が登録することは、性差や地域差などによる違いもあり、利用者の選択肢が広がるため問題ではありません。ただし、選べる場合は読み聞かせ活動をやられている方など、クリアに話すことに慣れている方の音声がベターだろうと思います。私自身、滑舌があまり良くなく無いよりはましといったレベルなので、ぜひベターな音声で置き換えて頂けるとありがたいです。

5.2 方言について

方言を残す場合、NDLデジコレで探すと方言集がいくつか見つかるので、保護期間満了のものを手掛かりに録音を始められると良いのではないでしょうか。
方言は多くが口承という性質上文献に残りづらい面がありますが、まさにその点がこのプロジェクトの目的です。自身がその方言のネイティブ・スピーカーである場合には文献に無いものであってもいわゆる「独自研究」ということではなく「事実」として音声をアーカイブすることは問題ないだろうと思います。
音声だけでなく書き言葉と合わせてその意味も残したい場合はウィクショナリーやウィキデータの語彙素で、まず単語を登録して音声ファイルとしてリンクすると良いでしょう。こちらは方言をある程度整理・分類するという作業が必要なのでアカデミックな研究なのか独自研究なのかなかなか難しい面が出てくるかもしれません。悩み事があれば議論ページ(英語)で相談してみてください。

5.3 構造化データ

Lingua LibreでもWikibase拡張を使用しており、音声ファイルに関わるメタデータを構造化データとして保持しています。こちらの統計値(表示まで少し時間が掛かります)などはSPARQLで取得してきています。ご興味ありましたらヘルプ:SPARQLあたりもご参照ください。

5.4 ライセンス

自分が新規登録した音声ファイルの利用ライセンスは他のメディアと同様にCC0, CC BY, CC BY-SA の中から選べます。私見ですが、単語の音声ファイルは応用範囲の広いごく基本的な情報であるため、特に拘りがなければCC0にしておくと利用者にとってはクレジット表記やライセンスの継承を考えなくてすむ点で、一括して多方面で自由に二次利用しやすくなります。

5.5 運営支援について

Lingua Libre の立ち上げから関わって来られたメインのエンジニアが離れることになった模様で、まだ十分な引き継ぎなどできていないようです。そのためトップページの日本語化は行われているがそれが反映されない、といった不具合が解決されない状態になっています。
(2021/1/19追記:メインページの日本語表示不具合は解消されました)
興味をお持ちのエンジニアがおられましたら、ぜひサポートなど関わって頂けると宜しいのではないかと思います。

6.関連情報

7.関連記事

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0