はじめに
「『〇〇で歌ってみた』替え歌に基づく音韻検索データセット」を公開するとしたら、どういう注意が必要か、検討した内容をまとめました。
「〇〇で歌ってみた」は元歌詞の音韻を特定ジャンルの名詞の羅列で模倣する替え歌のジャンルです。
「『〇〇で歌ってみた』替え歌に基づく音韻検索データセット」は同替え歌に基づいて作成された、音韻が類似した単語を検索する技術の精度評価に使うためのデータセットです。
元歌詞がどのような替え歌歌詞に変換されたかを、候補単語のリストから検索するタスクとなっています。
このデータセットは、以下の情報を含みます。
- 元歌詞の短いフレーズ(文節や単語レベルの長さ)がどの替え歌単語に置き換えられたか
- 検索対象となる替え歌単語のリスト
学術利用がメインではあるものの、データセットが他者のコンテンツを用いて作られているため、公開にあたっては注意が必要と考え、情報を整理しました。
筆者は法律の専門家ではないため間違いを含む可能性があります。もしなにかあればコメントいただけると幸いです。
本文章をもとになされた第三者の決断について筆者は責任を負いません。
データセットの概要
クエリリストと単語リストからなる文字列データです。
- クエリリスト
- 元歌詞のフレーズと替え歌単語の対応ペアのリストです。
- 元歌詞がクエリ、替え歌単語が正解データとなります。
- 替え歌単語リスト
- 検索対象となる替え歌単語の候補のリストです。
例えば「野球選手名で歌ってみた」であれば、以下のようなJSONファイルとなります。
queries の query が元歌詞フレーズ、positive が替え歌単語(野球選手名)、words が替え歌単語のリストです。
{
"queries": [
{
"query": "アイ",
"positive": ["アイ"]
},
{
"query": "アウマル",
"positive": ["タクマル"]
},
{
"query": "アケ",
"positive": ["アベ", "カケイ"]
}
...
],
"words": [
"アーノルド",
"クリスアーノルド",
"アーリン",
"ロビーアーリン",
"アイ",
"アイエイジロウ",
...
]
}
想定されるリスク
歌詞
元歌詞や替え歌歌詞には著作権があります。
ただし、著作権法第30条の4によって、「情報解析等」の「非享受利用」であれば、著作権者の承諾なく利用(複製や公開含む)できます。
音韻検索データセットとしての利用は「情報解析等」に該当しますが、「享受」ができると30条の4の例外になりますので、注意が必要です。
今回のデータセットでは、歌詞を短く分割し、順番も復元が困難な程度にバラバラにすることで「享受」を困難にしています。
これにより、著作権に関する問題はクリアできると考えられます。
著作権的には問題なくとも、替え歌歌詞がキャラクターや人名の場合、商標権やパブリシティ権の侵害、名誉毀損などにつながる可能性が考えられます。
しかし、音韻が類似した元歌詞フレーズと併記するだけでこれらの不利益を与えるリスクは低いと考えられます。
強いて言えば、併記されるフレーズが侮蔑的な言葉だった場合に、名誉毀損等になるかもしれませんので、そういった元歌詞はあらかじめ省いておくほうが無難です。
替え歌単語リスト
替え歌単語のジャンルによってリスクが変わってきます。
基本的には、動物の種族名など権利所有者がいないものはもちろん、キャラクターや著名人など商業や人格が関わる文字列であっても、問題が発生する可能性は低いと考えられます。
音韻検索データセットとして列挙・公開する行為自体が、文字列コンテンツの権利所有者に商業的・人格的な不利益を与えるとは想定しにくいからです。
許容される公開方法
上記の考察から、データセットの公開自体は問題ないと考えられます。
次に、商用利用を許可してよいかどうかについてですが、音韻検索データセットとしての利用であれば、商用利用も許可して差し支えないという見解です。
商用利用の場合、コンテンツの権利所有者の商標権やパブリシティ権の侵害に特に注意する必要があるものの、音韻検索データセットとしての利用範囲内では、そうした商業的な利益の衝突は考えにくいためです。
万が一、データを別の意図(例:キャラクター名の大量利用による商品化)で加工する場合は、利用者側が責任を負うべき問題であり、公開者の範疇を越えます。
どういうライセンスがよさそうか
商用利用可能なデータセットとしての公開が問題なさそうであれば、あとは好みに応じてライセンスを選べば良いです。
好みとは、クレジット表記やライセンス継承などをどの程度求めるかということです。
やっぱり不安だから、あるいは、競合を作りたくないから、という理由で非商用にするのもありだと思います。
データセットには著作権が生じにくいとされるため、MITライセンスやCC系ライセンスといった「著作物向けライセンス」は、厳密には不向きとの意見もあります。
不向きというのは、例えば裁判になったときに、公開者が定めた利用条件を守らせる効力がなかったと判断される、みたいなリスクがあるということです。
実際にはこれらのライセンスがデータセットにも数多く使われていますので、全くの無効ということでもないのかもしれませんが。
ODC系(Open Data Commons)やCDLA系(Community Data License Agreement)など、データセット公開に特化したライセンスを選ぶのも手段の一つです。
ライセンスを「契約」として成立させ、利用条件を強制したい場合には、ワンクリックなどの手段でユーザに同意を得る仕組みを用意することが望ましいとされています。
おわりに
本記事では、「〇〇で歌ってみた」の替え歌歌詞を用いた音韻検索データセットを公開するにあたって、公開者の目線で、考慮すべき著作権や商標権、パブリシティ権などのリスクを整理してみました。
これから替え歌データセットを作ろうという方々にとって、本記事が一つの検討材料になれば幸いです。
参考
-
オープンデータセットのライセンスガイド
- 著作物ではないデータセットのライセンスの考え方について大変勉強になりました。
- 参考文献として挙げられていた以下の資料も大変勉強になりました。