4
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 3 years have passed since last update.

WikimediaAdvent Calendar 2020

Day 1

メディアファイルをコモンズに一括アップロードするPattypan

Last updated at Posted at 2020-11-30

- コモンズ利用のヒント1

このところ細々と、浮世絵などを題材にOpenGLAMやオープンアクセスのムーブメントとウィキメディアの各プロジェクトをつなぐやり方をあれこれ調べたり試行錯誤してきました。その過程で見えてきたことや使ったツールの紹介など、いくつか記事を投稿予定です。何かの参考になれば幸いです。お気づきの点などありましたらコメント頂けると嬉しいです。

1 前置き

ウィキメディア・コモンズへの画像などのメディアファイルのアップロードはウィザードを利用すると、その指示に従うだけで比較的手軽にできるようになっています。複数アップロードする場合でも対象物の名前や説明などのメタデータを、共通する部分があれば全てにコピーすることもできます。
自分で撮った写真をとりあえず何件か登録する程度であればこれで十分なのですが、数が増えてきたり、メタデータを細かく指定したい場合には、全てをアップロードウィザード画面でひとつずつ対話的に処理していると手間が掛かるばかりでなく入力間違いも起こしやすくなります。
このあたりの改善を支援するツールが今回紹介するPattypanです。

2 Pattypanの概要

(Pattypan:かぼちゃの一種)
PattypanはJavaで開発された、コモンズへのメディアファイル一括アップロード用のツールで、例えばGLAM機関などが公開しているデジタルアーカイブを作品ごとのメタデータを付与しながらある程度まとめてアップロードする、といった用途に適しています。おおまかには
・提供者が持つメディアファイルとそのメタデータをもとに、コモンズ側のテンプレートに沿った内容を登録するための中間的なエクセルファイルをひな形として初期生成し、
・そのエクセル上でメタデータを細かく整備しながら入力値を検証したり、コモンズ上での見え方をプレビュー機能で確認し、
・問題が無くなった時点で内容をコモンズに一括登録する、
といった手順で使用します。

UIの完成度は決して高いとは言い難いものの、エクセルと連携して行き届いた細かい操作ができる点でとても実用的な支援ツールです。

3 インストール

Javaの実行環境があればこちらから最新版の.jarファイルをダウンロードして起動するだけです。

4 操作説明

不慣れな方は操作の前に最初の一歩をお読み頂いてアップロードウィザードから始めて頂くと良いと思います。Pattypanである程度まとまった量の一括アップロードを行う際にはこちらのガイドライン(英語)も参照してください。特にGLAM機関がそのコンテンツを一括して提供する場合には、注意事項や便利な機能もいろいろ用意されていますので「ウィキメディアコモンズへのデータ転写:機関のデータアーカイブの供用」も併せてよくお読みください。

4.1 事前準備

メディアファイルとメタデータ(作者、作品名、作成年などの書誌情報に相当)を用意します。
現在Pattypanが扱えるメディアファイルの拡張子は以下の通りです。
"png", "gif", "jpg", "jpeg", "tiff", "tif", "xcf", "svg", "wav", "ogg"

ここでは川瀬巴水新版画作品をNDLデジコレで探して実際にコモンズへ登録してみます。

4.1.1 NDLデジコレから情報収集

4.1.1.1 画像をダウンロード

NDLデジコレを「川瀬巴水」で検索して見つかったもののうち、保護期間満了となっている作品の中から「川瀬巴水版画集」を選びました。50件ほどある画像をダウンロードします。この部分は一括操作ができないのでひとつづつ手で操作します。
画面上部にある「JPG」アイコンをクリックして「100%」で「表示」させてから名前をつけて保存します。

この時の画像ファイル名はアップロード時に変えられるので適当で良いのですが、識別しやすい名前をつけておくと作業がスムーズです。ここでは一例として以下の規則で命名します。

NDL-DC_(pid)-(コマ番号).jpg
NDL-DC:NDLデジタルコレクションの略称
(pid):NDLデジコレのコンテンツを一意に示すIDでURLに含まれる
(コマ番号):コンテンツが複数ページに分かれている場合のページ番号に相当
その他:適宜(ここでは作品の作成年が読み取れたのでS02などのように追加)

オリジナル画像には丁寧にカラーパレットや目盛りも付いています。原本としては貴重な情報ですが、利用するだけの人には通常不要なので不要な余白をカットしたバージョンもcrd(croppedの略)を付けて保存します。これは必須ではありませんがきっと誰かの役に立つだろうと思いながらがんばります :)

こんな感じでファイル名を付けます。

4.1.1.2 メタデータを参照

画像をダウンロードする際、左サイドで書誌情報を確認できます。

次のステップでひな形エクセルを作成する際のメタデータはここから参照します。

4.2 ひな形エクセルの初期作成

Pattypanを起動します。(操作の詳細は簡易マニュアル参照)

4.2.1 初期画面


「Generate Spreadsheet」ボタンをクリックし、下記画面で「Browse」ボタンでアップロード用画像ファイルを格納したフォルダを指定。正しく選択できたら「NEXT」。

4.2.2 テンプレートに応じたひな形エクセルへの出力値設定画面

左側にテンプレートの候補が表示されます。これはメタデータをコモンズのファイルページに登録する際に使用するものです。ここでは先頭のArtwork(芸術作品)テンプレートを使います。内容を詳しく知りたい場合は{{Artwork}}の隣にある「Template documentation」をクリックするとテンプレートの詳細説明が見られます。左から2列目以降、{{Artwork}}の下はテンプレートごとの入力エリアです。

入力エリアのうち、左側は各フィールド名、中央部は値の設定方法、右側は値の入力欄です。
左側のフィールド名は一般的に芸術作品に必要なものが列挙されており、準備したメタデータに対応するフィールドにそれぞれ値を入力します。多数ありますが、必須なのはsource(出典)だけです。手元にあるメタデータに対応するフィールドがあれば転記します。

中央部にあるラジオボタンを選ぶとそれぞれ次のように動作します。
Yes:右側に値の入力欄が現れ、複数行に対する同じ初期値があれば指定する。空欄でも構わない。
Const:右側に値の入力欄が現れ、複数行に対する同じ固定値を指定する。
No: 値の入力欄は現れず、入力もしない。不要項目はNoを選ぶ。

値には文字列やウィキテキストが使えます。利用できるテンプレートがある場合は記入内容を簡略化したり自動的にリンクを張ったり他言語化したりできるため、{{テンプレート名}}のように記入して利用したほうがベターです。

それでは各フィールドに具体的な値を設定していきます。

フィールド名 (入力有無) 値【説明】

  • Artist (Const) {{Creator:Kawase Hasui}}【作者名。川瀬巴水には作者ページがあるのでそれを呼び出す{{Creator}}テンプレートを使用します。】
  • Author (No)【本などの著者】
  • Title (Yes) 川瀬巴水版画集【作品のタイトル】
  • Description (Yes) 昭和10(1935)年に渡辺画版店から出版された川瀬巴水の版画集内の作品【解説】
  • Date (Yes)【日付。作品ごとに異なるため空欄とし、後からエクセルで個別に設定】
  • Medium (No)【技法】
  • Dimensions (No)
  • Institution (Const) 国立国会図書館【コレクション】
  • Department (Const) 国立国会図書館デジタルコレクション【所蔵】
  • place of discovery (No)
  • Object history (No)
  • Exhibition History (No)
  • Credit Line (No)
  • Inscriptions (No)
  • Notes (No)
  • Accession Number (Yes) 本別7-302【台帳番号。美術館ではないため請求記号を充てています】
  • Place of creation (No)
  • Source (Yes){{NDL Digital Collections|2586549}}【情報源/撮影者。NDLデジコレの出典を示す{{NDL Digital Collections}}テンプレートを使用。pidが作品により異なる場合は後からエクセル上で修正します。】
  • Permission (Const){{PD-scan}}【許可。2次元のパブリックドメイン作品をスキャンした忠実なデジタルコピーであることを示す{{PD-scan}}テンプレートを使用】(2020/12/3追記:アップロード後に別の方がこのテンプレートを{{PD-art|PD-Japan}}に差し替えていました。こちらを使用したほうが良いのかもしれません。)
  • other versions (Yes)【その他のバージョン。同じ画像の別バージョンを示す。オリジナルと余白を切り取ったものがあるのでそのファイル名を相互に指定。作品ごとに異なるので値は後からエクセル上で設定します。ファイル名を<gallery>タグで括るとコモンズ上で画像プレビューが表示されます】
  • References (No)
  • Wikidata (No)【ウィキデータの項目番号。Wikidataに項目がある作品の項目番号を設定すると、wikidataに登録されている内容を対応するフィールド(Artistなど)に自動的に設定してくれます。】
  • License (No)【利用ライセンスが明示されている作品はライセンスタグの中から該当するものを選んで設定します。自分の作品は自分で決めます。】
  • Partnership (No)

4.2.3 エクセルひな形の生成

「Next」ボタンを押すと下記画面に遷移します。

提案されたエクセルファイル名を確認し、必要なら修正して「Create file」ボタンを押します。

「Open file」をクリックすると初期作成されたエクセルが開きます。

1つ目のシートがデータシートです。1行目は制御用の見出しなのでそのままにして、2行目以降で作品ごとに異なる内容を編集します。

2つ目のシートは1シート目のデータを参照しながらコモンズ上のファイルページに書き込む内容です。こちらの内容は自分で処理を制御したい場合以外は触ることはありません。

4.3 ひな形エクセルの編集

ここではエクセルの機能を使って以下の編集を行いますが、複雑な編集が必要な場合はOpenRefineの利用をおすすめします。(参考記事

  • nameフィールド:コモンズ上に登録されるファイル名。元のファイル名が初期設定されていますがここで変えられます。ある程度長くなっても分かりやすい名前がベターです。作者名や作品名を入れると分かりやすくなります。日本語も使えますが、ここでは海外からの利用者を意識してローマ字表記で作者名「Kawase Hasui」を追記することにします。
  • dateフィールド:作品画像の余白にあった作成年をS02(昭和2年)のようにファイル名に付けておいたのでそれを西暦で記述します。
  • other versionsフィールド:余白を切り取った画像は切り取り前後の相手方のファイル名をそれぞれ記入します。またファイルページでプレビュー表示されるように<gallery>タグでくくります。
  • categoriesフィールド:コモンズの登録先カテゴリを記入します。既にある膨大な階層構造内の適切な位置を探しますが、考え始めると結構奥深い内容のため詳細は別記事にする予定です。ここではひとまず「Images from NDL digital collection」というカテゴリ配下に置くことにします。

    編集後のエクセルはこちら

4.4 編集したエクセルの検証

Pattypanを再起動して「Validate & Upload」ボタンを押します。

「Browse」ボタンで編集後のエクセルファイルを開きます。

4件警告が出ています。いずれも「その他バージョンが空欄」という指摘で、該当画像ファイルには
その他バージョンが無いのでこのままでOKです。「Next」ボタンを押します。

左側で対象画像を選ぶと、右側でコモンズのファイルページに書き込まれる内容がプレビューできます。下にスクロールするとこんな感じ。記述を確認します。

「preview」をクリックするとコモンズのファイルページに表示される内容がブラウザでプレビューできます。

問題なさそうです。

4.5 コモンズへアップロード

いよいよここからエクセルの内容をコモンズにアップロードします。アップロード後にもコモンズ側で修正はできますが、間違った数が多いと大変なので、まずは2件アップロードして確認してみます。

4.5.1 エクセルから2件だけ切り出して確認

Pattypanに戻って「Next」で次に進み、IDとパスワードを入力してコモンズにログインします。

「Upload」ボタンを押して2件だけ切り出したエクセルをコモンズにアップロードします。

しばらくすると無事に2件アップロードが完了しました。

コモンズのファイルページにアクセスしてみると問題なさそうです。

4.5.2 残りをアップロード

上記2件を除いた残り全部を同様に検証&アップロードします。

全て完了しました。(この時は約100件の画像で24分ほど掛かりました。)
アップロードしたカテゴリのページを開くと全てアップロードされています。

4.6 後処理

4.6.1 画像の回転

画像表示の方向が間違っている場合は角度を指定して回転させることができます。操作するにはまずコモンズの画面右上にある
個人設定>ガジェット>□RotateLink: ファイルページに「画像の回転を依頼」のリンクを表示する
のところをチェックします。

その上で回転したい画像のファイルページを開くと、画像の下に「(画像の回転を依頼)」と出てくるのでこれをクリックします。

指定用のポップアップウィンドウが開くので回転角度を指定します。

よく分からなくても角度を指定すると回転後のイメージをプレビューしてくれるので分かりやすいです。

これで合っていれば「依頼を確認」をクリックします。するとファイルページには以下のように表示された状態となり、botによる修正待ちの状態となります。

この修正依頼はbotが見回っており、定期的に修正が行われます。処理周期は変わるので次の日には変わっているだろう、くらいのつもりでいると良いでしょう。カテゴリのページで回転が必要な画像を探して全て同様に回転させます。

5 課題

今回、メタデータの整備は手作業で行いましたが、そのあたりは改善の余地がありそうです。コンテンツの提供元からAPIで取得したりCSVで入手できると、より便利に充実した情報をインポート可能だろうと思います。

6 まとめ

オープンデータもそうですが、特に公的機関からのコンテンツ公開は二次利用が進むことが、その後押しにつながります。そのためには二次利用しやすい形での公開が重要です。しかしながらAPIなど二次利用しやすい形態での提供にはコストがかかります。限られたリソースはできるだけ公開作業そのものに使ってもらい、二次利用は外部で商用・非商用を問わず勝手にやってしまうのが理想的です。
この点、ウィキメディア・コモンズは利用者参加型であることの長短を理解してもらえれば、誰でも自由に使える二次利用のプラットフォームとしてひとつの解になるでしょう。
欧米ではGLAM機関によるオープンなコンテンツが既にかなりの数コモンズにアップロードされ二次利用されています。日本でもデジタルアーカイブが自由に利用できる状態で公開されることが増えてきましたが、コモンズへのアップロードはまだあまり行われていません。最初にエクセルのひな形を作るまでは少し大変ですが、いちど作ってしまえば同じ所蔵館であれば追加や変更は簡単です。よろしければお試しください。不慣れな方は最初のコモンズのお作法的な部分はお知り合いのウィキペディアンなどに相談して頂くと良いかもしれません。

7 この先

コモンズ側のメタデータは元々テンプレートをベースとしたテキスト(+ウィキテキスト)の仕組みでしたが、2年ほど前からより機械が操作しやすい構造化データの枠組みが導入されています。両者の使い分けはまだかっちりとは決まっていませんが、最近では両方とも併記されることが増えてきました。個人的にはシンプルなテンプレート+コモンズ内の構造化データ+外部のウィキデータという3つの層をそれぞれに適した使い分けができると良いなと思っています。今回登録した内容にカテゴリを増やしたり構造化データを追加するやり方は別途投稿予定です。

8 関連情報

関連記事

4
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
4
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?