眠くなるお薬飲んで変な時間に目が覚めてしまったので、TEI自学。
TEIってなんぞやって人はTEIの公式参照おすすめ。
なんか適当に気分だけ味わいたい人はこちら。
ここではTEI HeaderとfileDesc類まで
TEI Header
<teiHeader>
基本的に文書の先頭につけとけばいいやつ。
htmlでいうみたいなイメージでいいと思う。
※TEI文書中では無条件に必要となる要素の1つ。
<fileDesc>
基本的には<teiHeader>のすぐ下に記述するやつ
公式には「電子ファイル(このTEI文書)に関する完全な書誌情報を示す」とのこと。
・版
・大きさ(単位は任意)
・注釈(内容はおそらく任意)
・出版情報(出版社名や頒布社名など)
・シリーズ情報
・元テキスト情報
・タイトル
の7つを下部にもつ。
「完全な」と公式にはあるけれど、例を見る限りではすべての情報を網羅している必要性は薄そう(実際問題、古典籍の完全な情報とか無理ゲー)。
<editionStmt>
上記の「版」に該当。
<teiHeader>
<fileDesc>
<editionStmt>
<edition n="7th-grade">Students' edition</edition>
</editionStmt>
</fileDesc>
</teiHeader>
たとえばこんな感じ。
<teiHeader>⇒<fileDesc>⇒<editionStmt>の流れ。
例で使っている<edition>は版の詳細を示す。
<edition n="">のnは版を区別するためのtext型情報。
例では「生徒用」では正確に区別しきれないので「中学1年生用」と付け足している。
公式の例では「S2」という情報を付け足している。
なおnの情報は他との被りを許す。
<extent>
上記情報の大きさに該当。
こちらは公式の例が分かりやすいので、抜粋
<extent>3200 sentences</extent>
<extent>between 10 and 20 Mb</extent>
<extent>ten 3.5 inch high density diskettes</extent>
省いたが記載場所は<fileDesc>~</fileDesc>の中。
先にも述べた通り、大きさの単位は任意。
センテンスでもMBでも物の大きさでも何でもいいようだ。
一般には容量などを記載したほうが親切な気がする。
<notesStmt>
先の記載では注釈に該当。
一般に下部に<note>をもち、その中に記述する。
ここも公式の例が分かりやすいか。
<notesStmt>
<note>Historical commentary provided by Mark Cohen</note>
<note>OCR scanning done at University of Toronto</note>
</notesStmt>
以上のタグで「Mark Cohenより注釈を受けている」「トロント大学にてOCRスキャンされた」と説明している。
もともとは古典籍なのでどこかに原本がある場合が多い。
その場所であったり、どのような過程を経たのか簡単に記録する場合に用いる。
なお以下のような書き方は好まれていない。
<notesStmt>
<note>Historical commentary provided by Mark Cohen. OCR scanning done at University of Toronto</note>
</notesStmt>
情報内容の異なるものは区別するべきとのスタンスである。
詳しい変遷などは<history>タグ内に別途記述することが多いようである。
また原本など関連書籍情報を載せる場合は<relatedItem>を用いるとよいようだ。
<publicationStmt>
先の出版情報に該当。
これに関しては、公式に「出版に関する情報は, 出版者名,頒布者名,関連著作者に続いて,出版の場所,住所,識別子, 可用性,日付が,この順番で出現することが望ましい」とある。
<publicationStmt>
<publisher>Takahiro-Hirai</publisher>
<pubPlace>Tokyo, Japan</pubPlace>
<date when="2018"/>
</publicationStmt>
この例では本稿を対象にしてみる。
<publisher>は私の名前。
<pubPlace>は出版地なので今回は東京にセット。
<date when="">は日付なのでとりあえず2018年をセット。
もちろんこれに関しては
<date when="2018-12"/>
<date when="2018-12-19"/>
両方可能である。
またモノによっては<availability>で著作権などを明記することが可能である。
<seriesStmt>
あんまり使わないかもだが、シリーズを示す。
基本的にはシリーズのタイトルを載せる程度か。
<seriesStmt>
<title>Machine-Readable Texts for the Study of Indian Literature</title>
</seriesStmt>
<sourceDesc>
元テキストの情報が詳しくわかっているのなら、このタグで明記する。
書き方は<fileDesc>と大きく変わらないようだ。
<sourceDesc>
<bibl>
<title>The Interesting story of the Children in the Wood</title>
<author>Victor E Neuberg</author>, <title>The Penny Histories</title>.
<publisher>OUP</publisher>
<date>1968</date>. </bibl>
</sourceDesc>
<bibl>についてはすごい大まかな理解しかできていないのだが、「たぶん・・・」みたいな感じで使っていると思われる。
一部分の情報が伝承とかそういうことだと思われる。
なおどこが伝承なのかについては説明があったり、なかったりするらしい。
<titleStmt>
作品に関係するタイトルをつける。
基本的には
<fileDesc>
<titleStmt>
<title> #このxml文書のタイトル、もしくは元テキストのタイトル# </title>
<titleStmt>
<fileDesc>
という構造が多いように思う。
例
<titleStmt>
<title>Capgrave's Life of St. John Norbert: a machine-readable transcription</title>
<respStmt>
<resp>compiled by</resp>
<name>P.J. Lucas</name>
</respStmt>
</titleStmt>
TEIの中でも書籍タイトルは非常に重要であるので、この部分はほぼ必ず書かれている。
前回投稿した奴には入れていなかったので、追記するのであれば
<teiHeader>
<fileDesc>
<titleStmt>
<title xml:lang="ja">やはり俺の青春ラブコメは間違っている。</title>
</titleStmt>
<publicationStmt>
<authority>Watari Wataru</authority>
<publicher>Shogakukan</publicher>
<pubPlace>Tokyo, JA</pubPlace>
<date when=2011/>
<ptr target="https://www.shogakukan.co.jp/books/09451262"/>
<idno type="ISBN">978-4-09-451262-5</idno>
</publicationStmt>
</fileDesc>
<teiHeader>
となるべきか。
なおタグ<>の中に xml:lang="ja" を入れることで、<>~~>の~~を日本語で記述することができる。
ただまぁあまり世界的に見れば好まれないでしょうね。
書籍タイトルには使ってもいいとは思うのですが。。。
まとめ
・とりあえず先頭に<teiHeader>つけろ
・細かい情報は<fileDesc>の中に書け
次回、やる気が続けば、<encodingDesc>と<prifileDesc>について調べておきたい。