Edited at

あの日みたTEIの名前を僕達はまだ知らない

眠くなるお薬飲んで変な時間に目が覚めてしまったので、TEI自学。

TEIってなんぞやって人はTEIの公式参照おすすめ。

なんか適当に気分だけ味わいたい人はこちら

ここではTEI HeaderとfileDesc類まで


TEI Header


<teiHeader>

基本的に文書の先頭につけとけばいいやつ。

htmlでいうみたいなイメージでいいと思う。

※TEI文書中では無条件に必要となる要素の1つ。


<fileDesc>

基本的には<teiHeader>のすぐ下に記述するやつ

公式には「電子ファイル(このTEI文書)に関する完全な書誌情報を示す」とのこと。

・版

・大きさ(単位は任意)

・注釈(内容はおそらく任意)

・出版情報(出版社名や頒布社名など)

・シリーズ情報

・元テキスト情報

・タイトル

の7つを下部にもつ。

「完全な」と公式にはあるけれど、例を見る限りではすべての情報を網羅している必要性は薄そう(実際問題、古典籍の完全な情報とか無理ゲー)。


<editionStmt>

上記の「版」に該当。

<teiHeader>

<fileDesc>
<editionStmt>
<edition n="7th-grade">Students' edition</edition>
</editionStmt>
</fileDesc>
</teiHeader>

たとえばこんな感じ。

<teiHeader>⇒<fileDesc>⇒<editionStmt>の流れ。

例で使っている<edition>は版の詳細を示す。

<edition n="">のnは版を区別するためのtext型情報。

例では「生徒用」では正確に区別しきれないので「中学1年生用」と付け足している。

公式の例では「S2」という情報を付け足している。

なおnの情報は他との被りを許す。


<extent>

上記情報の大きさに該当。

こちらは公式の例が分かりやすいので、抜粋

<extent>3200 sentences</extent>

<extent>between 10 and 20 Mb</extent>
<extent>ten 3.5 inch high density diskettes</extent>

省いたが記載場所は<fileDesc>~</fileDesc>の中。

先にも述べた通り、大きさの単位は任意。

センテンスでもMBでも物の大きさでも何でもいいようだ。

一般には容量などを記載したほうが親切な気がする。


<notesStmt>

先の記載では注釈に該当。

一般に下部に<note>をもち、その中に記述する。

ここも公式の例が分かりやすいか。

<notesStmt>

<note>Historical commentary provided by Mark Cohen</note>
<note>OCR scanning done at University of Toronto</note>
</notesStmt>

以上のタグで「Mark Cohenより注釈を受けている」「トロント大学にてOCRスキャンされた」と説明している。

もともとは古典籍なのでどこかに原本がある場合が多い。

その場所であったり、どのような過程を経たのか簡単に記録する場合に用いる。

なお以下のような書き方は好まれていない。

<notesStmt>

<note>Historical commentary provided by Mark Cohen. OCR scanning done at University of Toronto</note>
</notesStmt>

情報内容の異なるものは区別するべきとのスタンスである。

詳しい変遷などは<history>タグ内に別途記述することが多いようである。

また原本など関連書籍情報を載せる場合は<relatedItem>を用いるとよいようだ。


<publicationStmt>

先の出版情報に該当。

これに関しては、公式に「出版に関する情報は, 出版者名,頒布者名,関連著作者に続いて,出版の場所,住所,識別子, 可用性,日付が,この順番で出現することが望ましい」とある。

<publicationStmt>

<publisher>Takahiro-Hirai</publisher>
<pubPlace>Tokyo, Japan</pubPlace>
<date when="2018"/>
</publicationStmt>

この例では本稿を対象にしてみる。

<publisher>は私の名前。

<pubPlace>は出版地なので今回は東京にセット。

<date when="">は日付なのでとりあえず2018年をセット。

もちろんこれに関しては

<date when="2018-12"/>

<date when="2018-12-19"/>

両方可能である。

またモノによっては<availability>で著作権などを明記することが可能である。


<seriesStmt>

あんまり使わないかもだが、シリーズを示す。

基本的にはシリーズのタイトルを載せる程度か。

<seriesStmt>

<title>Machine-Readable Texts for the Study of Indian Literature</title>
</seriesStmt>


<sourceDesc>

元テキストの情報が詳しくわかっているのなら、このタグで明記する。

書き方は<fileDesc>と大きく変わらないようだ。

<sourceDesc>

<bibl>
<title>The Interesting story of the Children in the Wood</title>
<author>Victor E Neuberg</author>, <title>The Penny Histories</title>.
<publisher>OUP</publisher>
<date>1968</date>. </bibl>
</sourceDesc>

<bibl>についてはすごい大まかな理解しかできていないのだが、「たぶん・・・」みたいな感じで使っていると思われる。

一部分の情報が伝承とかそういうことだと思われる。

なおどこが伝承なのかについては説明があったり、なかったりするらしい。


<titleStmt>

作品に関係するタイトルをつける。

基本的には

<fileDesc>

<titleStmt>
<title> #このxml文書のタイトル、もしくは元テキストのタイトル# </title>
<titleStmt>
<fileDesc>

という構造が多いように思う。

<titleStmt>

<title>Capgrave's Life of St. John Norbert: a machine-readable transcription</title>
<respStmt>
<resp>compiled by</resp>
<name>P.J. Lucas</name>
</respStmt>
</titleStmt>

TEIの中でも書籍タイトルは非常に重要であるので、この部分はほぼ必ず書かれている。

前回投稿した奴には入れていなかったので、追記するのであれば

<teiHeader>

<fileDesc>
<titleStmt>
<title xml:lang="ja">やはり俺の青春ラブコメは間違っている。</title>
</titleStmt>
<publicationStmt>
<authority>Watari Wataru</authority>
<publicher>Shogakukan</publicher>
<pubPlace>Tokyo, JA</pubPlace>
<date when=2011/>
<ptr target="https://www.shogakukan.co.jp/books/09451262"/>
<idno type="ISBN">978-4-09-451262-5</idno>
</publicationStmt>
</fileDesc>
<teiHeader>

となるべきか。

なおタグ<>の中に xml:lang="ja" を入れることで、<>~~</>の~~を日本語で記述することができる。

ただまぁあまり世界的に見れば好まれないでしょうね。

書籍タイトルには使ってもいいとは思うのですが。。。


まとめ

・とりあえず先頭に<teiHeader>つけろ

・細かい情報は<fileDesc>の中に書け

次回、やる気が続けば、<encodingDesc>と<prifileDesc>について調べておきたい。