TEI自学続き。
自学だから需要無くても無問題ですよね。
前回の自学痕跡はこちら。
今回も以下のとの部分。
<encodingDesc>
公式リファレンスでは
「 電子テキストとその元資料との関係を示す」という書き方。
よくわからないので公式の例を確認しましょう。
<encodingDesc>
<p>Basic encoding, capturing lexical information only. All
hyphenation, punctuation, and variant spellings normalized. No
formatting or layout information preserved.</p>
</encodingDesc>
<p>は散文を書くやつですね。
つまりは文章書いてもいいよ欄。
この例では
「この電子テキストは元資料の文字情報のみです。すべてのハイフン、句読点、表記の揺れは正規化されています。フォーマット情報やレイアウト情報は保持されません」
という訳ですかね。
他の文書を見ても、どのくらい情報を保持しているか書いているのかが多い印象です。
gaijiという項目で<charDecl>というのがあります。
示す内容は@xml:langと同様です。
ただ公式リファレンスには「規格にない文字やグリフに関する情報を示す」もあるので、例文を見たことはないのですが、エジプトのヒエログリフや、ミノスの線文字Aなどにも応用が利くのかもしれません。
<profileDesc>
公式リファレンスでは「 書誌情報的ではない詳細な解説を示す.例えば,言語や特殊言語,生成され たときの状況,参加者など」。
こちらも情報量多そうな感じですよね。
公式の例を見ましょう。
<profileDesc>
<langUsage>
<language ident="fr">French</language>
</langUsage>
<textDesc n="novel">
<channel mode="w">print; part issues</channel>
<constitution type="single"/>
<derivation type="original"/>
<domain type="art"/>
<factuality type="fiction"/>
<interaction type="none"/>
<preparedness type="prepared"/>
<purpose type="entertain" degree="high"/>
<purpose type="inform" degree="medium"/>
</textDesc>
<settingDesc>
<setting>
<name>Paris, France</name>
<time>Late 19th century</time>
</setting>
</settingDesc>
</profileDesc>
急に要素が増えていく。。。
<langUsage>で言語や方言などを示します。
<langUsage>以下の<language>は単語通りの意味で言語を示します。
例ではフランス語ですね。
-identは言語を指定します。言語はBCP47に沿うものとします。
-usageは使われている割合を示します。
以下例
<langUsage>
<language ident="en-US" usage="75">modern American English</language>
<language ident="i-az-Arab" usage="20">Azerbaijani in Arabic script</language>
<language ident="x-lap" usage="05">Pig Latin</language>
</langUsage>
75%は現代アメリカ英語、20%はアゼルバイジャンのアラビア文字、5%はピッグ・ラテンとのこと。
ピッグ・ラテンについてはWikipediaへ。
<testDesc>はテキスト情報を示します。
中のnはhtmlでいうclassみたいなもんです。
<channel>はテキストの収録・伝播の形式を示すものです。
mode=s(=spoken)
mode=w(=written)
mode=sw(=spoken to be written)
mode=ws(=written to be spoken)
mode=m(=mixed)
mode=x(=unknown or inapplicable)(初期値) の6種類。
例えば『平家物語』なら、"mode=sw"に該当します。
<channel mode="s">face-to-face conversation</channel>
<constitution>はテキストの内部構造を示します。
type=single(完全なテキスト)(初期値)
type=composite(ここに完全なテキストを部分テキストとするテキスト。ようは間の何章かが抜けている状態)
type=frags(ここに完全でないテキストを部分テキストとするテキスト。多くの文書はこれ)
type=unknown(構成状況不明)
の4種。
<constitution type="frags">Prologues only.</constitution>
<derivation>はテキストの正当性を示します。
正当性というよりは、オリジナルかどうか、という感じですね。
type=original(オリジナル)
type=revision(改訂版)
type=translation(翻訳)
type=abridgment(簡約)
type=plagiarism(剽窃)
type=traditional(元資料不明)
6種類ですね。剽窃とは。。。という感じでしょうか。
<derivation type="original"/>
<domain>は重要な社会的状況を示します。
type=art(芸術・娯楽)
type=domestic(私的・家庭的)
type=religious(宗教・儀式)
type=business(仕事・職場)
type=education(教育)
type=govt(政府・法律)
type=public(その他公的なもの)
<domain type="domestic"/>
<domain type="rel">religious broadcast</domain>
<factuality>は現実度を示します。
type=fiction(フィクション)
type=fact(ノンフィクション)
type=mixed(フィクションとノンフィクションが混在)
type=inapplicable(フィクションとノンフィクションの混在は問題でない)
一番最後は何なんやというところですが、元は歴史書としているので、存在の正当性を担保したいわけですね。
<factuality type="fiction"/>
<interaction>はテキスト生成者の相互作用の程度を示す。。。ようは独白なのか対話形式なのかといった感じです。
対話形式だと「プラトンの対話編」とかが著名でしょうか。
type=none(独白など)
type=partial(相手がいる状況での独白)
type=complete(直接対話)
type=inapplicable(このパラメータは不適切)
active=singular(個人)
active=plural(複数人)
active=corporate(団体)
active=unknown(特定不能)
passive=self(日記など)
passive=single(手紙など)
passive=many(会話など)
passive=group(講義など)
passive=world(書籍など)
<interaction type="complete"
active="plural" passive="many"/>
<preparedness>は即興なのかどうなのかを示すものです。
日本語訳そのままですね。
type=none(即興)
type=scripted(台本あり)
type=formulaic(事前打ち合わせあり)
type=revised(事前の準備を練り直し、修正を行う)
<preparedness type="none"/>
<purpose>は目的を示すものです。内容というよりは広報とか教育とかっていうニュアンスです。
type=persuade(教育・広報・宣伝)
type=express(自己表現)
type=inform(情報伝達・教育)
type=entertain(娯楽)
degree='high'(主要)
degree='medium'(中間)
degree='low'(弱い)
degree='unknown'(不明)
このdegreeは上の4つ以外は取らない。
<purpose type="persuade" degree="high"/>
<purpose type="entertain" degree="low"/>
要素がめちゃくちゃ多いですけど、これが欧米のスタンダードなんですね。。。
まぁxmlなので、書いているうちに慣れてくるんでしょうけど。
基本的には<>の中にtype要素を記述していく方式で<>~<>の~には補足的な感じで情報を入れていくイメージです。
<settingDesc>は言語交流が行われた状況を示すものです。
先に挙げた「プラトンの対話編」でいけば、プラトンとソクラテスの対話だぞー、と示すような感じです。
<settingDesc>
<p>Texts recorded in the
Canadian Parliament building in Ottawa, between April and November 1988 </p>
</settingDesc>
例の通り、インタビューの場所とか状況とかを示す感じですね。
あー、疲れましたー。
次は<xenoData>と<revisionDesc>について自学していきます。
またOMEKAが面白そうなので、触っていきたいです。