Edited at
Tech FunDay 12

素人だけど愛さえあればTEIについてお話しても関係ないよねっ

まじめに論文調に書こうと思ったけど、悪ふざけしないと死んじゃう病にかかったので、タイトルはパロディで。


TEIっていったい?

そもそもTEIって聞いたことがある人は日本には少ないような気がします。

正式名称は"Text Encoding Initiative"です。

ということで調べてみた。

まず一致しないよね。



Googleだとjapan入れて120万件。

割と該当するページは多そうだけど、ほとんど英語サイトなんですよねー

個人的にはもう少し広がってほしい話ではあるので、ここでちょっとだけ検索数に貢献していきます。


Text Encoding Initiative

直訳すれば「文書記号化戦略」。

そのまんまだけれども、おおよそイメージしやすいのかなとは思います。

一般には文書をxmlに沿って記録しようという流れのことです。

デジタルヒューマニティーズ、デジタルヒストリーなどの進展もあって、歴史文書での応用が期待されます。

例1)Models of Japanese Texts and TEI

例2)Introduction to TEI in Japanese 日本語によるTEI入門

まぁ読んでも分からないですね。

なので、以下に実際にTEIの基準を使っていろいろ書いてみるというのが今回の主題になります

ただxmlはおろかプログラミングすら3か月前に始めただけなので、知識ないです。

リファレンスも英語なので、、、正確性については察してください。

公式リファレンス⇒Text Encoding Initiative


TEI① ~やはり俺の青春ラブコメはまちがっている。~

<publicationStmt>

<authority>Watari Wataru</authority>
<publisher>Shogakukan</publisher>
<pubPlace>Tokyo, JA</pubPlace>
<date when=2011/>
<ptr target="https://www.shogakukan.co.jp/books/09451262"/>
<idno type="ISBN">978-4-09-451262-5</idno>
</publicationStmt>

こんな感じ。

関係ないけど、俺ガイル13巻、貴いですね。

本来は手書き文書の古典籍に用いるものなので、あんまり有用な感じはしないけど、書籍情報をフォーマット統一させることで、解析しやすくしようという流れですね。


TEI② ~九州考古学 第92号~

<publicationStmt>

<publisher>The Archaeological Society of Kyushu</publisher>
<pubPlace>Fukuoka, JA</pubPlace>
<date when=2017/>
<idno type="ISSN">0387-7078</idno>
</publicarionStmt>
<typeDesc>
<summary>
<p>This journal was written by 15 people</p>
</summary>
<typeNote>
<p>Printed in general paper with Japanese</p>
<typeNote>
</typeDesc>

こんな感じ。


簡単に解説

自己流だけど

publicationStmt ... 書籍情報

publisher ... 出版社、出版者(古文書では個人名が普通)

pubPlace ... 出版された場所

date ... 出版年

idno ... 書籍ID、ISSNだったりISBNだったりをtypeで指定。

typeDesc ... 書籍コンテンツ情報

summary ... 概要。ここは中身自由な感じ。

typeNote ... どこに何で記されたか、多くはantiqua typeface(古い活版印刷)とか記される。

p ... 散文。HTMLのpと同じ感じ


まとめ

TEIって拡張性かなり高いです。。。

個人的に興味ある分野は歴史なので

history ... 歴史手書き文書

origin ... 文書の出自

provenance ... 文書の入手するまでの歴史的経過

acquisition ... その文書を手に入れた経緯

とかも規定があります。

たぶん先に挙げた延喜式のTEI化もこのあたりを利用しているのではと思います。

今から発表が楽しみですね。


参考

TEI2018 in Asia

Text Encoding Initiative

Models of Japanese Texts and TEI

やはり俺の青春ラブコメはまちがっている。

お兄ちゃんだけど愛さえあれば関係ないよねっ

後藤真,2016,「総合資料学のための資料情報共有手法の構築にむけて」,『人文科学とコンピュータシンポジウム』