はじめに
この記事は「PERSOL PROCESS & TECHNOLOGY Advent Calendar 2020」の3日目の記事になります。
素敵な先輩方と同期が素敵な記事をたくさん書かれているので、是非他もご覧になってみてください。
普段は競技プログラミングの話くらいしかしていませんが、今回は競技プログラミングの話もしません。
自己紹介兼導入
普段ははてなブログの方に住んでいるので、Qiitaでまともな記事を書くのは初めてです。sarashinです。よろしくお願いします。
今年の四月に新卒としてPPTに入りました。大学は文学部だったのでいわゆる文系エンジニアとなります。
文学部としての専修は西洋史学、専門は旧ユーゴスラヴィア崩壊期のナショナリズムについてなんやかんややっていました。
今回は私の専門とは離れますが、歴史学と計算機科学の融合分野 "Digital History" について書きます。
日本で詳しい人はあまりいないのではないでしょうか。
私も専門ではないため、古いことや不正確なことを書いてしまうかもしれません。何か間違いがありましたら指摘をお願いいたします。
Digital Historyとは
昨今、文系と呼ばれる学問においても計算機の力によって進展している分野が複数あります。
例えば言語の用法・用例を検討する学問分野は、大規模な電子コーパスの発達によって新しい研究手法が次々と生み出されました。
大学で日本語学専修のシラバスを眺めていれば、一学期に一つ二つは計算機とコーパスを用いた言語分析を行う実習が見つかると思います(私はその実習において、国立国語研究所研究員として日本初のコーパス作成に携わった教授から、いかにそれが偉業だったかという話を延々と聞かされました)。
そして当然、歴史学にもその流れは来ています。それがDigital Historyです。
もっとも日本では、そして海外においてすらも、決して主流な研究手法にはなっていないというのが実情です。
Digital Historyの課題
少し変則的な構成ですがDigital Historyの詳細な紹介に先立って、それが持つ課題、歴史学の基本とDigital Historyの相性の悪さについて紹介しておきます。
そうです。少なくとも私の認識においてですが、近代歴史学と計算機科学の手法は相性が良くありません。
近代歴史学の基本とは何でしょうか? それは徹底して一次史料に当たる姿勢です(とてもしんどいです)。
では一次史料とは何でしょうか? それは紙に書かれたアルファベットであったり、粘土板に刻まれた楔形文字であったり、石碑に彫り込まれた漢字であったりします。
それらの史料を「データ」として計算機上でそのまま扱うことができるでしょうか? 答えはNoです。
計算機を用いて歴史学をするためには、まず自分の研究分野に関連する史料群をテキストデータに変換しなければなりません。これが最初かつ最大の障壁です。
一旦何文字あるでしょうか。歴史研究に用いられるような公的な文書の量というのは分野によって大きく異なりますが、真面目に考えたくはない量です。
もちろん、手打ちなんて絶対にしたくありません。その時間で研究ができます。
史料を片っ端からOCRにかけるという手が実際やれそうなラインであり、後述しますが実際にそれを行っているプロジェクトは少なからず存在します。
確かに活字化されている文書、特に最もOCRの精度が高いであろう英語の文書ならばそれなりの精度が出るかもしれませんが、それ以外は未だ信頼できる水準にはなっていないでしょう。
現在使われていない文字はまずOCRを作ることから始める必要がありますし、それは容易なことではありません(GoogleとUbisoftが共同でヒエログリフのOCRを作るプロジェクトをやっています。くずし字コンペなんかもそうですね)。
逆に、この障壁を乗り越えることが出来ればどうでしょう?
従来の歴史研究の手法には、「人が目を通せる範囲でしか研究をすることができない」という弱点がありました。
そもそも目当ての文書にアクセスすることすら大変です。現地の文書館に足を運ぶことから始めて、古い異国の言葉を地道に、丹念に読み解くには膨大な時間がかかりますし、それを何千万文字と読んでいればそれだけで一生が終わってしまいます。
しかし計算機の力を借りることによって、何億文字、何兆文字程度であればメモリと電力の許す限り史料分析をすることが可能になります。オンラインで、家にいながら遠い地の文書を読むこともできます。
また今後50年ほど経って2020年代が歴史学の研究対象となれば、何ペタバイト、何エクサバイトの史料を扱うことになるでしょう。
これは中々夢のある話だと思っています(データ分析が出来る歴史学者が必要になりますが.......)。
Digital Historyの実例
というわけで、前述の問題に対して色々と頑張った実例たちを紹介します。
Old Bailey Onlineをデータベースとして用いた研究
※ネタ元はDigital Historyについての書籍の一セクションなので、英文を読むのが苦ではない方はこれを読んでしまっても良いです。Old Bailey以外にも沢山の事例が紹介されています。
Old Baileyといえばそう、イギリスはロンドンに位置する中央刑事裁判所です。
そしてOld Bailey Onlineとはその裁判所の1674年から1913年の裁判記録をオンラインで閲覧できるサイトです。
およそ1億2700万語、197745件の裁判記録が全て手打ちでテキストデータ化されています。マジかよと思いませんか? 私は思いました。今も書いてて思っています。これは前述の課題を完全に乗り越えていると言えるでしょう。
これを用いて行われた研究として、ネタ元ではSara Klingensteina, Tim Hitchcockb, Simon DeDeoによってなされた"The civilizing process in London's Old Bailey"を紹介しています(リンクはフルテキストのpdfです)。
要約すると、19世紀初頭あたりから暴力的な犯罪(強盗・殺人等)と非暴力的な犯罪(窃盗・詐欺等)の扱いが区別され始めたことがテキスト分析によって明らかになったという論文です。
それがどういう意味を持つのかというと、裁判の記録を通じて「近代化」という現象が可視化されたということになります。
大学受験の評論文等で読みかじったことがある方も多いかと思いますが、近代国家の法治主義を担保するものは**その領域内に並ぶものなき「暴力」**です。
人々は国家の持つ暴力には敵わないが故に法律に従い、そして国家は法律によって国家の暴力のみが唯一許される暴力であると規定します。
暴力によって法律は担保され、法律によって暴力は正当化されるのです。ちょっと循環論法的ですね。
(よくわからない方は、「暴力」を「警察」に置き換えてみてください。まあ自衛隊とかもあるんですけど)
上に示した国家の都合上、国家以外に暴力を振るう勢力があるとまずいわけです。よって国家は暴力を独占しようとします。そこにいかなる理由があろうと、私人の身で暴力を振るうものは国家の支配を揺るがすものとして厳しい目が注がれます。
違いを端的に示したものとしては、江戸時代は仇討ちオッケー(むしろ推奨)だったけど、明治以降は親の仇だろうがダメ。みたいな話ですかね?
この研究の暴力的な犯罪の扱いが変わっていったという分析は、長いスパンで進行していったが故に捉えづらかった「近代化」というプロセスを見事に浮き彫りにしているという意義があります。
この研究を人力でやろうとすると途轍もない時間がかかることは間違いなく、計算機の力が十分に活かされた研究だと言えるでしょう。
Trove Newspaperをデータベースとして用いた研究
Troveという総合的なデータベースがあります。
オーストラリアに関連する新聞・雑誌・書籍・画像など様々な資料がデータベース化されています。
これを用いて行われているのが、大阪大学の藤川隆男教授による研究です。まだ最終的な結果は出ていないと認識していますが「歴史研究におけるビッグデータの活用: オーストラリアを中心に」という題で論文になっています。
オーストラリアにおいては歴史的にpublic meeting(公開集会)と呼ばれる地域的な政治集会が世論形成に大きく影響しており、その告知は大抵新聞で行われていました。
よってどこの政党が、どの地域で、どの年代に集会を行っていたかが、新聞広告を網羅的に読んで集計し分析することで明らかにすることができます。
しかし新聞は毎日発行されますし、100年スパンで見て長期的な政治動向を分析しようとなると、とても人間が処理できるものではなくなってしまいます。
そこでこの研究はTroveから1803年から1955年までの全広告データ39万件を、紙面をスキャンするだけで自動的に読み取り、デジタル化しようという野心的な手法を取っています。
新聞広告は枠で区切られていますが、まず普通のOCRでは広告を枠ごとに違うものとして認識するのも難しいですし、更にどの広告がpublic meetingの告知広告であるかを判断するところまで行わなければなりません。
更にそれらの参加者データ等から政治世論形成の社会的ネットワークを作成し、現在のSNSネットワークを分析する技術と歴史学的な考察を組み合わせながら、現代の状況にも通ずる市民的な意思形成の実体を捉えようという非常に遠大かつ先進的な研究です。
これを実現するために大阪大学データビリティフロンティア機構(IDS)の協力を得て、この作業に特化した機械学習手法を開発していると聞き及んでいます。実は私はこの藤川先生のゼミ生で、バイト代をもらいながらpublic meeting広告の「正解データ」を他の学生たちと一緒に作っていました。
この研究も「人の手でやれないことは機械にやらせれば、研究範囲が格段に広がる」ということを示しており、大変期待が高まるところです。
なお「歴史研究におけるビッグデータの活用: オーストラリアを中心に」については今のところネットでアクセスできないので、大阪大学が発行している『西洋史学』という雑誌の268号をお買い求めいただければ......とマーケティングをしかけたんですが、定期購読しかないかもしれません。それでも興味があるという方はどうぞ。
藤川先生がどんなことを考えてこれを研究しているかは、こちらのPDFの2章に書いてあります。
Digital Historyのこれから
歴史学というのは非常に研究が難しい学問です(もちろん他の学問も同じだけ難しいと思っています)。
物理などの学問においては正しい真理が存在するのかもしれません。しかし歴史学においては「絶対に間違っていること」はあっても「絶対に正しいこと」はほぼ存在しません。結局過去のことなんてわかりませんし、漠然とした「民衆」という集合体がどんな考えを持っていたかなど、知る由もありません。
過去にはあまりにも色々なことがありすぎるので、研究者が「切り口」を見つけて、その視点からある程度一貫した過去を語るというのが歴史学だと私は認識しています。
ただ、歴史研究というのは「切り口」を見つけて語る以上、どうしても研究者の「自分はこの歴史的事実についてこう思う」という主観が混ざります。混ざるというか、最初に来ます。
大学院にも行っていない人間の拙い認識ですが、ともすれば安易に結論付けそうになる自分の主観を飼いならし、謙虚に我慢強く何の面白みもない史料を読み解き、客観的な証拠を集めて自分の主張を裏付けていくという、二律背反を抱えた営みが歴史研究であると私は学部四年間で感じました
しかもその史料すら信用できたものではないため、常に史料批判を欠かさず、自分の都合のいい結論に流れず、客観的に論証を積み重ねていくというのは、はっきり言って専門的に訓練を受けた人間でなければ無理です。
逆に言えば、それが出来るのが歴史学者だと私は思っています。本当にすごいです。私はもうあんまりやりたくありません。
こういったことを考えたとき、やはり歴史研究というのは歴史学者としての訓練を受けた人がやらなければならないと感じます。
データ分析が出来ても、歴史学の基本がなっていなければ結局それは歴史研究になり得ません。工学系の人が数学系の研究をする感じと言えば伝わるでしょうか(この例えがずれていますか?)。
よってDigital Historyをするなら、歴史学の基本を押さえた人がデータ分析や機械学習といった計算機を扱う方法を勉強するか、情報系に強い人が歴史学の基本を頑張って体得することになるのでしょう。
どちらでも良いと思いますが、どうせ情報系は別の専門の人に頼むのであれば、歴史系の人がある程度情報系の教養を身につけていく方が効率がいいのかなと感じています。
何かその辺の話で、歴史系の人のために簡単なデータ分析ができるサイトを作ろうかなと在学時代から思っていましたが結局作っていません。その内作ったらまた記事を書こうと思います。
何にせよ今後もOCRの精度は上がっていくでしょうし、あと数十年もすればネット掲示板やSNSが使われた時代も歴史研究の射程に入ってきます。その時にそれらのビッグデータを扱えなければ、それは大きな、とても大きな損失となります。そんな状況にならないよう、私も情報系を変にかじった歴史系として微力ながら貢献していきたい所存です。
おしまい。ギリギリアドカレ間に合った......
Digital Historyをやってみたいという方へ
資料
https://historiansworkshop.org/category/other-event/tokyo-digital-history/
https://repository.dl.itc.u-tokyo.ac.jp/?action=repository_uri&item_id=49369&file_id=19&file_no=1
http://repository.bungaku-report.com/htdocs/?action=repository_uri&item_id=30&file_id=19&file_no=1
http://www.themacroscope.org/2.0/
ざっと見つけた入門資料です。藤川先生のゼミでは最後のリンク(Exploring Big Historical Data)の本を輪読していました。何とfinal draftが無料公開されています。
データベース
https://trove.nla.gov.au/
https://www.digitalhistory.uh.edu/
https://www.oldbaileyonline.org/
この他にカナダ政府が作ってるやつもあったと思うんですが見つからなかった......その内追記します
参考資料
https://historiansworkshop.org/category/other-event/tokyo-digital-history/
http://www.themacroscope.org/2.0/
https://repository.dl.itc.u-tokyo.ac.jp/?action=repository_action_common_download&item_id=54529&item_no=1&attribute_id=19&file_no=1
http://repository.bungaku-report.com/htdocs/?action=repository_uri&item_id=30&file_id=19&file_no=1
おまけ
史料のデータベース化、やりたいけどどうすればいいの?という方が多いと思います。比較的使いやすいサービスを見つけたので共有しておきます。
Microsoftが作っているAzure Cognitive Searchというやつが中々良いです。
このアドカレの一日目の記事で阿部さんが書かれていますが、データをぶち込むだけで勝手にデータベース化してくれる優れものです。
これを使ってJFK暗殺事件の資料を全てデータベース化したデモサイトがあります。こちらです。かなり求めているものに近いので弄ってみてください。
そしてもしこれを使って研究を何とかしてほしいというご要望があれば、是非DMください!