1
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

地震火山月報のPDFから計測震度を抜き出す

Last updated at Posted at 2023-12-14

この記事は 防災アプリ開発 Advent Calendar 2023 15日目の記事です。
こんにちは! iku55です。初めましての方は初めまして、お久しぶりの方はお久しぶりです。
2021年福島県沖地震にて防災に興味を持ち、そこからプログラムを書いたり自由に生きております。

この記事では僕が開発している、計測震度データベースについての話をしたいと思います。記憶をたどりながら書いたので実際とは違う部分もあるかもしれませんが、読んでいただけたら幸いです。

きっかけ

計測震度とは、震度計が観測した揺れの値であり、これを元に0~7までの震度が決められます。計測震度を確認するとその揺れが「4に近い震度5弱」「7に近い震度6強」といったことを読み取ることができます。
しかし、計測震度を見かけることはあまりありません。気象庁の会見等で聞くことはありますが、ほとんどの地震の計測震度は知らないでしょう。

気象庁は過去の有感地震の計測震度を地震・火山月報(防災編)と、地震月報(カタログ編)の震度データにて発表しています。
震度データベースでは計測震度を見ることができないので、震度データベースのように計測震度を表示するアプリを開発したいと思いました。

地震月報(カタログ編)は不定期更新(おそらく)で、更新頻度もあまり高くないことから、地震・火山月報(防災編)から計測震度を抜き出すことにしました。
しかし、地震・火山月報(防災編)はPDFというプログラムでは読み取りが難しい形式のため苦労しました。

PDFから計測震度を抜き出す

Node.jsを使って開発することにしました。苦労した部分も多かったので、皆様にお伝えできればと思います。
コード量はあまり多くないのですが、試行錯誤した点は多いです。それだけPDFはデータ抜き出しに向いてないです。

初期バージョン

2021年12月頃に開発しました。pdfreaderというライブラリを用いて、PDF上のテキストを順番に読み取っていきデータ化する方法です。これはNode.js pdf 読み込み等でググればすぐに出てくるでしょう。しかし、この方法には問題点がありました。

PDFのテキストはよくわからないところで途切れており、これらをつないで解析するのがとてもめんどくさかったのです。
10 2 19 06 能登半島沖 37°31.1’ 137°13.9’ 13km : 3.9...

さらに別れ方は何パターンかあるため、その処理もめんどくさいのです。
( ) 2 19 06 能登半島沖 37°31.1’ 137°13.9’ 11km : 3.4...
11 4 16 01 石川県能登地方 37°31.3’ 137°18.8’ 12km ...
60 13 07 12 福島県沖 37°35.5’ 141°29.7’ 53km ...


screenshot.13.png
screenshot.14.png
screenshot.15.png
screenshot.16.png
以上失敗例。データは地震火山月報(防災編)2021年11月より。


この方法だと結構な数の読み取りミスが生まれます。プログラムを実行後、30分程度手作業で修正していました。

さらに、コードが読みにくくなり(自分の技量のせいでもありますが)開発が大変になりました。PDFきらい。

Tabulaとの出会い

PDFから表のデータを取り出す方法を模索していたところ、Tabulaというソフトウェアに出会いました。TabulaはPDFの表をCSVに変換するソフトウェアです。結構精度良い。
そのCSVを元にデータ化することにしました。

Tabulaを使用してPDFをCSVに変換してみると、次のようになります。大分プログラムで読み取りやすくなったでしょう。
screenshot.18.png

しかし、まだ不十分な部分があるので、次のような処理を行います。手作業でもできるくらい簡単な作業です。
screenshot.12.png

読み取りミスはほとんどなくなりました。Tabula最高です。
この処理を自動化して生成されたものが現在、計測震度データベースに使われています。

PDFの表からデータを抜き出す際はぜひTabulaを使ってみてください。

計測震度データベースの開発

2022年7月頃に開発しました。PDFから抜き出した各地点の計測震度をLeaflet(現在はMapLibre)を使って表示するアプリです。
Leafletについては詳しい解説記事がたくさんあると思うので書きません。

抜き出したデータと気象庁 震度データベース検索のIDとを紐づけて震度データベースに簡単に移動できるようにしました。
機能については、震度データベースをパクった参考にさせていただきました。

いいですね。PDFの表を見るよりもわかりやすくなったと思います。

今後は検索機能の追加やデータ抜き出しの完全自動化を目指して開発したいです。

最後に

今回紹介した震度データや計測震度データベースについてはGitHubにて公開しています。

簡単な記事でしたが最後までお読みいただきありがとうございました。少しでもPDFを解析する際の参考になれば幸いです。
実はこの話は今年の話ではないのですが...まあいいでしょう。

翌16日目は、あめうまさんの「これまでの地震ソフト制作をまとめてみる」です。

1
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?