Rustで学術論文からテキスト抽出するクレートを実装する Advent Calendar 2024

Rustで学術論文からテキストを抽出する #10 - Util系関数およびテストたち

Last updated at 2024-12-10Posted at 2024-12-09

Summary

細かいUtilの紹介です

GiHub -> https://github.com/akitenkrad/rsrpp
crates.io -> https://crates.io/crates/rsrpp

ToDo

pdftotextで論文から単語単位のテキストと位置情報を取得する (Word,Line,Block,Page)
テキストの属性 (本文, タイトル, 脚注, etc.) を判定する
- テキストが含まれるエリアを抽出する
  - 2段組みを扱えるようにする
- セクションのタイトルを識別する
図表に含まれるテキストを除外する
- 表を除外する
  - PDFを画像に変換
  - 画像処理で表の位置を特定

今日のファイル

rsrpp
├── Cargo.toml
├── rsrpp
│   ├── Cargo.toml
│   └── src
│       ├── lib.rs
│       └── parser
│           ├── mod.rs <-- today
│           ├── structs.rs <-- today
│           └── tests.rs <-- today
└── rsrpp-cli
    ├── Cargo.toml
    └── src
        └── main.rs

前回までのあらすじ

前回：Rustで学術論文からテキストを抽出する #9

前回までで，PDFをパースしてJSONに変換するプログラムが大体完成しました．
今回は，これまでのところであまり説明してこなかったUtil系の処理やテストに関する部分を紹介しようと思います．

ParserConfig

既に登場していますが，今回実装したパーサの設定やファイルパスなどのメタ情報を保持する構造体です．
ParserConfigには，clean_filesという関数を実装しています．
今回はPopplerのツール群をフル活用しているので，PDFから変換したHTML，XML，画像ファイルなどを/tmpに一時保存するように実装しています．
/tmpとはいえ，中間ファイルをそのまま残しておくのは気分が良くないので，PDFのパースが完了したらファイルを消せるようにしておきました．
立つ鳥跡を濁さず．

また，第5回でセクションタイトルもこの構造体に格納されます．

rsrpp > rsrpp > src > parser > structs.rs

#[derive(Debug, Clone, PartialEq)]
pub struct ParserConfig {
    pub pdf_path: String,
    pub pdf_text_path: String,
    pub pdf_figures: HashMap<PageNumber, String>,
    pub pdf_xml_path: String,
    pub sections: Vec<(PageNumber, String)>,
    pub pdf_info: HashMap<String, String>,
}

impl ParserConfig {
    pub fn new() -> ParserConfig {
        let mut rng = rand::thread_rng();
        let random_value = rng.gen_range(10000..99999);
        let mut pdf_path = String::new();
        pdf_path.push_str("/tmp/pdf_");
        pdf_path.push_str(&random_value.to_string());
        pdf_path.push_str(".pdf");

        let pdf_figures = HashMap::new();
        let pdf_html_path = pdf_path.clone().replace(".pdf", ".text.html");
        let pdf_raw_html_path = pdf_path.clone().replace(".pdf", ".xml");
        let sections = Vec::new();
        ParserConfig {
            pdf_path: pdf_path,
            pdf_text_path: pdf_html_path,
            pdf_figures: pdf_figures,
            pdf_xml_path: pdf_raw_html_path,
            sections: sections,
            pdf_info: HashMap::new(),
        }
    }

    pub fn pdf_width(&self) -> i32 {
        return self.pdf_info.get("page_width").unwrap().parse::<i32>().unwrap();
    }

    pub fn pdf_height(&self) -> i32 {
        return self.pdf_info.get("page_height").unwrap().parse::<i32>().unwrap();
    }

    pub fn clean_files(&self) -> Result<()> {
        if Path::new(&self.pdf_path).exists() {
            std::fs::remove_file(&self.pdf_path)?;
        }
        if Path::new(&self.pdf_text_path).exists() {
            std::fs::remove_file(&self.pdf_text_path)?;
        }
        if Path::new(&self.pdf_xml_path).exists() {
            std::fs::remove_file(&self.pdf_xml_path)?;
        }
        for figure in self.pdf_figures.values() {
            if Path::new(figure).exists() {
                std::fs::remove_file(figure)?;
            }
        }
        return Ok(());
    }
}

Popplerツール群のラッパー

Popperのコマンドを実行するにあたって，1コマンド1関数でParserConfigから情報をもらって実行するような設計にしました．

pdfinfo

pdfinfoコマンドはこれまで出てこなかったかもしれませんが，PDFの幅と高さを取得するために使っています．
ちなみに，Rustでシェルコマンドを実行する際にはstd::process::Commandを使うことができます．