More than 5 years have passed since last update.

テキスト抽出について

Last updated at 2016-06-21Posted at 2016-05-09

Officeの文書やPDFなどからテキストデータだけを抽出する.NETで動くライブラリがないかなぁ？と思って探したら、こんなの見つけたのでメモしておきます。

Toxy - .NET Text/Data Extraction Framework

ドキュメントを見てみると、テキストデータの抽出だけじゃなく、例えばExcelの表のデータなら、抽出したデータのDataSet化なんかもやってくれるみたいですね。

試しにExcelファイルのテキストデータ化を試してみました。こんな感じのプログラムで出来ました。

ParserContext context = new ParserContext(@"C:\Work\Test.xls");
ITextParser extractParser = ParserFactory.CreateText(context);
string extractedText = extractParser.Parse();

ParserContext(@"C:\Work\Test.xls");の部分にPDFファイルとかWordのdocファイルとか指定しても、Excelファイルと同様にテキスト抽出できました。

Apache Tikaとかの方が有名だと思うんですが、.NETでも同じことが出来るものが欲しかったんで、助かりました。

これ以外だと、xdoc2txtが良く知られていますね。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up