C#
.NET
テキスト
抽出

テキスト抽出について

More than 1 year has passed since last update.

Officeの文書やPDFなどからテキストデータだけを抽出する.NETで動くライブラリがないかなぁ?と思って探したら、こんなの見つけたのでメモしておきます。

Toxy - .NET Text/Data Extraction Framework

ドキュメントを見てみると、テキストデータの抽出だけじゃなく、例えばExcelの表のデータなら、抽出したデータのDataSet化なんかもやってくれるみたいですね。

試しにExcelファイルのテキストデータ化を試してみました。こんな感じのプログラムで出来ました。

ParserContext context = new ParserContext(@"C:\Work\Test.xls");

ITextParser extractParser = ParserFactory.CreateText(context);
string extractedText = extractParser.Parse();

ParserContext(@"C:\Work\Test.xls");の部分にPDFファイルとかWordのdocファイルとか指定しても、Excelファイルと同様にテキスト抽出できました。

Apache Tikaとかの方が有名だと思うんですが、.NETでも同じことが出来るものが欲しかったんで、助かりました。

これ以外だと、xdoc2txtが良く知られていますね。