Officeの文書やPDFなどからテキストデータだけを抽出する.NETで動くライブラリがないかなぁ?と思って探したら、こんなの見つけたのでメモしておきます。
Toxy - .NET Text/Data Extraction Framework
ドキュメントを見てみると、テキストデータの抽出だけじゃなく、例えばExcelの表のデータなら、抽出したデータのDataSet化なんかもやってくれるみたいですね。
試しにExcelファイルのテキストデータ化を試してみました。こんな感じのプログラムで出来ました。
ParserContext context = new ParserContext(@"C:\Work\Test.xls");
ITextParser extractParser = ParserFactory.CreateText(context);
string extractedText = extractParser.Parse();
ParserContext(@"C:\Work\Test.xls");の部分にPDFファイルとかWordのdocファイルとか指定しても、Excelファイルと同様にテキスト抽出できました。
Apache Tikaとかの方が有名だと思うんですが、.NETでも同じことが出来るものが欲しかったんで、助かりました。
これ以外だと、xdoc2txtが良く知られていますね。