22
27

More than 5 years have passed since last update.

テキスト抽出について

Last updated at Posted at 2016-05-09

Officeの文書やPDFなどからテキストデータだけを抽出する.NETで動くライブラリがないかなぁ?と思って探したら、こんなの見つけたのでメモしておきます。

Toxy - .NET Text/Data Extraction Framework

ドキュメントを見てみると、テキストデータの抽出だけじゃなく、例えばExcelの表のデータなら、抽出したデータのDataSet化なんかもやってくれるみたいですね。

試しにExcelファイルのテキストデータ化を試してみました。こんな感じのプログラムで出来ました。

ParserContext context = new ParserContext(@"C:\Work\Test.xls");
ITextParser extractParser = ParserFactory.CreateText(context);
string extractedText = extractParser.Parse();

ParserContext(@"C:\Work\Test.xls");の部分にPDFファイルとかWordのdocファイルとか指定しても、Excelファイルと同様にテキスト抽出できました。

Apache Tikaとかの方が有名だと思うんですが、.NETでも同じことが出来るものが欲しかったんで、助かりました。

これ以外だと、xdoc2txtが良く知られていますね。

22
27
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
22
27