0
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

C#でPDF内のテキストと画像の座標を取得する

Posted at

PDFドキュメントで指定されたテキストまたは画像の座標を取得すると、指定された領域を迅速に抽出できる要素の位置を特定できます。また、この操作は、PDFへの追加注釈、マーク、または自動スタンピングにも有益です。この記事では、C#のPDFで指定されたテキストまたは画像の座標を抽出する方法を説明するための2つの例を示します。

.NET PDF ライブラリ

この記事で導入された例では、3番目のパーティライブラリSpire.PDF for .NETが必要です。以下のリンクを介して製品パッケージをダウンロードしてから、DLLを手動で追加するか、Nugetを介して直接インストールできます。

背景情報

開始する前に、最初にライブラリの座標系に関する情報を理解します。
Spire.PDF for .NETで指定された座標系の起源は、PDFページの左上隅にあります。 x軸は、元のポイントの先頭にある元のポイントから右に伸びています。 y軸は、原点から垂直に伸びています(下の図に示すように)。
pdfCoordinate.png

xおよびy軸座標を指定することにより、PDFページの指定された位置でテキスト、写真、テーブル、その他の要素を描画できます。

C#でPDF内の指定テキストの座標を取得

テキストの座標を指定するには、以下の2つの主な手順に従ってください。

1. まず、PDFファイルに指定されたすべてのテキストを見つけるには、PdfTextFinder.Find() メソッドを使用する必要があります;
2. テキストを見つけた後、PdfTextFragment.Positions を呼び出して(x、y)座標情報を取得します。

C# コード:

using Spire.Pdf;
using Spire.Pdf.Texts;
using System.Drawing;

namespace GetCoordinatesOfText
{
    class Program
    {
        static void Main(string[] args)
        {
            //PDFファイルの読み込み
            PdfDocument pdf = new PdfDocument();
            pdf.LoadFromFile("蝶.pdf");

            //すべてのページを反復処理する
            foreach (PdfPageBase page in pdf.Pages)
            {
                //PdfTextFinderオブジェクトの作成
                PdfTextFinder finder = new PdfTextFinder(page);

                //検索オプションの設定
                PdfTextFindOptions options = new PdfTextFindOptions();
                options.Parameter = TextFindParameter.IgnoreCase;
                finder.Options = options;

                //ページ上の指定されたテキストをすべて検索する
                List<PdfTextFragment> fragments = finder.Find("成虫");

                //見つかったすべてのテキストを反復処理する
                foreach (PdfTextFragment fragment in fragments)
                {
                    //テキストの座標情報を取得する
                    PointF found = fragment.Positions[0];
                    Console.WriteLine(found);
                }
            }
        }
    }
}

TextCordinate.png

C#でPDF内の指定した画像の座標を取得

テキスト座標を取得するのと同様に、画像座標を取得するには下記の2つの主な手順に従っ てください:

1. まず PdfImageHelper.GetImagesInfo() メソッドを使って、PDF ページ上のすべての画像情報を取得します;
2. 画像を取得した後、PdfImageInfo.Bounds プロパティを呼び出して(x, y)座標情報を取得します。

C# コード:

using Spire.Pdf;
using Spire.Pdf.Utilities;


namespace GetCoordinatesOfText
{
    class Program
    {
        static void Main(string[] args)
        {
            //PDFファイルの読み込み
            PdfDocument pdf = new PdfDocument();
            pdf.LoadFromFile("蝶.pdf");

            //指定したページを取得する
            PdfPageBase page = pdf.Pages[0];

            //PdfImageHelperオブジェクトの作成
            PdfImageHelper helper = new PdfImageHelper();

            //ページの画像情報を取得する
            PdfImageInfo[] images = helper.GetImagesInfo(page);

            //最初の画像のX座標とY座標を取得する
            float xPos = images[0].Bounds.X;
            float yPos = images[0].Bounds.Y;
            Console.WriteLine("画像の座標は({0},{1})", xPos, yPos);
        }
    }
}

ImageCoordinate.png


:pencil: ネットPDFライブラリのAPIリファレンス:

0
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?