Pdfbox-reading-text
提供:Dev Guides
PDFBox-テキストを読む
前の章では、既存のPDFドキュメントにテキストを追加する方法を見てきました。 この章では、既存のPDFドキュメントからテキストを読み取る方法について説明します。
既存のPDFドキュメントからテキストを抽出する
テキストの抽出は、PDFボックスライブラリの主な機能の1つです。 PDFTextStripper クラスの* getText()*メソッドを使用してテキストを抽出できます。 このクラスは、指定されたPDFドキュメントからすべてのテキストを抽出します。
以下は、既存のPDFドキュメントからテキストを抽出する手順です。
ステップ1:既存のPDFドキュメントの読み込み
ステップ2:PDFTextStripperクラスをインスタンス化する
ステップ3:テキストを取得する
ステップ4:ドキュメントを閉じる
最後に、以下に示すようにPDDocumentクラスの* close()*メソッドを使用してドキュメントを閉じます。
例
以下に示すように、テキストを含むPDFドキュメントがあるとします。
この例は、上記のPDF文書からテキストを読み取る方法を示しています。 ここでは、Javaプログラムを作成し、パス C:/PdfBox_Examples/ に保存されている new.pdf という名前のPDFドキュメントをロードします。 このコードを ReadingText.java という名前のファイルに保存します。
次のコマンドを使用して、コマンドプロンプトから保存したJavaファイルをコンパイルして実行します。
実行時に、上記のプログラムは、指定されたPDFドキュメントからテキストを取得し、以下に示すように表示します。