Pdfbox-overview
提供:Dev Guides
PDFBox-概要
Portable Document Format(PDF)は、アプリケーションソフトウェア、ハードウェア、およびオペレーティングシステムに依存しない方法でデータを表示するのに役立つファイル形式です。
各PDFファイルには、テキスト、フォント、グラフィックス、および表示に必要なその他の情報を含む、固定レイアウトのフラットドキュメントの説明が含まれています。
次のようなプログラムを介してPDFドキュメントを作成および操作するために利用できるいくつかのライブラリがあります-
- Adobe PDF Library -このライブラリは、C++、。NET、Javaなどの言語でAPIを提供し、これを使用して、PDFドキュメントからテキストを編集、印刷、抽出できます。
- Formatting Objects Processor -XSL Formatting Objectsおよび出力に依存しないフォーマッタによって駆動されるオープンソース印刷フォーマッタ。 主な出力先はPDFです。
- iText -このライブラリは、Java、C#、およびその他の.NET言語などの言語でAPIを提供し、このライブラリを使用してPDF、RTF、およびHTMLドキュメントを作成および操作できます。
- JasperReports -これは、Microsoft Excel、RTF、ODT、コンマ区切り値、XMLファイルなどのPDFドキュメントでレポートを生成するJavaレポートツールです。
PDFBoxとは
Apache PDFBoxは、PDFドキュメントの開発と変換をサポートするオープンソースのJavaライブラリです。 このライブラリを使用すると、PDFドキュメントを作成、変換、操作するJavaプログラムを開発できます。
これに加えて、PDFBoxには、使用可能なJarファイルを使用してPDFに対してさまざまな操作を実行するためのコマンドラインユーティリティも含まれています。
PDFBoxの機能
PDFBoxの注目すべき機能は次のとおりです-
- テキストの抽出-PDFBoxを使用すると、PDFファイルからUnicodeテキストを抽出できます。
- 分割とマージ-PDFBoxを使用すると、単一のPDFファイルを複数のファイルに分割し、それらを単一のファイルとしてマージして戻すことができます。
- フォームに記入-PDFBoxを使用して、ドキュメントにフォームデータを記入できます。
- 印刷-PDFBoxを使用すると、標準のJava印刷APIを使用してPDFファイルを印刷できます。
- 画像として保存-PDFBoxを使用して、PNGをPNGやJPEGなどの画像ファイルとして保存できます。
- * PDFの作成*-PDFBoxを使用すると、Javaプログラムを作成して新しいPDFファイルを作成できます。また、画像やフォントを含めることもできます。
- 署名-PDFBoxを使用して、PDFファイルにデジタル署名を追加できます。
PDFBoxのアプリケーション
以下は、PDFBoxのアプリケーションです-
- Apache Nutch -Apache Nutchは、オープンソースのWeb検索ソフトウェアです。 Apache Luceneをベースに構築され、クローラー、リンクグラフデータベース、HTMLパーサー、およびその他のドキュメント形式などのWeb固有のものを追加します。
- Apache Tika -Apache Tikaは、既存のパーサーライブラリを使用して、さまざまなドキュメントからメタデータと構造化テキストコンテンツを検出および抽出するためのツールキットです。
PDFBoxのコンポーネント
以下は、PDFBoxの4つの主要なコンポーネントです-
- PDFBox -これはPDFBoxの主要部分です。 これには、コンテンツの抽出と操作に関連するクラスとインターフェースが含まれます。
- FontBox -これには、フォントに関連するクラスとインターフェイスが含まれており、これらのクラスを使用して、PDFドキュメントのテキストのフォントを変更できます。
- XmpBox -これには、XMPメタデータを処理するクラスとインターフェイスが含まれています。
- Preflight -このコンポーネントは、PDF/A-1b標準に対してPDFファイルを検証するために使用されます。