Tika-referenced-api

提供:Dev Guides
移動先:案内検索

TIKA-参照API

ユーザーは、Tikaファサードクラスを使用してアプリケーションにTikaを埋め込むことができます。 Tikaのすべての機能を調べる方法があります。 Tikaはファサードクラスであるため、その機能の背後にある複雑さを抽象化します。 これに加えて、ユーザーはアプリケーションでTikaのさまざまなクラスを使用することもできます。

ユーザーアプリケーション

ティカクラス(ファサード)

これは、Tikaライブラリの最も顕著なクラスであり、ファサードのデザインパターンに従います。 したがって、すべての内部実装を抽象化し、Tika機能にアクセスする簡単なメソッドを提供します。 次の表に、このクラスのコンストラクターとその説明を示します。

パッケージ-org.apache.tika

クラス-ティカ

Sr.No. Constructor & Description
1

Tika ()

デフォルトの構成を使用し、Tikaクラスを構築します。

2

Tika (Detector detector)

検出器インスタンスをパラメーターとして受け入れて、Tikaファサードを作成します

3

Tika (Detector detector, Parser parser)

検出器とパーサーのインスタンスをパラメーターとして受け入れて、Tikaファサードを作成します。

4

Tika (Detector detector, Parser parser, Translator translator)

検出器、パーサー、およびトランスレーターインスタンスをパラメーターとして受け入れて、Tikaファサードを作成します。

5

Tika (TikaConfig config)

TikaConfigクラスのオブジェクトをパラメーターとして受け入れることにより、Tikaファサードを作成します。

メソッドと説明

以下は、ティカファサードクラスの重要な方法です-

Sr.No. Methods & Description
1

parseToString (*File *file)

このメソッドとそのすべてのバリアントは、パラメーターとして渡されたファイルを解析し、抽出されたテキストコンテンツを文字列形式で返します。 デフォルトでは、この文字列パラメーターの長さは制限されています。

2

int* getMaxStringLength *()

parseToStringメソッドによって返される文字列の最大長を返します。

3

void* setMaxStringLength *(int maxStringLength)

parseToStringメソッドによって返される文字列の最大長を設定します。

4

Reader* parse* (*File *file)

このメソッドとそのすべてのバリアントは、パラメーターとして渡されたファイルを解析し、抽出されたテキストコンテンツをjava.io.readerオブジェクトの形式で返します。

5

String* detect* (InputStream *stream, Metadata *metadata)

このメソッドとそのすべてのバリアントは、InputStreamオブジェクトとMetadataオブジェクトをパラメーターとして受け取り、指定されたドキュメントのタイプを検出し、ドキュメントタイプ名をStringオブジェクトとして返します。 このメソッドは、Tikaが使用する検出メカニズムを抽象化します。

6

String* translate* (InputStream *text, String* targetLanguage)

このメソッドとそのすべてのバリアントは、テキストを翻訳する言語を表すInputStreamオブジェクトとStringを受け入れ、指定されたテキストを目的の言語に翻訳して、ソース言語の自動検出を試みます。

パーサーインターフェイス

これは、Tikaパッケージのすべてのパーサークラスによって実装されるインターフェイスです。

パッケージ-org.apache.tika.parser

インターフェース-パーサー

メソッドと説明

以下は、ティカパーサーインターフェイスの重要な方法です-

Sr.No. Methods & Description
1

parse (InputStream stream, ContentHandler handler, Metadata metadata, ParseContext context)

このメソッドは、指定されたドキュメントをXHTMLおよびSAXイベントのシーケンスに解析します。 解析後、抽出されたドキュメントコンテンツをContentHandlerクラスのオブジェクトに配置し、メタデータをMetadataクラスのオブジェクトに配置します。

メタデータクラス

このクラスは、CreativeCommons、Geographic、HttpHeaders、Message、MSOffice、ClimateForcast、TIFF、TikaMetadataKeys、TikaMimeKeys、Serializableなどのさまざまなインターフェイスを実装して、さまざまなデータモデルをサポートします。 次の表に、このクラスのコンストラクターとメソッドとその説明を示します。

パッケージ-org.apache.tika.metadata

*class* -メタデータ
Sr.No. Constructor & Description
1

Metadata()

新しい空のメタデータを作成します。

Sr.No. Methods & Description
1

add (Property property, String value)

特定のドキュメントにメタデータプロパティ/値のマッピングを追加します。 この関数を使用して、値をプロパティに設定できます。

2

add (String name, String value)

特定のドキュメントにメタデータプロパティ/値のマッピングを追加します。 このメソッドを使用して、ドキュメントの既存のメタデータに新しい名前の値を設定できます。

3

String get (Property property)

指定されたメタデータプロパティの値(存在する場合)を返します。

4

String get (String name)

指定されたメタデータ名の値(ある場合)を返します。

5

Date getDate (Property property)

日付メタデータプロパティの値を返します。

6

String[] getValues (Property property)

メタデータプロパティのすべての値を返します。

7

String[] getValues (String name)

指定されたメタデータ名のすべての値を返します。

8

String[] names()

メタデータオブジェクト内のメタデータ要素のすべての名前を返します。

9

set (Property property, Date date)

指定されたメタデータプロパティの日付値を設定します

10

set(Property property, String[] values)

メタデータプロパティに複数の値を設定します。

言語識別子クラス

このクラスは、指定されたコンテンツの言語を識別します。 次の表に、このクラスのコンストラクターとその説明を示します。

パッケージ-org.apache.tika.language

*class* -言語識別子
Sr.No. Constructor & Description
1

LanguageIdentifier (LanguageProfile profile)

言語識別子をインスタンス化します。 ここでは、LanguageProfileオブジェクトをパラメーターとして渡す必要があります。

2

LanguageIdentifier (String content)

このコンストラクタは、テキストコンテンツから文字列を渡すことにより、言語識別子をインスタンス化できます。

Sr.No. Methods & Description
1

String getLanguage ()

現在のLanguageIdentifierオブジェクトに指定された言語を返します。