Tika-referenced-api
TIKA-参照API
ユーザーは、Tikaファサードクラスを使用してアプリケーションにTikaを埋め込むことができます。 Tikaのすべての機能を調べる方法があります。 Tikaはファサードクラスであるため、その機能の背後にある複雑さを抽象化します。 これに加えて、ユーザーはアプリケーションでTikaのさまざまなクラスを使用することもできます。
ティカクラス(ファサード)
これは、Tikaライブラリの最も顕著なクラスであり、ファサードのデザインパターンに従います。 したがって、すべての内部実装を抽象化し、Tika機能にアクセスする簡単なメソッドを提供します。 次の表に、このクラスのコンストラクターとその説明を示します。
パッケージ-org.apache.tika
クラス-ティカ
Sr.No. | Constructor & Description |
---|---|
1 |
Tika () デフォルトの構成を使用し、Tikaクラスを構築します。 |
2 |
Tika (Detector detector) 検出器インスタンスをパラメーターとして受け入れて、Tikaファサードを作成します |
3 |
Tika (Detector detector, Parser parser) 検出器とパーサーのインスタンスをパラメーターとして受け入れて、Tikaファサードを作成します。 |
4 |
Tika (Detector detector, Parser parser, Translator translator) 検出器、パーサー、およびトランスレーターインスタンスをパラメーターとして受け入れて、Tikaファサードを作成します。 |
5 |
Tika (TikaConfig config) TikaConfigクラスのオブジェクトをパラメーターとして受け入れることにより、Tikaファサードを作成します。 |
メソッドと説明
以下は、ティカファサードクラスの重要な方法です-
Sr.No. | Methods & Description |
---|---|
1 |
parseToString (*File *file) このメソッドとそのすべてのバリアントは、パラメーターとして渡されたファイルを解析し、抽出されたテキストコンテンツを文字列形式で返します。 デフォルトでは、この文字列パラメーターの長さは制限されています。 |
2 |
int* getMaxStringLength *() parseToStringメソッドによって返される文字列の最大長を返します。 |
3 |
void* setMaxStringLength *(int maxStringLength) parseToStringメソッドによって返される文字列の最大長を設定します。 |
4 |
Reader* parse* (*File *file) このメソッドとそのすべてのバリアントは、パラメーターとして渡されたファイルを解析し、抽出されたテキストコンテンツをjava.io.readerオブジェクトの形式で返します。 |
5 |
String* detect* (InputStream *stream, Metadata *metadata) このメソッドとそのすべてのバリアントは、InputStreamオブジェクトとMetadataオブジェクトをパラメーターとして受け取り、指定されたドキュメントのタイプを検出し、ドキュメントタイプ名をStringオブジェクトとして返します。 このメソッドは、Tikaが使用する検出メカニズムを抽象化します。 |
6 |
String* translate* (InputStream *text, String* targetLanguage) このメソッドとそのすべてのバリアントは、テキストを翻訳する言語を表すInputStreamオブジェクトとStringを受け入れ、指定されたテキストを目的の言語に翻訳して、ソース言語の自動検出を試みます。 |
パーサーインターフェイス
これは、Tikaパッケージのすべてのパーサークラスによって実装されるインターフェイスです。
パッケージ-org.apache.tika.parser
インターフェース-パーサー
メソッドと説明
以下は、ティカパーサーインターフェイスの重要な方法です-
Sr.No. | Methods & Description |
---|---|
1 |
parse (InputStream stream, ContentHandler handler, Metadata metadata, ParseContext context) このメソッドは、指定されたドキュメントをXHTMLおよびSAXイベントのシーケンスに解析します。 解析後、抽出されたドキュメントコンテンツをContentHandlerクラスのオブジェクトに配置し、メタデータをMetadataクラスのオブジェクトに配置します。 |
メタデータクラス
このクラスは、CreativeCommons、Geographic、HttpHeaders、Message、MSOffice、ClimateForcast、TIFF、TikaMetadataKeys、TikaMimeKeys、Serializableなどのさまざまなインターフェイスを実装して、さまざまなデータモデルをサポートします。 次の表に、このクラスのコンストラクターとメソッドとその説明を示します。
パッケージ-org.apache.tika.metadata
*class* -メタデータ
Sr.No. | Constructor & Description |
---|---|
1 |
Metadata() 新しい空のメタデータを作成します。 |
Sr.No. | Methods & Description |
---|---|
1 |
add (Property property, String value) 特定のドキュメントにメタデータプロパティ/値のマッピングを追加します。 この関数を使用して、値をプロパティに設定できます。 |
2 |
add (String name, String value) 特定のドキュメントにメタデータプロパティ/値のマッピングを追加します。 このメソッドを使用して、ドキュメントの既存のメタデータに新しい名前の値を設定できます。 |
3 |
String get (Property property) 指定されたメタデータプロパティの値(存在する場合)を返します。 |
4 |
String get (String name) 指定されたメタデータ名の値(ある場合)を返します。 |
5 |
Date getDate (Property property) 日付メタデータプロパティの値を返します。 |
6 |
String[] getValues (Property property) メタデータプロパティのすべての値を返します。 |
7 |
String[] getValues (String name) 指定されたメタデータ名のすべての値を返します。 |
8 |
String[] names() メタデータオブジェクト内のメタデータ要素のすべての名前を返します。 |
9 |
set (Property property, Date date) 指定されたメタデータプロパティの日付値を設定します |
10 |
set(Property property, String[] values) メタデータプロパティに複数の値を設定します。 |
言語識別子クラス
このクラスは、指定されたコンテンツの言語を識別します。 次の表に、このクラスのコンストラクターとその説明を示します。
パッケージ-org.apache.tika.language
*class* -言語識別子
Sr.No. | Constructor & Description |
---|---|
1 |
LanguageIdentifier (LanguageProfile profile) 言語識別子をインスタンス化します。 ここでは、LanguageProfileオブジェクトをパラメーターとして渡す必要があります。 |
2 |
LanguageIdentifier (String content) このコンストラクタは、テキストコンテンツから文字列を渡すことにより、言語識別子をインスタンス化できます。 |
Sr.No. | Methods & Description |
---|---|
1 |
String getLanguage () 現在のLanguageIdentifierオブジェクトに指定された言語を返します。 |