Tika-environment

提供:Dev Guides
移動先:案内検索

TIKA-環境

この章では、WindowsおよびLinuxでApache Tikaをセットアップするプロセスについて説明します。 Apache Tikaのインストール中にユーザー管理が必要です。

システム要求

JDK Java SE 2 JDK 1.6 or above
Memory 1 GB RAM (recommeneded)
Disk Space No minimum requirement
Operating System Version Windows XP or above, Linux

ステップ1:Javaインストールの検証

Javaのインストールを確認するには、コンソールを開き、次の java コマンドを実行します。

OS Task Command
Windows Open command console \>java –version
Linux Open command terminal $java –version

Javaがシステムに適切にインストールされている場合、作業しているプラ​​ットフォームに応じて、次の出力のいずれかを取得する必要があります。

OS Output
Windows

Java version "1.7.0_60"

Java(TM)SEランタイム環境(ビルド1.7.0_60-b19)

Java Hotspot(TM)64ビットサーバーVM(ビルド24.60-b09、混合モード)

Lunix

java version "1.7.0_25"

JDKランタイム環境を開く(rhel-2.3.10.4.el6_4-x86_64)

JDK 64ビットサーバーVMを開く(ビルド23.7-b01、混合モード)

  • このチュートリアルの読者は、このチュートリアルに進む前に、システムにJava 1.7.0_60がインストールされていると想定しています。
  • Java SDKがない場合は、https://www.oracle.com/technetwork/java/javase/downloads/indexl [[[1]] downloads/indexlおよびそれをインストールしてください]。

ステップ2:Java環境の設定

Javaがマシンにインストールされているベースディレクトリの場所を指すようにJAVA_HOME環境変数を設定します。 例えば、

OS Output
Windows Set Environmental variable JAVA_HOME to C:\ProgramFiles\java\jdk1.7.0_60
Linux export JAVA_HOME =/usr/local/java-current

Javaコンパイラの場所の完全パスをシステムパスに追加します。

OS Output
Windows Append the String; C:\Program Files\Java\jdk1.7.0_60\bin to the end of the system variable PATH.
Linux export PATH = $PATH:$JAVA_HOME/bin/

上記で説明したように、コマンドプロンプトからjava-versionコマンドを確認します。

ステップ3:Apache Tika環境のセットアップ

プログラマーは、環境を使用してApache Tikaを統合できます。

  • コマンドライン、
  • Tika API、
  • Tikaのコマンドラインインターフェイス(CLI)、
  • Tikaのグラフィカルユーザーインターフェイス(GUI)、または
  • ソースコード。

これらのアプローチのいずれについても、まず、Tikaのソースコードをダウンロードする必要があります。

Tikaのソースコードはhttps://tika.apache.org/downloadl[https://Tika.apache.org/downloadl]にあり、2つのリンクがあります-

  • apache-tika-1.6-src.zip -Tikaのソースコードが含まれています。
  • Tika -app-1.6.jar -Tikaアプリケーションを含むjarファイルです。

これら2つのファイルをダウンロードします。 ティカの公式ウェブサイトのスナップショットを以下に示します。

ティカ環境

ファイルをダウンロードしたら、jarファイル tika-app-1.6.jar のクラスパスを設定します。 次の表に示すように、jarファイルの完全なパスを追加します。

OS Output
Windows Append the String “C:\jars\Tika-app-1.6.jar” to the user environment variable CLASSPATH
Linux

Export CLASSPATH = $CLASSPATH −

/usr/share/jars/Tika-app-1.6.tar-

Apacheは、Eclipseを使用したグラフィカルユーザーインターフェイス(GUI)アプリケーションであるTikaアプリケーションを提供します。

Eclipseを使用したTika-Mavenビルド

  • Eclipseを開き、新しいプロジェクトを作成します。
  • EclipseにMavenがない場合は、所定の手順に従ってセットアップしてください。
  • link https://wiki.eclipse.org/M2E_updatesite_and_gittagsを開きます。 そこには、表形式のm2eプラグインリリースがあります。

m2eリリース

  • 最新バージョンを選択し、p2 url列にURLのパスを保存します。
  • 次に、Eclipseを再訪し、メニューバーで[ヘルプ]をクリックし、ドロップダウンメニューから[新しいソフトウェアのインストール]を選択します。

Eclipse

  • [追加]ボタンをクリックし、必要に応じて任意の名前を入力します。 保存したURLを Location フィールドに貼り付けます。
  • 前の手順で選択した名前の新しいプラグインが追加され、その前のチェックボックスをオンにして、[次へ]をクリックします。

インストール

  • インストールを続行します。 完了したら、Eclipseを再起動します。
  • プロジェクトを右クリックし、 configure オプションで、 convert to maven project を選択します。
  • 新しいPOMを作成するための新しいウィザードが表示されます。 グループIDとしてorg.apache.tikaを入力し、Tikaの最新バージョンを入力し、 packaging をjarとして選択し、 Finish をクリックします。

Mavenプロジェクトが正常にインストールされ、プロジェクトがMavenに変換されます。 次に、pom.xmlファイルを構成する必要があります。

XMLファイルを構成する

[[2]] maven依存関係を取得します

以下は、Apache Tikaの完全なMaven依存関係です。

<dependency>
   <groupId>org.apache.Tika</groupId>
   <artifactId>Tika-core</artifactId>
   <version>1.6</version>

   <groupId>org.apache.Tika</groupId>
   <artifactId> Tika-parsers</artifactId>
   <version> 1.6</version>

   <groupId> org.apache.Tika</groupId>
   <artifactId>Tika</artifactId>
   <version>1.6</version>

   <groupId>org.apache.Tika</groupId>
   < artifactId>Tika-serialization</artifactId>
   < version>1.6</version>

   < groupId>org.apache.Tika</groupId>
   < artifactId>Tika-app</artifactId>
   < version>1.6</version>

   <groupId>org.apache.Tika</groupId>
   <artifactId>Tika-bundle</artifactId>
   <version>1.6</version>
</dependency>