TIKA-概要

Apache Tikaとは何ですか？

Apache Tikaは、さまざまなファイル形式からのドキュメントタイプの検出とコンテンツ抽出に使用されるライブラリです。
内部的に、Tikaは既存のさまざまなドキュメントパーサーとドキュメントタイプ検出技術を使用して、データを検出および抽出します。
Tikaを使用すると、構造化されたテキストと、スプレッドシート、テキストドキュメント、画像、PDF、さらにはマルチメディア入力形式などのさまざまなタイプのドキュメントからメタデータの両方をある程度抽出するユニバーサルタイプ検出器とコンテンツエクストラクターを開発できます。
Tikaは、さまざまなファイル形式を解析するための単一の汎用APIを提供します。各ドキュメントタイプに既存の専用パーサーライブラリを使用します。
これらのパーサーライブラリはすべて、* Parserインターフェイス*と呼ばれる単一のインターフェイスの下にカプセル化されます。

なぜティカ？

filext.comによると、約15k〜51kのコンテンツタイプがあり、この数は日々増加しています。データは、テキストドキュメント、Excelスプレッドシート、PDF、画像、マルチメディアファイルなど、さまざまな形式で保存されています。したがって、検索エンジンやコンテンツ管理システムなどのアプリケーションには、これらのドキュメントタイプからデータを簡単に抽出するための追加サポートが必要です。 Apache Tikaは、複数のファイル形式からデータを見つけて抽出するための汎用APIを提供することにより、この目的に役立ちます。

Apache Tikaアプリケーション

Apache Tikaを利用するさまざまなアプリケーションがあります。ここでは、Apache Tikaに大きく依存するいくつかの著名なアプリケーションについて説明します。

サーチエンジン

Tikaは、デジタルドキュメントのテキストコンテンツのインデックスを作成する検索エンジンの開発中に広く使用されています。

検索エンジンは、Webから情報とインデックス付きドキュメントを検索するように設計された情報処理システムです。
クローラーは、Webをクロールして、何らかのインデックス手法を使用してインデックスを作成するドキュメントを取得する検索エンジンの重要なコンポーネントです。その後、クローラはこれらのインデックス付きドキュメントを抽出コンポーネントに転送します。
抽出コンポーネントの役割は、ドキュメントからテキストとメタデータを抽出することです。このような抽出されたコンテンツとメタデータは、検索エンジンに非常に役立ちます。この抽出コンポーネントにはTikaが含まれています。
抽出されたコンテンツは、それを使用して検索インデックスを作成する検索エンジンのインデクサーに渡されます。これとは別に、検索エンジンは抽出されたコンテンツを他の多くの方法でも使用します。

検索エンジン

文書分析

人工知能の分野では、セマンティックレベルでドキュメントを自動的に分析し、そこからあらゆる種類のデータを抽出する特定のツールがあります。
そのようなアプリケーションでは、ドキュメントは、ドキュメントの抽出されたコンテンツ内の顕著な用語に基づいて分類されます。
これらのツールは、Tikaを使用してコンテンツを抽出し、プレーンテキストからデジタルドキュメントまでさまざまなドキュメントを分析します。

デジタル資産管理

一部の組織では、デジタル資産管理（DAM）と呼ばれる特別なアプリケーションを使用して、写真、電子書籍、図面、音楽、ビデオなどのデジタル資産を管理しています。
このようなアプリケーションは、ドキュメントタイプ検出器とメタデータ抽出機能を利用して、さまざまなドキュメントを分類します。

内容分析

Amazonのようなウェブサイトは、関心に応じて個々のユーザーに新しくリリースされたコンテンツを推奨しています。そのためには、これらのWebサイトは*機械学習の手法*に従うか、FacebookなどのソーシャルメディアWebサイトの助けを借りて、ユーザーの好きなものや興味などの必要な情報を抽出します。この収集された情報は、htmlタグまたはその他のコンテンツタイプの検出と抽出が必要なその他の形式の形式になります。
ドキュメントのコンテンツ分析には、 UIMA や Mahout などの機械学習技術を実装するテクノロジーがあります。これらのテクノロジーは、ドキュメント内のデータのクラスタリングと分析に役立ちます。
Apache Mahout は、クラウドコンピューティングプラットフォームであるApache HadoopでMLアルゴリズムを提供するフレームワークです。 Mahoutは、特定のクラスタリングおよびフィルタリング手法に従ってアーキテクチャを提供します。このアーキテクチャに従うことにより、プログラマは独自のMLアルゴリズムを記述して、さまざまなテキストとメタデータの組み合わせを使用して推奨事項を作成できます。これらのアルゴリズムに入力を提供するために、Mahoutの最新バージョンはTikaを使用して、バイナリコンテンツからテキストとメタデータを抽出します。
Apache UIMA は、さまざまなプログラミング言語を分析および処理し、UIMAアノテーションを生成します。内部的には、Tika Annotatorを使用してドキュメントテキストとメタデータを抽出します。

歴史

Year	Development
2006	The idea of Tika was projected before the Lucene Project Management Committee.
2006	The concept of Tika and its usefulness in the Jackrabbit project was discussed.
2007	Tika entered into Apache incubator.
2008	Versions 0.1 and 0.2 were released and Tika graduated from the incubator to the Lucene sub-project.
2009	Versions 0.3, 0.4, and 0.5 were released.
2010	Version 0.6 and 0.7 were released and Tika graduated into the top-level Apache project.
2011	Tika 1.0 was released and the book on Tika "Tika in Action” was also released in the same year.

Tika-overview

目次