Lucene-analysis

提供:Dev Guides
移動先:案内検索

Lucene-分析

前の章の1つで、Luceneは_IndexWriter_を使用して_Analyzer_を使用して_Document(s)_を分析し、必要に応じてインデックスを作成/開く/編集することを確認しました。 この章では、分析プロセス中に使用されるさまざまなタイプのアナライザーオブジェクトおよびその他の関連オブジェクトについて説明します。 分析プロセスとアナライザーの仕組みを理解することで、Luceneがどのようにドキュメントにインデックスを付けるかを知ることができます。

以下は、やがて議論するオブジェクトのリストです。

S.No. Class & Description
1

Token

トークンは、ドキュメント内のテキストまたは単語を、メタデータ(位置、開始オフセット、終了オフセット、トークンタイプ、および位置の増分)などの関連する詳細とともに表します。

2

TokenStream

TokenStreamは分析プロセスの出力であり、一連のトークンで構成されています。 これは抽象クラスです。

3

Analyzer

これは、すべてのタイプのアナライザーの抽象基本クラスです。

4

WhitespaceAnalyzer

このアナライザーは、空白に基づいて文書内のテキストを分割します。

5

SimpleAnalyzer

このアナライザーは、文字以外の文字に基づいて文書内のテキストを分割し、テキストを小文字にします。

6

StopAnalyzer

このアナライザーはSimpleAnalyzerとして機能し、* 'a'、 'an'、 'the'、*などの一般的な単語を削除します。

7

StandardAnalyzer

これは最も洗練されたアナライザーであり、名前、電子メールアドレスなどを処理できます。 各トークンを小文字にし、一般的な単語や句読点がある場合は削除します。