Lucene-analysis
提供:Dev Guides
Lucene-分析
前の章の1つで、Luceneは_IndexWriter_を使用して_Analyzer_を使用して_Document(s)_を分析し、必要に応じてインデックスを作成/開く/編集することを確認しました。 この章では、分析プロセス中に使用されるさまざまなタイプのアナライザーオブジェクトおよびその他の関連オブジェクトについて説明します。 分析プロセスとアナライザーの仕組みを理解することで、Luceneがどのようにドキュメントにインデックスを付けるかを知ることができます。
以下は、やがて議論するオブジェクトのリストです。
S.No. | Class & Description |
---|---|
1 |
トークンは、ドキュメント内のテキストまたは単語を、メタデータ(位置、開始オフセット、終了オフセット、トークンタイプ、および位置の増分)などの関連する詳細とともに表します。 |
2 |
TokenStreamは分析プロセスの出力であり、一連のトークンで構成されています。 これは抽象クラスです。 |
3 |
これは、すべてのタイプのアナライザーの抽象基本クラスです。 |
4 |
このアナライザーは、空白に基づいて文書内のテキストを分割します。 |
5 |
このアナライザーは、文字以外の文字に基づいて文書内のテキストを分割し、テキストを小文字にします。 |
6 |
このアナライザーはSimpleAnalyzerとして機能し、* 'a'、 'an'、 'the'、*などの一般的な単語を削除します。 |
7 |
これは最も洗練されたアナライザーであり、名前、電子メールアドレスなどを処理できます。 各トークンを小文字にし、一般的な単語や句読点がある場合は削除します。 |