Opennlp-referenced-api

提供:Dev Guides
移動先:案内検索

OpenNLP-参照API

この章では、このチュートリアルの後続の章で使用するクラスとメソッドについて説明します。

文検出

SentenceModelクラス

このクラスは、指定された生テキストの文を検出するために使用される事前定義モデルを表します。 このクラスは、 opennlp.tools.sentdetect パッケージに属します。

このクラスのコンストラクターは、文検出器モデルファイル(en-sent.bin)の InputStream オブジェクトを受け入れます。

SentenceDetectorMEクラス

このクラスはパッケージ opennlp.tools.sentdetect に属し、生のテキストを文に分割するメソッドが含まれています。 このクラスは、最大エントロピーモデルを使用して文字列内の文末文字を評価し、文末を意味するかどうかを判断します。

このクラスの重要なメソッドは次のとおりです。

S.No Methods and Description
1

sentDetect()

このメソッドは、渡された生のテキスト内の文を検出するために使用されます。 パラメータとして文字列変数を受け取り、指定された生のテキストの文を保持する文字列配列を返します。

2

sentPosDetect()

このメソッドは、指定されたテキスト内の文の位置を検出するために使用されます。 このメソッドは、文を表す文字列変数を受け入れ、 Span 型のオブジェクトの配列を返します。

  • opennlp.tools.util* パッケージの *Span* というクラスは、セットの開始および終了整数を格納するために使用されます。
3

getSentenceProbabilities()

このメソッドは、* sentDetect()*メソッドの最新の呼び出しに関連付けられた確率を返します。

トークン化

TokenizerModelクラス

このクラスは、指定された文のトークン化に使用される事前定義モデルを表します。 このクラスは、パッケージ opennlp.tools.tokenizer に属します。

このクラスのコンストラクターは、トークナイザーモデルファイル(entoken.bin)の InputStream オブジェクトを受け入れます。

クラス

トークン化を実行するために、OpenNLPライブラリには3つの主要なクラスが用意されています。 3つのクラスはすべて、 Tokenizer というインターフェイスを実装しています。

S.No Classes and Description
1

SimpleTokenizer

このクラスは、文字クラスを使用して、指定された生テキストをトークン化します。

2

WhitespaceTokenizer

このクラスは、空白を使用して、指定されたテキストをトークン化します。

3

TokenizerME

このクラスは、生のテキストを個別のトークンに変換します。 最大エントロピーを使用して決定を行います。

これらのクラスには、次のメソッドが含まれています。

S.No Methods and Description
1

tokenize()

このメソッドは、生のテキストをトークン化するために使用されます。 このメソッドは、パラメーターとしてストリング変数を受け入れ、ストリング(トークン)の配列を返します。

2

sentPosDetect()

このメソッドは、トークンの位置またはスパンを取得するために使用されます。 文字列形式の文(または)生テキストを受け入れ、 Span 型のオブジェクトの配列を返します。

上記の2つのメソッドに加えて、 TokenizerME クラスには* getTokenProbabilities()*メソッドがあります。

S.No Methods and Description
1

getTokenProbabilities()

このメソッドは、* tokenizePos()*メソッドの最新の呼び出しに関連付けられた確率を取得するために使用されます。

NameEntityRecognition

TokenNameFinderModelクラス

このクラスは、指定された文の名前付きエンティティを検索するために使用される事前定義モデルを表します。 このクラスは opennlp.tools.namefind パッケージに属します。

このクラスのコンストラクターは、ネームファインダーモデルファイル(enner-person.bin)の InputStream オブジェクトを受け入れます。

NameFinderMEクラス

このクラスは opennlp.tools.namefind パッケージに属し、NERタスクを実行するメソッドが含まれています。 このクラスは、最大エントロピーモデルを使用して、指定された生テキスト内の名前付きエンティティを検索します。

S.No Methods and Description
1

find()

このメソッドは、生のテキスト内の名前を検出するために使用されます。 生のテキストを表すString変数をパラメーターとして受け取り、Span型のオブジェクトの配列を返します。

2

probs()

このメソッドは、最後にデコードされたシーケンスの確率を取得するために使用されます。

品詞を見つける

POSModelクラス

このクラスは、指定された文の品詞にタグを付けるために使用される事前定義モデルを表します。 このクラスは、パッケージ opennlp.tools.postag に属します。

このクラスのコンストラクターは、pos-taggerモデルファイル(enpos-maxent.bin)の InputStream オブジェクトを受け入れます。

POSTaggerMEクラス

このクラスはパッケージ opennlp.tools.postag に属し、指定された生テキストの品詞を予測するために使用されます。 最大エントロピーを使用して決定を行います。

S.No Methods and Description
1

tag()

このメソッドは、トークンPOSタグの文を割り当てるために使用されます。 このメソッドは、トークンの配列(String)をパラメーターとして受け入れ、タグ(配列)を返します。

2

getSentenceProbabilities()

このメソッドは、最近タグ付けされた文の各タグの確率を取得するために使用されます。

文の解析

ParserModelクラス

このクラスは、指定された文の解析に使用される事前定義モデルを表します。 このクラスは opennlp.tools.parser パッケージに属します。

このクラスのコンストラクターは、パーサーモデルファイル(en-parserchunking.bin)の InputStream オブジェクトを受け入れます。

パーサーファクトリクラス

このクラスはパッケージ opennlp.tools.parser に属し、パーサーの作成に使用されます。

S.No Methods and Description
1

create()

これは静的メソッドであり、パーサーオブジェクトの作成に使用されます。 このメソッドは、パーサーモデルファイルのFilestreamオブジェクトを受け入れます。

ParserToolクラス

このクラスは opennlp.tools.cmdline.parser パッケージに属し、コンテンツの解析に使用されます。

S.No Methods and Description
1

parseLine()

  • ParserTool* クラスのこのメソッドは、OpenNLPの生テキストを解析するために使用されます。 このメソッドは受け入れます-
  • 解析するテキストを表す文字列変数。
  • パーサーオブジェクト。
  • 実行する解析の数を表す整数。

チャンキング

ChunkerModelクラス

このクラスは、文を小さなチャンクに分割するために使用される事前定義モデルを表します。 このクラスは opennlp.tools.chunker パッケージに属します。

このクラスのコンストラクターは、 chunker モデルファイル(enchunker.bin)の InputStream オブジェクトを受け入れます。

ChunkerMEクラス

このクラスは opennlp.tools.chunker という名前のパッケージに属し、指定された文を小さなチャンクに分割するために使用されます。

S.No Methods and Description
1

chunk()

このメソッドは、指定された文を小さなチャンクに分割するために使用されます。 文のトークンと* P arts O f S *peechタグをパラメーターとして受け入れます。

2
  • probs()*

このメソッドは、最後にデコードされたシーケンスの確率を返します。