Opennlp-overview
OpenNLP-概要
NLPは、Webページやテキストドキュメントなどの自然言語ソースから意味のある有用な情報を引き出すために使用されるツールのセットです。
Open NLPとは何ですか?
Apache OpenNLP は、自然言語テキストの処理に使用されるオープンソースのJavaライブラリです。 このライブラリを使用して、効率的なテキスト処理サービスを構築できます。
OpenNLPは、トークン化、文のセグメンテーション、品詞タグ付け、名前付きエンティティ抽出、チャンク化、解析、相互参照解決などのサービスを提供します。
OpenNLPの機能
OpenNLPの注目すべき機能は次のとおりです-
- 名前付きエンティティ認識(NER)-Open NLPはNERをサポートします。これを使用して、クエリの処理中でも場所、人、物の名前を抽出できます。
- Summarize - summarize 機能を使用すると、段落、記事、ドキュメント、またはそれらのコレクションをNLPで要約できます。
- 検索-OpenNLPでは、指定された単語が変更されたりスペルミスがあったとしても、指定されたテキストで特定の検索文字列またはその同義語を識別することができます。
- タグ付け(POS)-NLPのタグ付けは、さらなる分析のためにテキストをさまざまな文法要素に分割するために使用されます。
- 翻訳-NLPでは、翻訳はある言語を別の言語に翻訳するのに役立ちます。
- 情報のグループ化-NLPのこのオプションは、品詞と同様に、ドキュメントのコンテンツ内のテキスト情報をグループ化します。
- 自然言語の生成-データベースから情報を生成し、気象分析や医療レポートなどの情報レポートを自動化するために使用されます。
- フィードバック分析-名前が示すように、製品に関する人々からのさまざまなタイプのフィードバックがNLPによって収集され、製品が彼らの心をつかむのにどれだけ成功しているかを分析します。
- 音声認識-人間の音声を分析することは困難ですが、NLPにはこの要件のための組み込み機能がいくつかあります。
NLP APIを開く
Apache OpenNLPライブラリは、文の検出、トークン化、名前の検索、品詞のタグ付け、文のチャンク化、解析、相互参照の解決、ドキュメントの分類など、自然言語処理のさまざまなタスクを実行するクラスとインターフェイスを提供します。
これらのタスクに加えて、これらのタスクのいずれかの独自のモデルをトレーニングおよび評価することもできます。
OpenNLP CLI
ライブラリに加えて、OpenNLPはコマンドラインインターフェイス(CLI)も提供しており、モデルのトレーニングと評価を行うことができます。 このトピックの詳細については、このチュートリアルの最後の章で説明します。
NLPモデルを開く
さまざまなNLPタスクを実行するために、OpenNLPは事前定義されたモデルのセットを提供します。 このセットには、さまざまな言語のモデルが含まれています。
モデルのダウンロード
以下に示す手順に従って、OpenNLPが提供する事前定義モデルをダウンロードできます。
- ステップ1 *-次のリンクをクリックして、OpenNLPモデルのインデックスページを開きます-http://opennlp.sourceforge.net/models-1.5/。
- ステップ2 *-指定されたリンクにアクセスすると、さまざまな言語のコンポーネントのリストとそれらをダウンロードするためのリンクが表示されます。 ここでは、OpenNLPが提供するすべての定義済みモデルのリストを取得できます。
それぞれのリンクをクリックして、これらすべてのモデルをフォルダー C:/OpenNLP_models/> にダウンロードします。 これらのモデルはすべて言語に依存しているため、これらを使用する際には、モデルの言語が入力テキストの言語と一致することを確認する必要があります。
OpenNLPの歴史
- 2010年、OpenNLPはApacheインキュベーションに参加しました。
- 2011年にApache OpenNLP 1.5.2 Incubatingがリリースされ、同じ年にトップレベルのApacheプロジェクトとして卒業しました。
- 2015年、OpenNLPは1.6.0をリリースしました。