NLP-ワードセンスの曖昧性解消

単語は、文での用法のコンテキストに基づいて異なる意味を持つことを理解しています。人間の言語について話すと、多くの単語がその発生のコンテキストに応じて複数の方法で解釈される可能性があるため、人間の言語もあいまいです。

自然言語処理（NLP）での単語の意味の曖昧性解消は、特定のコンテキストでの単語の使用によってどの単語の意味が活性化されるかを決定する能力として定義できます。構文またはセマンティックの語彙のあいまいさは、NLPシステムが直面する最初の問題の1つです。高精度の品詞（POS）タガーは、Wordの構文のあいまいさを解決できます。一方、セマンティックのあいまいさを解決する問題は、WSD（word sense disambiguation）と呼ばれます。意味のあいまいさを解決することは、構文のあいまいさを解決することよりも困難です。

たとえば、単語 _“ bass” _ に存在する明確な意味の2つの例を考えてみましょう-

低音が聞こえます。
彼はグリルベースを食べるのが好きです。

単語 bass の出現は、明確な意味を明確に示しています。最初の文では frequency を意味し、2番目の文では fish を意味します。したがって、それがWSDによって明確にされる場合、上記の文の正しい意味は次のように割り当てることができます-

低音/周波数の音が聞こえます。
彼はグリルしたバス/魚を食べるのが好きです。

WSDの評価

WSDの評価には、次の2つの入力が必要です-

辞書

WSDの評価のための最初の入力は辞書であり、これは曖昧さを取り除く感覚を指定するために使用されます。

テストコーパス

WSDが必要とするもう1つの入力は、ターゲットまたは正確な意味を持つ高注釈付きテストコーパスです。テストコーパスには、＆minsu;の2種類があります。

語彙サンプル-この種類のコーパスは、単語の小さなサンプルを明確にするために必要なシステムで使用されます。
すべての単語-この種類のコーパスはシステムで使用され、実行中のテキストのすべての単語を明確にすることが期待されます。

ワードセンス曖昧性除去（WSD）のアプローチと方法

WSDへのアプローチと方法は、単語の曖昧性解消で使用される知識のソースに従って分類されます。

私たちは今、WSDに4つの従来の方法を見てみましょう-

辞書ベースまたは知識ベースの方法

名前が示すように、曖昧さをなくすために、これらの方法は主に辞書、宝物、語彙知識ベースに依存しています。彼らは曖昧さを取り除くためにコーパスの証拠を使用しません。 Leskメソッドは、1986年にMichael Leskによって導入された独創的な辞書ベースのメソッドです。 LeskアルゴリズムのベースとなるLeskの定義は、「コンテキスト内のすべての単語の意味の定義間の重複を測定する」*です。しかし、2000年、KilgarriffとRosensweigは、Leskの簡単な定義を「単語と現在のコンテキストの意味の定義の重複を測定する」*としました。ここで、現在のコンテキストは、周囲の文または段落内の単語のセットです。

監視方法

曖昧さをなくすために、機械学習法は、センス注釈付きコーパスを使用して訓練します。これらの方法は、文脈が感覚を明確にするのに十分な証拠をそれ自体で提供できると仮定しています。これらの方法では、単語知識と推論は不要とみなされます。コンテキストは、単語の「機能」のセットとして表されます。また、周囲の単語に関する情報も含まれています。サポートベクターマシンおよびメモリベースの学習は、WSDに対する最も成功した教師あり学習アプローチです。これらの方法は、大量の手動でタグ付けされたコーパスに依存しています。

半教師あり方法

トレーニングコーパスが不足しているため、ほとんどの単語センス曖昧性除去アルゴリズムは半教師付き学習方法を使用しています。これは、半教師ありメソッドがラベル付きデータとラベルなしデータの両方を使用するためです。これらの方法では、注釈付きのテキストが非常に少量で、注釈なしのプレーンテキストが大量に必要です。半監視方法で使用される手法は、シードデータからのブートストラップです。

監視なしの方法

これらの方法は、同様の文脈で同様の感覚が生じることを前提としています。そのため、文脈の類似性の何らかの尺度を使用して単語の出現をクラスタリングすることにより、テキストから感覚を引き出すことができます。このタスクは、ワードセンスの誘導または差別と呼ばれます。教師なしの方法は、手作業に依存しないため、知識取得のボトルネックを克服できる可能性があります。

Word Sense Disambiguation（WSD）のアプリケーション

語義の曖昧性除去（WSD）は、言語技術のほとんどすべてのアプリケーションに適用されます。

私たちは今、WSDの範囲を見てみましょう-

機械翻訳

機械翻訳またはMTは、WSDの最も明白なアプリケーションです。 MTでは、異なる感覚のための明確な翻訳を持つ単語の語彙選択はWSDによって行われます。 MTの感覚は、ターゲット言語の単語として表されます。ほとんどの機械翻訳システムは、明示的なWSDモジュールを使用しません。

情報検索（IR）

情報検索（IR）は、文書リポジトリ、特にテキスト情報からの情報の編成、保存、検索、および評価を扱うソフトウェアプログラムとして定義できます。システムは基本的にユーザーが必要な情報を見つけるのを支援しますが、質問の答えを明示的に返すことはありません。 WSDは、IRシステムに提供されるクエリのあいまいさを解決するために使用されます。 MTと同様に、現在のIRシステムはWSDモジュールを明示的に使用せず、ユーザーが関連ドキュメントのみを取得するためにクエリに十分なコンテキストを入力するという概念に依存しています。

テキストマイニングと情報抽出（IE）

ほとんどのアプリケーションでは、テキストの正確な分析を行うためにWSDが必要です。たとえば、WSDは、インテリジェントな収集システムが正しい単語にフラグを立てるのに役立ちます。たとえば、医療用インテリジェントシステムでは、「医薬品」ではなく「違法薬物」のフラグを立てる必要があります。

辞書編集

現代の辞書編集はコーパスベースであるため、WSDと辞書編集はループで連携して機能します。辞書編集により、WSDは大まかな経験的感覚のグループ化と、感覚の統計的に有意なコンテキストインジケータを提供します。

Word Sense Disambiguation（WSD）の難しさ

以下は、語義の曖昧性解消（WSD）が直面するいくつかの困難です。

辞書の違い

WSDの主な問題は、さまざまな感覚が非常に密接に関連している可能性があるため、単語の意味を決定することです。さまざまな辞書や類語辞典でさえ、言葉の感覚へのさまざまな区分を提供できます。

アプリケーションごとに異なるアルゴリズム

WSDの別の問題は、アプリケーションごとに完全に異なるアルゴリズムが必要になる場合があることです。たとえば、機械翻訳では、ターゲットワードの選択という形をとります。情報検索では、センスインベントリは必要ありません。

審査員間差異

WSDの別の問題は、WSDシステムは一般に、タスクの結果を人間のタスクと比較してテストすることです。これは、裁判官間差異の問題と呼ばれます。

ワードセンス離散性

WSDのもう1つの難点は、単語を簡単に個別の下位意味に分割できないことです。

Natural-language-processing-word-sense-disambiguation

目次