Natural-language-processing-part-of-speech-tagging

提供:Dev Guides
移動先:案内検索

品詞(PoS)タグ付け

タグ付けは、トークンへの説明の自動割り当てとして定義される分類の一種です。 ここで、記述子はタグと呼ばれ、品詞、セマンティック情報などのいずれかを表す場合があります。

さて、品詞(PoS)タグ付けについて話す場合、品詞の1つを指定された単語に割り当てるプロセスとして定義できます。 一般にPOSタグ付けと呼ばれます。 簡単な言葉で言えば、POSタグ付けは、文の各単語に適切な品詞をラベル付けするタスクであると言えます。 品詞には、名詞、動詞、副詞、形容詞、代名詞、接続詞、およびそれらのサブカテゴリが含まれることは既にわかっています。

POSタグ付けのほとんどは、ルールベースPOSタグ付け、確率的POSタグ付け、および変換ベースのタグ付けに分類されます。

ルールベースのPOSタグ付け

タグ付けの最も古い手法の1つは、ルールベースのPOSタグ付けです。 ルールベースのタガーは、辞書または辞書を使用して、各単語にタグを付けるための可能なタグを取得します。 単語に複数の可能なタグがある場合、ルールベースのタガーは手書きのルールを使用して正しいタグを識別します。 また、単語の言語的特徴とその前後の単語を分析することにより、ルールベースのタグ付けで曖昧性解消を実行できます。 たとえば、単語の前の単語が冠詞である場合、単語は名詞でなければなりません。

名前が示すように、ルールベースのPOSタグ付けにおけるこのような種類の情報はすべて、ルールの形式でコーディングされます。 これらのルールは次のいずれかです-

  • コンテキストパターンルール
  • または、正規表現が有限状態オートマトンにコンパイルされ、語彙的に曖昧な文表現と交差します。

また、2段階のアーキテクチャにより、ルールベースのPOSタグ付けを理解できます-

  • 第一段階-第一段階では、辞書を使用して各単語に潜在的な品詞のリストを割り当てます。
  • 第二段階-第二段階では、手書きの曖昧性除去ルールの大きなリストを使用して、リストを各単語の単一の品詞に分類します。

ルールベースのPOSタグ付けのプロパティ

ルールベースのPOSタガーは、次のプロパティを持っています-

  • これらのタガーは知識駆動型のタガーです。
  • ルールベースのPOSタグ付けのルールは手動で作成されます。
  • 情報はルールの形式でコード化されます。
  • 約1000程度の限られた数のルールがあります。
  • スムージングと言語モデリングは、ルールベースのタガーで明示的に定義されます。

確率的POSタグ付け

タグ付けのもう1つの手法は、確率的POSタグ付けです。 さて、ここで生じる問題は、どのモデルが確率論的であるかということです。 頻度または確率(統計)を含むモデルは、確率論と呼ばれます。 品詞タギングの問題に対するさまざまなアプローチは、確率的タガーと呼ばれます。

最も単純な確率的タガーは、POSタグに次のアプローチを適用します-

単語頻度アプローチ

このアプローチでは、確率的タガーは、特定のタグで単語が出現する確率に基づいて単語を明確にします。 また、トレーニングセット内の単語で最も頻繁に検出されるタグは、その単語のあいまいなインスタンスに割り当てられたタグであると言えます。 このアプローチの主な問題は、許容できないタグのシーケンスを生成する可能性があることです。

タグシーケンスの確率

確率的タグ付けのもう1つのアプローチです。タグ付けは、タグの特定のシーケンスが発生する確率を計算します。 n-gramアプローチとも呼ばれます。 特定の単語に最適なタグは、前のn個のタグで発生する確率によって決定されるため、そう呼ばれます。

確率的POSTタグ付けのプロパティ

確率的POSタガーは次の特性を持っています-

  • このPOSタグ付けは、タグが発生する確率に基づいています。
  • コーパスのトレーニングが必要です
  • コーパスに存在しない単語が存在する可能性はありません。
  • 異なるテストコーパス(トレーニングコーパス以外)を使用します。
  • これは、トレーニングコーパス内の単語に関連付けられている最も頻繁なタグを選択するため、最も単純なPOSタグ付けです。

変換ベースのタグ付け

変換ベースのタグ付けは、Brillタグ付けとも呼ばれます。 これは、指定されたテキストへのPOSの自動タグ付けのためのルールベースのアルゴリズムである変換ベースの学習(TBL)のインスタンスです。 TBLは、読みやすい形式で言語知識を持つことができ、変換ルールを使用して、ある状態を別の状態に変換します。

これは、前に説明したタガーの両方からインスピレーションを引き出します-ルールベースおよび確率論的です。 ルールベースと変換タガーの類似性が見られる場合、ルールベースと同様に、どのタグをどの単語に割り当てる必要があるかを指定するルールにも基づいています。 一方、確率的と変換タガーの類似性を見ると、確率的と同様に、データからルールが自動的に誘導される機械学習手法です。

変換ベースの学習(TBL)の働き

変換ベースのタガーの動作と概念を理解するには、変換ベースの学習の動作を理解する必要があります。 TBLの動作を理解するために、次の手順を検討してください-

  • 解決策から始める-TBLは通常、問題に対する何らかの解決策から始まり、サイクルで機能します。
  • 最も有益な変換が選択されました-各サイクルで、TBLは最も有益な変換を選択します。
  • 問題に適用-最後のステップで選択した変換が問題に適用されます。

ステップ2で選択した変換で値が追加されないか、選択する変換がなくなると、アルゴリズムは停止します。 この種の学習は、分類タスクに最適です。

変換ベースの学習(TBL)の利点

TBLの利点は次のとおりです-

  • 簡単なルールの小さなセットを学習し、これらのルールはタグ付けに十分です。
  • TBLでは、学習したルールが理解しやすいため、開発とデバッグは非常に簡単です。
  • TBLには機械学習ルールと人間生成ルールのインターレースがあるため、タグ付けの複雑さが軽減されます。
  • 変換ベースのタガーは、マルコフモデルのタガーよりもはるかに高速です。

変換ベースの学習(TBL)の欠点

TBLの欠点は次のとおりです-

  • 変換ベースの学習(TBL)は、タグの確率を提供しません。
  • TBLでは、特に大きなコーパスでは、トレーニング時間が非常に長くなります。

隠れマルコフモデル(HMM)POSタグ付け

HMM POSタグ付けを深く掘り下げる前に、隠れマルコフモデル(HMM)の概念を理解する必要があります。

隠れマルコフモデル

HMMモデルは、二重に埋め込まれた確率モデルとして定義できます。このモデルでは、基礎となる確率プロセスが隠されています。 この隠れた確率的プロセスは、観測のシーケンスを生成する別の確率的プロセスのセットを通してのみ観測できます。

たとえば、一連の隠されたコイン投げ実験が行われ、頭と尾からなる観測シーケンスのみが表示されます。 プロセスの実際の詳細-使用されたコインの数、選択された順序-は、私たちから隠されています。 この頭と尾のシーケンスを観察することにより、シーケンスを説明するためにいくつかのHMMを構築できます。 以下は、この問題の隠れマルコフモデルの1つの形式です-

隠れマルコフモデル

HMMには2つの状態があり、それぞれの状態は異なるバイアスコインの選択に対応すると仮定しました。 次のマトリックスは、状態遷移確率を与えます-

A = \ begin \ {bmatrix} a11&a12 \\ a21&a22 \ end \ {bmatrix}

ここに、

  • * a〜ij〜* =ある状態から別の状態へのiからjへの遷移の確率。
  • * a〜11〜+ a〜12〜* = 1およびa〜21〜+ a〜22〜= 1
  • * P〜1〜* =最初のコインの頭の確率、すなわち 最初のコインのバイアス。
  • * P〜2〜* = 2番目のコインの頭の確率、すなわち 2番目のコインのバイアス。

3枚以上のコインがあると仮定して、HMMモデルを作成することもできます。

この方法では、次の要素によってHMMを特徴付けることができます-

  • N、モデル内の状態の数(上記の例ではN = 2、2つの状態のみ)。
  • M、上記の例の各状態で表示できる個別の観測値の数M = 2、つまりHまたはT)。
  • A、状態遷移確率分布-上記の例の行列A。
  • P、各状態の観測可能なシンボルの確率分布(この例ではP1とP2)。
  • I、初期状態の分布。

POSタグ付けのためのHMMの使用

POSタグ付けプロセスは、特定の単語シーケンスを生成した可能性が最も高いタグのシーケンスを見つけるプロセスです。 Hidden Markov Model(HMM)を使用して、このPOSプロセスをモデル化できます。ここで、 tags は、 observable output * words を生成した hidden state です。

数学的には、POSタグ付けでは、最大化するタグシーケンス(C)を見つけることに常に関心があります-

  • P(C | W)*

どこで、

C = C〜1〜、C〜2〜、C〜3〜…​ CT

W = W〜1〜、W〜2〜、W〜3〜、W〜T〜

コインの反対側では、そのようなシーケンスを合理的に推定するために多くの統計データが必要であるという事実です。 ただし、問題を簡素化するために、いくつかの仮定とともにいくつかの数学的変換を適用できます。

HMMを使用したPOSタグ付けは、ベイジアン干渉の特殊なケースです。 したがって、ベイズのルールを使用して問題を再定義することから始めます。これは、上記の条件付き確率が次と等しいことを示しています-

(PROB(C〜1〜、…​、CT) PROB(W〜1〜、…​、WT | C〜1〜、…​、CT))/PROB(W〜1〜,. ..、WT)*

上記の値を最大化するシーケンスCを見つけることに関心があるため、これらすべてのケースで分母を削除できます。 これは回答に影響しません。 今、私たちの問題は最大化するシーケンスCを見つけることになります-

  • PROB(C〜1〜、…​、CT)* PROB(W〜1〜、…​、WT | C〜1〜、…​、CT)(1)*

上記の式の問題を軽減した後でも、大量のデータが必要になります。 問題を克服するために、上記の式の2つの確率について合理的な独立仮定を行うことができます。

最初の仮定

タグの確率は、前のもの(バイグラムモデル)または前の2つ(トライグラムモデル)または前のnタグ(nグラムモデル)に依存し、数学的には次のように説明できます-

  • PROB(C〜1〜、…​、C〜T〜)=Π〜i = 1..T〜PROB(C〜i〜| C〜i-n + 1〜…C〜i-1〜) (n-gramモデル)*
  • PROB(C〜1〜、…​、CT)=Π〜i = 1..T〜PROB(C〜i〜| C〜i-1〜)(バイグラムモデル)*

各タグの初期確率を仮定することにより、文の始まりを説明できます。

  • PROB(C〜1〜| C〜0〜)= PROB〜初期〜(C〜1〜)*

第二の仮定

上記の式(1)の2番目の確率は、次のように数学的に説明できる前後のカテゴリの単語とは無関係のカテゴリに単語が現れると仮定することで近似できます-

  • PROB(W〜1〜、…​、W〜T〜| C〜1〜、…​、C〜T〜)=Π〜i = 1..T〜PROB(W〜i〜| C〜 i〜)*

さて、上記の2つの仮定に基づいて、私たちの目標は、最大化するシーケンスCを見つけることになります

Π〜i = 1 …​ T〜PROB(C〜i〜| C〜i-1〜) PROB(W〜i〜| C〜i〜)*

ここで生じる問題は、問題を上記の形式に変換することが本当に助けになったことです。 答えは-はい、あります。 大きなタグ付きコーパスがある場合、上記の式の2つの確率は次のように計算できます-

  • PROB(C〜i = VERB〜| C〜i-1 = NOUN〜)=(動詞が名詞に続くインスタンスの数)/(名詞が現れるインスタンスの数)(2)*
  • PROB(W〜i〜| C〜i〜)=(W〜i〜がC〜i〜に現れるインスタンスの数)/(C〜i〜が現れるインスタンスの数)(3)*