Natural-language-processing-natural-language-discourse-processing

提供:Dev Guides
移動先:案内検索

自然言語の談話処理

AIの最も難しい問題は、コンピューターで自然言語を処理することです。つまり、「自然言語処理」は人工知能の最も難しい問題です。 NLPの主要な問題について話すと、NLPの主要な問題の1つは談話処理です。つまり、発話がどのように結合して*コヒーレントな談話*を形成するかの理論とモデルを構築することです。 実際、この言語は、映画のような孤立した無関係な文章ではなく、常に同じ場所に配置され、構造化され、一貫した文章のグループで構成されています。 これらの一貫した文のグループは、談話と呼ばれます。

コヒーレンスの概念

一貫性と談話の構造は、多くの方法で相互接続されています。 Coherenceは、適切なテキストのプロパティとともに、自然言語生成システムの出力品質を評価するために使用されます。 ここで生じる質問は、テキストが一貫しているとはどういう意味ですか? 新聞のすべてのページから1つの文を収集したと仮定すると、それは談話になりますか? もちろん違います。 これは、これらの文が一貫性を示さないためです。 コヒーレントな談話は、次の特性を持っている必要があります-

発話間の一貫性関係

談話は、発話間に意味のあるつながりがあれば一貫しています。 このプロパティは、コヒーレンス関係と呼ばれます。 たとえば、発話間のつながりを正当化するためには、何らかの説明が必要です。

エンティティ間の関係

談話を首尾一貫させるもう1つの特性は、エンティティと特定の種類の関係が存在する必要があることです。 このような種類の一貫性は、エンティティベースの一貫性と呼ばれます。

談話構造

談話に関する重要な質問は、談話がどのような構造を持たなければならないかです。 この質問に対する答えは、談話に適用したセグメンテーションに依存します。 談話のセグメンテーションは、大規模な談話の構造のタイプを決定することとして定義できます。 談話セグメンテーションを実装することは非常に困難ですが、*情報検索、テキスト要約、および情報抽出*種類のアプリケーションにとって非常に重要です。

談話セグメンテーションのアルゴリズム

このセクションでは、談話セグメンテーションのアルゴリズムについて学習します。 アルゴリズムは以下に説明されています-

教師なし談話セグメンテーション

教師なし談話セグメンテーションのクラスは、しばしば線形セグメンテーションとして表されます。 例の助けを借りて、線形セグメンテーションのタスクを理解できます。 この例では、テキストを複数段落単位に分割するタスクがあります。単位は元のテキストのパッセージを表します。 これらのアルゴリズムは、特定の言語デバイスを使用してテキスト単位を結合することとして定義される結合に依存しています。 一方、レキシコンの凝集度は、同義語の使用のように、2つの単位で2つ以上の単語間の関係によって示される凝集度です。

教師あり談話セグメンテーション

以前の方法には、手でラベル付けされたセグメント境界はありません。 一方、教師付き談話セグメンテーションには、境界ラベル付きのトレーニングデータが必要です。 同じものを入手するのは非常に簡単です。 監督された談話セグメンテーションでは、談話マーカーまたは手がかり語が重要な役割を果たす。 談話マーカーまたは手がかり語は、談話構造を示すように機能する単語またはフレーズです。 これらの談話マーカーはドメイン固有です。

テキストの一貫性

語彙の繰り返しは談話の構造を見つける方法ですが、一貫した談話であるという要件を満たしていません。 一貫性のある談話を実現するには、具体的に一貫性の関係に焦点を当てる必要があります。 私たちが知っているように、コヒーレンス関係は、談話における発話間の可能な接続を定義します。 ヘブは次のような関係を提案しています-

私たちは2つの関連する文の意味を表すために2つの用語* S〜0〜 S〜1〜*を取っています-

結果

用語* S〜0〜によってアサートされた状態が、 S〜1〜*によってアサートされた状態を引き起こす可能性があると推測されます。 たとえば、2つのステートメントが関係の結果を示しています。ラムが火災に巻き込まれました。 彼の皮膚は火傷した。

説明

  • S〜1〜によってアサートされた状態が、 S〜0〜*によってアサートされた状態を引き起こす可能性があると推測されます。 たとえば、2つのステートメントは関係を示しています-RamはShyamの友人と戦った。 彼は酔っていた。

平行

  • S〜0〜のアサーションからp(a1、a2、…)を、アサーション S〜1〜*からp(b1、b2、…)を推測します。 ここで、aiとbiはすべてのiで類似しています。 たとえば、2つのステートメントは平行です-Ramは車を望んでいました。 シャムはお金が欲しかった。

精緻化

  • S〜0〜 S〜1〜*の両方のアサーションから同じ命題Pを推測します。たとえば、2つのステートメントは関係の詳細を示しています。ラムはチャンディーガル出身です。 シャムはケララ出身でした。

行事

  • S〜0〜のアサーションから状態の変化を推測できる場合に発生し、その最終状態は S〜1〜*から推測でき、その逆も同様です。 たとえば、2つのステートメントは関係の機会を示しています。Ramは本を取り上げました。 彼はそれをシャムに渡しました。

階層的談話構造の構築

談話全体の一貫性は、一貫性関係間の階層構造によっても考慮することができます。 たとえば、次の文章は階層構造として表すことができます-

  • * S〜1〜*-ラムはお金を預けるために銀行に行きました。
  • * S〜2〜*-その後、彼は電車でシャムの布屋に行きました。
  • * S〜3〜*-彼はいくつかの服を買いたかった。
  • * S〜4〜*-彼はパーティー用の新しい服を持っていません。
  • * S〜5〜*-彼はまた、彼の健康についてシャムと話をしたかった

階層的談話構造の構築

基準解像度

談話からの文章の解釈は別の重要なタスクであり、これを達成するには、誰またはどのエンティティが話しているのかを知る必要があります。 ここでは、解釈参照が重要な要素です。 *参照*は、エンティティまたは個人を示す言語表現として定義できます。 たとえば、[。underline] #Ram#、[。underline] #ABC bank#のマネージャーのパッセージでは、ショップで[.underline]#his#の友人Shyamを見ました。 [.underline]#He#は彼に会いに行きました。Ram、His、Heなどの言語表現は参考です。

同じメモで、*参照解決*は、どの言語表現によってどのエンティティが参照されるかを決定するタスクとして定義できます。

参照解決で使用される用語

私たちは、参照解決で次の用語を使用します-

  • 参照式-参照の実行に使用される自然言語式は、参照式と呼ばれます。 たとえば、上記で使用されているパッセージは参照表現です。
  • Referent -参照されるのはエンティティです。 たとえば、最後に挙げた例では、Ramが指示対象です。
  • Corefer -2つの式が同じエンティティを参照するために使用される場合、それらはコアファーと呼ばれます。 たとえば、 _ Ram_ および he はコアファーです。
  • 前件-この用語には、別の用語を使用するライセンスがあります。 たとえば、 _ Ram_ は参照 he の前件です。
  • Anaphora&Anaphoric -文に以前に導入されたエンティティへの参照として定義される場合があります。 そして、参照表現は照応と呼ばれます。
  • 談話モデル-談話で参照されたエンティティの表現とそれらが関与している関係を含むモデル。

参照式の種類

さまざまな種類の参照式を見てみましょう。 参照式の5つのタイプは以下に説明されています-

不定名詞句

そのような種類の参照は、聞き手にとって談話コンテキストに新しいエンティティを表します。 たとえば、Ramはある日、食べ物を持ってきようとして文を回しましたが、一部は不明確な参照です。

定名詞句

上記とは反対に、そのような種類の参照は、談話の文脈において聞き手にとって新規または識別できないエンティティを表します。 たとえば、「The Times of India-The Times of India」という文章はよく参照されています。

代名詞

これは、明確な参照の形式です。 たとえば、ラムはできる限り大声で笑った。 単語 he は代名詞参照表現を表します。

デモンストレーション

これらは、単純な定代名詞とは異なる動作を示します。 たとえば、これとそれは実証代名詞です。

お名前

これは、参照式の最も単純なタイプです。 個人、組織、および場所の名前でもかまいません。 たとえば、上記の例では、Ramは名前を参照する式です。

参照解決タスク

2つの参照解決タスクについて以下に説明します。

相互参照解決

これは、同じエンティティを参照するテキスト内の参照式を見つけるタスクです。 簡単に言えば、コアファー表現を見つけるタスクです。 相互参照式のセットは、相互参照チェーンと呼ばれます。 たとえば、彼、チーフマネージャー、および彼-これらは、例として示した最初の文章の参照表現です。

相互参照解決の制約

英語では、共参照解決の主な問題は代名詞です。 この背後にある理由は、代名詞に多くの用途があることです。 たとえば、彼と彼女のように参照できます。 代名詞は、特定のものを指さないものも指します。 たとえば、雨が降っています。 本当にいいですね。

代名詞照応の解決

共参照解決とは異なり、代名詞照応解決は、単一の代名詞の先行詞を見つけるタスクとして定義できます。 たとえば、代名詞は彼であり、代名詞照応の解決のタスクは、ラムが前件であるため、ラムという単語を見つけることです。