Natural-language-processing-syntactic-analysis

提供:Dev Guides
移動先:案内検索

自然言語処理-構文解析

構文解析または解析または構文解析は、NLPの3番目のフェーズです。 このフェーズの目的は、正確な意味を引き出すことです。または、テキストから辞書の意味を言うことができます。 構文分析は、正式な文法の規則と比較して、意味のあるテキストをチェックします。 たとえば、「ホットアイスクリーム」などの文は、セマンティックアナライザーによって拒否されます。

この意味で、構文解析または構文解析は、形式文法の規則に準拠した自然言語の記号の文字列を分析するプロセスとして定義できます。 単語 _ ‘parsing’ ' の由来は、ラテン語の単語 ' ‘pars’ ' に由来し、これは ' ‘part’ _ を意味します。

パーサーの概念

解析タスクの実装に使用されます。 入力データ(テキスト)を取得し、正式な文法に従って正しい構文をチェックした後、入力の構造表現を提供するために設計されたソフトウェアコンポーネントとして定義できます。 また、一般に解析ツリーまたは抽象構文ツリーまたはその他の階層構造の形式でデータ構造を構築します。

シンボルテーブル

解析の主な役割は次のとおりです-

  • 構文エラーを報告します。
  • プログラムの残りの処理を続行できるように、一般的に発生するエラーから回復する。
  • 解析ツリーを作成します。
  • シンボルテーブルを作成します。
  • 中間表現(IR)を作成します。

解析の種類

派生は、解析を次の2つのタイプに分割します-

  • トップダウン解析
  • ボトムアップ解析

トップダウン解析

この種の解析では、パーサーは開始シンボルから解析ツリーの構築を開始し、開始シンボルを入力に変換しようとします。 トップダウン解析の最も一般的な形式では、再帰的な手順を使用して入力を処理します。 再帰降下解析の主な欠点は、バックトラッキングです。

ボトムアップ解析

この種の解析では、パーサーは入力シンボルから開始し、開始シンボルまでパーサーツリーを構築しようとします。

派生の概念

入力文字列を取得するには、一連の生産ルールが必要です。 導出は、一連の生産ルールです。 解析中に、非ターミナルを決定する必要があります。非ターミナルは、非ターミナルを置き換えるプロダクションルールを決定するとともに、置き換えられます。

派生のタイプ

このセクションでは、2つのタイプの派生について学習します。これらの派生を使用して、生産ルールで置き換える非ターミナルを決定できます-

左端の派生

左端の派生では、入力の文型がスキャンされ、左から右に置き換えられます。 この場合の文型は、左文型と呼ばれます。

右端の派生

左端の派生では、入力の知覚形式がスキャンされ、右から左に置き換えられます。 この場合の文型は、右文型と呼ばれます。

解析ツリーの概念

これは、派生のグラフィカルな描写として定義できます。 派生の開始記号は、解析ツリーのルートとして機能します。 すべての解析ツリーで、リーフノードはターミナルであり、内部ノードは非ターミナルです。 解析ツリーのプロパティは、順序走査により元の入力文字列が生成されることです。

文法の概念

文法は、整形式プログラムの構文構造を記述するために非常に重要で重要です。 文学的な意味では、自然言語での会話の構文規則を示します。 言語学は、英語、ヒンディー語などの自然言語の始まり以来、文法を定義しようとしました。

形式言語の理論は、主にプログラミング言語とデータ構造のコンピューターサイエンスの分野にも適用できます。 たとえば、「C」言語では、正確な文法規則に、リストとステートメントから関数を作成する方法が記載されています。

文法の数学モデルは1956年に Noam Chomsky によって与えられました。これはコンピューター言語を書くのに効果的です。

数学的には、文法Gは形式的に4タプル(N、T、S、P)として記述できます。

  • N または* V〜N〜* =非終端記号のセット、つまり変数。
  • T または =終端記号のセット。
  • S = S∈Nの開始記号
  • P は、端末および非端末の生産規則を示します。 α→βの形式を持ちます。αとβはV〜N〜on stringsの文字列で、αの少なくとも1つのシンボルはV〜N〜に属します

句構造または構成文法

Noam Chomskyによって導入されたフレーズ構造文法は、選挙区関係に基づいています。 それが選挙区文法とも呼ばれる理由です。 依存関係の文法の反対です。

選挙区の文法の例を与える前に、選挙区の文法と選挙区の関係についての基本的なポイントを知る必要があります。

  • 関連するすべてのフレームワークは、選挙区関係の観点から文構造を表示します。
  • 選挙区関係は、ギリシャ語の文法だけでなく、ラテン語の主語と述語の区分から派生しています。
  • 基本的な句構造は、*名詞句NP *および*動詞句VP *の観点から理解されます。

私たちは文を書くことができます*“このツリーは選挙区関係を示しています” *次のように-

選挙区関係

依存文法

これは、Constituencyの文法の反対であり、依存関係に基づいています。 Lucien Tesniereによって紹介されました。 依存関係文法(DG)は、句節点がないため、構成文法とは反対です。

依存関係の文法の例を与える前に、依存関係の文法と依存関係に関する基本的なポイントを知る必要があります。

  • DGでは、言語単位、つまり単語は、有向リンクによって互いに接続されています。
  • 動詞は、句構造の中心になります。
  • 他のすべての構文単位は、有向リンクの観点から動詞に接続されています。 これらの構文単位は dependencies と呼ばれます。

次の文を書くことができます*「このツリーは依存関係を示しています」*。

依存関係の図解

Constituency文法を使用する解析ツリーは、Constituencyベースの解析ツリーと呼ばれます。依存関係文法を使用する解析ツリーは、依存関係ベースの解析ツリーと呼ばれます。

文脈自由文法

CFGとも呼ばれる文脈自由文法は、言語を記述するための表記法であり、通常の文法のスーパーセットです。 それは次の図に見ることができます-

Context Free Grammar

CFGの定義

CFGは、次の4つのコンポーネントを持つ文法ルールの有限セットで構成されています-

非端末のセット

Vで示されます。 非終端記号は、文法によって生成される文字列のセットを示す構文変数であり、言語の定義にさらに役立ちます。

ターミナルのセット

トークンとも呼ばれ、Σによって定義されます。 文字列は、端末の基本的なシンボルで形成されます。

プロダクションのセット

Pで示されます。 このセットは、端末と非端末を組み合わせる方法を定義します。 すべての製品(P)は、非端末、矢印、および端末(端末のシーケンス)で構成されます。 非端末はプロダクションの左側と呼ばれ、端末はプロダクションの右側と呼ばれます。

開始記号

生産は開始記号から始まります。 記号Sで示されています。 非終端記号は常に開始記号として指定されます。