AI-自然言語処理

自然言語処理（NLP）は、英語などの自然言語を使用してインテリジェントシステムと通信するAIメソッドを指します。

ロボットなどのインテリジェントシステムを指示どおりに実行する場合、対話ベースの臨床エキスパートシステムなどから決定を聞きたい場合などには、自然言語の処理が必要です。

NLPの分野では、コンピューターが人間が使用する自然言語で有用なタスクを実行できるようにします。 NLPシステムの入力と出力はすることができます-

スピーチ
書面

NLPのコンポーネント

与えられたようにNLPの2つのコンポーネントがあります-

自然言語理解（NLU）

理解には次のタスクが含まれます-

自然言語で与えられた入力を有用な表現にマッピングします。
言語のさまざまな側面の分析。

自然言語生成（NLG）

それは、内部表現から自然言語の形で意味のあるフレーズや文を生成するプロセスです。

それが含まれます-

テキスト計画-それは知識ベースから関連コンテンツを取得することを含みます。
文の計画-必要な単語の選択、意味のあるフレーズの形成、文の調子の設定が含まれます。
テキストの実現-文プランを文構造にマッピングしています。

NLUはNLGよりも困難です。

NLUの問題

NLは非常に豊富な形式と構造を持っています。

とてもあいまいです。あいまいさのさまざまなレベルがあります-

字句の曖昧さ-単語レベルなどの非常に原始的なレベルです。
たとえば、「ボード」という単語を名詞または動詞として扱いますか？
構文レベルのあいまいさ-文はさまざまな方法で解析できます。
たとえば、「彼は赤い帽子でカブトムシを持ち上げました。」-彼はカブトムシを持ち上げるためにキャップを使用しましたか、または彼は赤い帽子のカブトムシを持ち上げましたか？
参照曖昧さ-代名詞を使用して何かを指す。たとえば、リマはガウリに行きました。彼女は言った、「私は疲れています。」-正確に誰が疲れていますか？
1つの入力は異なる意味を意味する場合があります。
多くの入力が同じことを意味する場合があります。

NLPの用語

音韻-それは体系的に音を整理する研究です。
形態-それは、原始的な意味のある単位からの単語の構成の研究です。
形態素-言語の意味の原始単位です。
構文-それは文を作るために単語を配置することを指します。また、文およびフレーズ内の単語の構造的な役割を決定することも含まれます。
セマンティクス-単語の意味と、単語を組み合わせて意味のあるフレーズと文にする方法に関する。
Pragmatics -さまざまな状況での文の使用と理解、および文の解釈への影響を扱います。
談話-直前の文が次の文の解釈にどのように影響するかを扱います。
世界の知識-世界に関する一般的な知識が含まれています。

NLPの手順

一般的な5つのステップがあります-

字句解析-単語の構造の特定と分析が含まれます。言語の辞書とは、ある言語の単語や語句の集合を意味します。字句解析は、txtのチャンク全体を段落、文、および単語に分割します。
構文解析（構文解析）-文法のための文中の単語の分析と、単語間の関係を示す方法での単語の配置が含まれます。「The school goes to boy」などの文は、英語の構文解析ツールによって拒否されます。

NLPステップ

セマンティック分析-テキストから正確な意味または辞書の意味を引き出します。テキストの意味がチェックされます。これは、タスクドメイン内の構文構造とオブジェクトをマッピングすることにより行われます。セマンティックアナライザーは、「ホットアイスクリーム」などの文を無視します。
談話の統合-文の意味は、直前の文の意味に依存します。また、すぐに続く文の意味ももたらします。
Pragmatic Analysis -この間、言われたことは実際に何を意味していたかを再解釈します。それには、実世界の知識を必要とする言語の側面を導き出すことが含まれます。

構文解析の実装の側面

構文解析のために研究者が開発した多くのアルゴリズムがありますが、次の単純な方法のみを考慮します-

文脈自由文法
トップダウンパーサー

それらを詳細に見てみましょう-

文脈自由文法

書き換えルールの左側に単一のシンボルを持つルールで構成される文法です。文を解析するための文法を作成しましょう-

「鳥は穀物をつつく」

記事（DET） − a | |その

名詞-鳥|鳥|穀物|穀類

名詞句（NP）-記事＆plus;名詞|記事＆plus;形容詞＆plus;名詞

DET N | DET ADJ N

動詞-ペック|つつく|くちばし

動詞句（VP）-NP V | V NP

形容詞（ADJ）-美しい|小さい|チャープ

構文解析ツリーは、コンピューターが簡単に理解して処理できるように、文を構造化された部分に分解します。解析アルゴリズムがこの解析ツリーを構築するには、どのツリー構造が正当であるかを記述する一連の書き換えルールを構築する必要があります。

これらの規則は、特定のシンボルが他のシンボルのシーケンスによってツリー内で展開される可能性があることを示しています。一次論理規則によれば、名詞句（NP）と動詞句（VP）の2つの文字列がある場合、NPにVPが続く文字列は文になります。文の書き換えルールは次のとおりです-

*S→NP VP*

*NP→DET N | DET ADJ N*

*VP→V NP*

レキソコン-

DET→a |その

ADJ→美しい|止まる

N→鳥|鳥|穀物|穀類

V→ペック|ペック|つつく

解析ツリーは次のように作成できます-

NLPステップ

次に、上記の書き換えルールを検討します。 Vは「ペック」または「ペック」の両方で置き換えることができるため、「鳥が穀物をつつく」などの文は誤って許可される可能性があります。 i. e. 件名と動詞の合意の誤りは正しいものとして承認されます。

メリット-文法の最も単純なスタイル、したがって広く使用されているもの。

デメリット-

彼らは非常に正確ではありません。たとえば、「穀物は鳥をつつく」は構文解析的に正しい構文ですが、それが意味をなさない場合でも、構文解析はそれを正しい文と見なします。
高精度を引き出すには、複数の文法セットを準備する必要があります。単数形と複数形のバリエーション、受動文などを解析するために、まったく異なるルールのセットが必要になる場合があり、管理できない巨大なルールのセットが作成される可能性があります。

トップダウンパーサー

ここでは、パーサーはS記号で始まり、それが完全に終端記号で構成されるまで、入力文の単語のクラスに一致する一連の_終端記号_に書き換えようとします。

これらは入力文でチェックされ、一致するかどうかが確認されます。そうでない場合、プロセスは異なるルールのセットで再度開始されます。これは、文の構造を記述する特定のルールが見つかるまで繰り返されます。

メリット-実装は簡単です。