自然言語処理-はじめに

言語は、話すこと、読むこと、書くことの助けとなるコミュニケーションの方法です。たとえば、自然言語で意思決定や計画などを行うと思います。正確には、言葉で。ただし、このAI時代に直面する大きな問題は、コンピューターと同様の方法で通信できるかどうかです。言い換えれば、人間は自然言語でコンピューターと通信できますか？コンピューターは構造化されたデータを必要とするため、NLPアプリケーションを開発することは私たちにとって挑戦です。しかし、人間の音声は構造化されておらず、しばしば曖昧です。

この意味で、自然言語処理（NLP）はコンピューターサイエンスのサブフィールドであり、特に人工知能（AI）はコンピューターが人間の言語を理解して処理できるようにすることを懸念しています。技術的には、NLPの主なタスクは、膨大な量の自然言語データを分析および処理するコンピューターをプログラムすることです。

NLPの歴史

NLPの歴史は4つのフェーズに分かれています。フェーズには特有の懸念事項とスタイルがあります。

第一段階（機械翻訳段階）-1940年代後半から1960年代後半

このフェーズで行われた作業は、主に機械翻訳（MT）に焦点を合わせていました。この段階は熱意と楽観主義の時代でした。

私たちは今、最初のフェーズに含まれていたすべてを見てみましょう-

NLPの研究は、1949年にブースとリッチンの調査と機械翻訳に関するウィーバーの覚書の後、1950年代初頭に始まりました。
1954年は、ロシア語から英語への自動翻訳に関する限定的な実験がGeorgetown-IBM実験で実証された年でした。
同年、雑誌MT（機械翻訳）の出版が開始されました。
機械翻訳（MT）に関する最初の国際会議は1952年に開催され、2回目は1956年に開催されました。
1961年、言語の機械翻訳と応用言語分析に関するテディントン国際会議で発表された研究は、このフェーズのハイポイントでした。

第2フェーズ（AI影響フェーズ）– 1960年代後半から1970年代後半

この段階で行われた作業は、主に世界の知識と、意味表現の構築と操作におけるその役割に関連していました。そのため、このフェーズはAIフレーバーフェーズとも呼ばれます。

フェーズには、次のものがありました-

1961年初頭に、データまたは知識ベースに対処して構築する問題に関する作業が開始されました。この作品はAIの影響を受けました。
同じ年に、BASEBALL質問応答システムも開発されました。このシステムへの入力は制限されており、関連する言語処理は単純なものでした。
非常に高度なシステムがMinsky（1968）で説明されました。このシステムは、BASEBALL質問応答システムと比較すると、言語入力の解釈と応答における知識ベースの推論の必要性が認識され、提供されました。

第三段階（文法論理段階）– 1970年代後半から1980年代後半

この段階は、文法学的段階と説明できます。最終段階での実用的なシステム構築が失敗したため、研究者はAIの知識表現と推論のためのロジックの使用に移行しました。

第三段階では、次のものがありました-

10年の終わり頃の文法論理アプローチは、SRIのコア言語エンジンや談話表現理論など、より広範な談話に取り組む手段を提供する強力な汎用目的の文処理者に役立ちました。
このフェーズでは、パーサーなどの実用的なリソースとツールを取得しました。 Alvey Natural Language Toolsに加えて、より運用および商用のシステム、たとえばデータベースクエリ用。
1980年代のレキシコンに関する研究は、文法的アプローチの方向性も示しました。

第4フェーズ（語彙およびコーパスフェーズ）– 1990年代

これは語彙とコーパスのフェーズとして説明できます。このフェーズでは、1980年代後半に登場した文法に対する語彙化されたアプローチがあり、影響力が増大しました。言語処理のための機械学習アルゴリズムの導入により、この10年で自然言語処理に革命が起こりました。

人間の言語の研究

言語は人間の生活にとって重要な要素であり、私たちの行動の最も基本的な側面でもあります。私たちは主に2つの形式でそれを体験することができます-書かれたと話された。書面では、知識をある世代から次の世代に伝える方法です。音声形式では、人間が日々の行動で互いに調整することが主要な媒体です。言語はさまざまな学問分野で研究されています。各専門分野には、独自の問題のセットとそれらに対処するためのソリューションのセットが付属しています。

これを理解するために次の表を考慮してください-

Discipline

Problems

Tools

Linguists

How phrases and sentences can be formed with words?

文の可能な意味を抑制するものは何ですか？

a

整形式と意味についての直観。

構造の数学モデル。たとえば、モデル理論理論、形式言語理論。

Psycholinguists

How human beings can identify the structure of sentences?

単語の意味はどのように識別できますか？

理解はいつ行われますか？

a

主に人間のパフォーマンスを測定するための実験技術。

観測の統計分析。

Philosophers

How do words and sentences acquire the meaning?

オブジェクトは単語によってどのように識別されますか？

意味は何ですか？

a

直感を使用した自然言語の論証。

論理やモデル理論などの数学モデル。

Computational Linguists

How can we identify the structure of a sentence

知識と推論はどのようにモデル化できますか？

言語を使用して特定のタスクを達成する方法

a

アルゴリズム

データ構造

表現と推論の正式なモデル。

検索および表現方法などのAIテクニック。

言語のあいまいさと不確実性

一般に自然言語処理で使用されるあいまいさは、複数の方法で理解される能力と呼ばれます。簡単に言えば、あいまいさは複数の方法で理解される能力であると言えます。自然言語は非常に曖昧です。 NLPには、次の種類のあいまいさがあります-

語彙のあいまいさ

単一の単語のあいまいさは、語彙のあいまいさと呼ばれます。たとえば、単語 silver を名詞、形容詞、または動詞として扱う。

構文のあいまいさ

この種のあいまいさは、文がさまざまな方法で解析されるときに発生します。たとえば、「男は望遠鏡で少女を見た」という文。男性が望遠鏡を運んでいる少女を見たのか、彼が望遠鏡を通して彼女を見たのかはあいまいです。

意味的あいまいさ

この種のあいまいさは、単語自体の意味が誤って解釈される可能性がある場合に発生します。言い換えれば、文にあいまいな単語または語句が含まれている場合、意味的なあいまいさが発生します。たとえば、「車が動いている間にポールに衝突した」という文は、「車が動いている間にポールに衝突した」および「車がポールが動いた間にポールに衝突した」と解釈できるため、意味的にあいまいです。

照応のあいまいさ

この種のあいまいさは、談話における照応エンティティの使用により発生します。たとえば、馬は丘を駆け上がった。とても急でした。すぐに疲れました。ここでは、2つの状況での「it」の照応的な参照があいまいさを引き起こしています。

実用的なあいまいさ

このようなあいまいさは、フレーズのコンテキストが複数の解釈を与える状況を指します。簡単な言葉で言えば、文が具体的でない場合に実際的な曖昧さが生じると言うことができます。たとえば、「私もあなたが好き」という文には、私があなたが好きなように（あなたが私のように）、私があなたが好きな（他の人が服用するように）複数の解釈があります。

NLPフェーズ

次の図は、自然言語処理のフェーズまたは論理ステップを示しています-

フェーズまたは論理ステップ

形態学的処理

これは、NLPの最初のフェーズです。このフェーズの目的は、言語入力のチャンクを段落、文、単語に対応するトークンのセットに分割することです。たとえば、 "uneasy" のような単語は、 "un-easy" として2つのサブワードトークンに分割できます。

構文解析

NLPの2番目のフェーズです。このフェーズの目的は2つあります。文が適切に形成されているかどうかを確認し、異なる単語間の構文関係を示す構造に分割することです。たとえば、*“ The school goes to the boy” *のような文は、構文アナライザまたはパーサーによって拒否されます。

意味解析

NLPの3番目のフェーズです。このフェーズの目的は、正確な意味を引き出すことです。または、テキストから辞書の意味を言うことができます。テキストの意味がチェックされます。たとえば、セマンティックアナライザーは、「ホットアイスクリーム」などの文を拒否します。

実用的な分析

NLPの4番目のフェーズです。実用的な分析は、実際のオブジェクト/イベントに単純に適合します。実際のオブジェクト/イベントは、最後のフェーズ（セマンティック分析）で取得したオブジェクト参照を使用して、特定のコンテキストに存在します。たとえば、「バナナを棚のバスケットに入れる」という文には2つの意味解釈があり、実用的なアナライザーはこれらの2つの可能性から選択します。

Natural-language-processing-introduction

目次