NLP-言語リソース

この章では、自然言語処理の言語リソースについて学習します。

コーパス

コーパスは、自然なコミュニケーション設定で作成された機械可読テキストの大規模で構造化されたセットです。その複数形はコーパスです。それらは、元々は電子的なテキスト、話し言葉の写し、光学式文字認識など、さまざまな方法で導き出すことができます。

コーパスデザインの要素

言語は無限ですが、コーパスのサイズは有限でなければなりません。コーパスのサイズが有限であるためには、適切なコーパス設計を確保するために、幅広いテキストタイプをサンプリングして比例的に含める必要があります。

コーパス設計のいくつかの重要な要素について学びましょう-

コーパス代表

代表性は、コーパス設計の決定的な特徴です。 LeechとBiberの2人の偉大な研究者による次の定義は、コーパスの代表性を理解するのに役立ちます-

* Leech（1991）によれば、*「コーパスは、その内容に基づいた調査結果を当該言語の多様性に一般化できる場合に、表現すべき言語の多様性を表すと考えられています」。
* Biber（1993）によれば、*「代表性とは、サンプルに母集団の変動の全範囲が含まれる程度のことです」。

このようにして、コーパスの代表性は次の2つの要因によって決定されると結論付けることができます-

バランス-ジャンルの範囲はコーパスに含まれます
サンプリング-各ジャンルのチャンクの選択方法。

コーパスバランス

コーパス設計のもう1つの非常に重要な要素は、コーパスバランスです。コーパスに含まれるジャンルの範囲です。一般的なコーパスの代表性は、コーパスのバランスに依存することをすでに研究しています。バランスのとれたコーパスは、言語の代表であると想定される広範囲のテキストカテゴリをカバーします。私たちには、バランスに関する信頼できる科学的尺度はありませんが、この懸念には最良の推定と直観が機能します。言い換えれば、受け入れられたバランスは、その意図された用途によってのみ決定されると言えます。

サンプリング

コーパス設計のもう1つの重要な要素はサンプリングです。コーパスの代表性とバランスは、サンプリングと非常に密接に関連しています。それが、コーパス構築においてサンプリングが避けられないと言える理由です。

* Biber（1993）*によれば、「コーパスを構築する際の最初の考慮事項のいくつかは、設計全体に関係します。たとえば、含まれるテキストの種類、テキストの数、特定のテキストの選択、テキスト内、およびテキストサンプルの長さ。これらのそれぞれは、意識的であろうとなかろうと、サンプリングの決定を伴います。」

代表的なサンプルを取得している間、我々は以下を考慮する必要があります-

サンプリングユニット-それはサンプルを必要とするユニットを指します。たとえば、書かれたテキストの場合、サンプリング単位は新聞、ジャーナル、または本です。
サンプリングフレーム-すべてのサンプリング単位のリストは、サンプリングフレームと呼ばれます。
人口-それはすべてのサンプリングユニットのアセンブリと呼ばれることがあります。言語の生産、言語の受容、または製品としての言語の観点から定義されています。

コーパスサイズ

コーパス設計のもう1つの重要な要素は、そのサイズです。コーパスの大きさはどれくらいですか？この質問に対する具体的な答えはありません。コーパスのサイズは、それが意図されている目的だけでなく、次のようないくつかの実用的な考慮事項に依存します-

ユーザーから予想されるクエリの種類。
データを調査するためにユーザーが使用する方法論。
データのソースの可用性。

技術の進歩に伴い、コーパスのサイズも大きくなります。次の比較表は、コーパスサイズの仕組みを理解するのに役立ちます-

Year	Name of the Corpus	Size (in words)
1960s - 70s	Brown and LOB	1 Million words
1980s	The Birmingham corpora	20 Million words
1990s	The British National corpus	100 Million words
Early 21^st century	The Bank of English corpus	650 Million words

以降のセクションでは、コーパスのいくつかの例を見ていきます。

TreeBank Corpus

構文的または意味的な文構造に注釈を付ける、言語的に解析されたテキストコーパスとして定義できます。ジェフリーリーチは「ツリーバンク」という用語を作り出しました。これは、文法分析を表す最も一般的な方法がツリー構造によることを表します。一般に、ツリーバンクはコーパスの上部に作成されます。コーパスには、品詞タグがすでに付けられています。

TreeBankコーパスの種類

セマンティックツリーバンクと構文ツリーバンクは、言語学で最も一般的な2つのタイプのツリーバンクです。これらのタイプについてさらに学びましょう-

セマンティックツリーバンク

これらのツリーバンクは、文の意味構造の正式な表現を使用しています。それらは意味表現の深さが異なります。ロボットコマンドTreebank、Geoquery、Groningen Meaning Bank、RoboCup Corpusは、セマンティックツリーバンクの例の一部です。

構文ツリーバンク

セマンティックツリーバンクとは反対に、構文ツリーバンクシステムへの入力は、解析されたツリーバンクデータの変換から得られた形式言語の表現です。このようなシステムの出力は、意味表現に基づく述語論理です。これまで、さまざまな言語のさまざまな構文ツリーバンクが作成されてきました。たとえば、 Penn Arabic Treebank、Columbia Arabic Treebank は、アラビア語で作成された構文ツリーバンクです。 Sininca 中国語で作成された構文ツリーバンク。 Lucy、Susane 、および BLLIP WSJ 英語で作成された構文コーパス。

TreeBank Corpusのアプリケーション

以下はTreeBanksのアプリケーションの一部です-

計算言語学

計算言語について話す場合、TreeBanksの最適な使用法は、品詞タガー、パーサー、セマンティックアナライザー、機械翻訳システムなどの最先端の自然言語処理システムを設計することです。

コーパス言語学

コーパス言語学の場合、ツリーバンクの最適な使用法は、構文現象を研究することです。

理論言語学と心理言語学

理論および心理言語学におけるツリーバンクの最適な使用は、相互作用の証拠です。

PropBank Corpus

より具体的に「提案銀行」と呼ばれるPropBankはコーパスであり、言葉の命題とその議論で注釈が付けられています。コーパスは動詞指向のリソースです。ここでの注釈は、構文レベルにより密接に関連しています。コロラド大学ボルダー大学言語学科のマーサ・パーマーらが開発しました。 PropBankという用語は、命題とその引数で注釈が付けられたコーパスを指す一般的な名詞として使用できます。

自然言語処理（NLP）では、PropBankプロジェクトが非常に重要な役割を果たしました。セマンティックロールのラベル付けに役立ちます。

VerbNet（VN）

VerbNet（VN）は、その内容に関するセマンティック情報と構文情報の両方を組み込んだ、英語で存在する階層的なドメインに依存しない最大の字句リソースです。 VNは、WordNet、Xtag、FrameNetなどの他の語彙リソースへのマッピングを持つ、広範囲の動詞語彙です。クラスメンバー間の構文的および意味的一貫性を実現するためのサブクラスの改良および追加により、レビンクラスを拡張する動詞クラスに編成されます。

各VerbNet（VN）クラスには以下が含まれます-

一連の構文記述または構文フレーム

推移的、非推移的、前置詞句、結果格、および素質の交替の大規模なセットなどの構造の引数構造の可能な表面実現を描写するため。

アニメーション、人間、組織などのセマンティック記述のセット

制約のために、引数によって許可された主題の役割のタイプ、およびさらなる制限が課される場合があります。これは、主題の役割に関連付けられる可能性が高い構成要素の構文上の性質を示すのに役立ちます。

WordNet

Princetonが作成したWordNetは、英語の語彙データベースです。これはNLTKコーパスの一部です。 WordNetでは、名詞、動詞、形容詞、副詞は Synsets と呼ばれる認知同義語のセットにグループ化されます。すべてのシンセットは、概念とセマンティックおよび語彙の関係の助けを借りてリンクされています。その構造により、自然言語処理（NLP）に非常に役立ちます。

情報システムでは、ワードセンスの曖昧性解消、情報検索、自動テキスト分類、機械翻訳などのさまざまな目的でWordNetが使用されます。 WordNetの最も重要な用途の1つは、単語間の類似性を見つけることです。このタスクのために、PerlのSimilarity、PythonのNLTK、JavaのADWなどのさまざまなパッケージにさまざまなアルゴリズムが実装されています。

Natural-language-processing-linguistic-resources

目次