Natural-language-toolkit-word-replacement
自然言語ツールキット-単語の置き換え
ステミングと見出し語化は、一種の言語学的圧縮と見なすことができます。 同じ意味で、単語の置換はテキストの正規化またはエラー修正と考えることができます。
しかし、なぜ単語の置換が必要なのでしょうか。 トークン化について話すとすると、収縮に関する問題(できない、できないなど)があるとします。 したがって、そのような問題を処理するには、単語の置換が必要です。 たとえば、収縮を拡張された形式に置き換えることができます。
正規表現を使用した単語の置換
最初に、正規表現に一致する単語を置き換えます。 しかし、これには正規表現とpython reモジュールの基本的な理解が必要です。 以下の例では、収縮を拡張された形式に置き換えます(例: 「できない」は「できない」に置き換えられます)、すべて正規表現を使用します。
例
まず、正規表現を使用するために必要なパッケージreをインポートします。
次に、次のように選択した置換パターンを定義します-
今、単語を置き換えるために使用できるクラスを作成します-
このpythonプログラム(たとえばrepRE.py)を保存し、pythonコマンドプロンプトから実行します。 実行後、単語を置換したい場合はREReplacerクラスをインポートします。 方法を見てみましょう。
完全な実装例
上記のプログラムを保存して実行したら、クラスをインポートして次のように使用できます-
出力
テキスト処理前の置き換え
自然言語処理(NLP)で作業する際の一般的な方法の1つは、テキスト処理の前にテキストをクリーンアップすることです。 この問題については、テキスト処理の前の準備段階として、前の例で上で作成した REReplacer クラスを使用することもできます。 トークン化。
例
上記のPythonレシピでは、正規表現置換を使用した場合と使用しない場合の単語トークナイザーの出力の違いを簡単に理解できます。
繰り返し文字の削除
私たちは日常の言語で厳密に文法的になっていますか? ちがうよ。 たとえば、「こんにちは」という言葉を強調するために「Hiiiiiiiiiiii Mohan」と書くことがあります。 しかし、コンピュータシステムは、「Hiiiiiiiiiiii」が単語「Hi」のバリエーションであることを認識していません。 以下の例では、 rep_word_removal という名前のクラスを作成します。これは、繰り返し単語を削除するために使用できます。
例
まず、正規表現を使用するために必要なパッケージreをインポートします
ここで、繰り返し単語を削除するために使用できるクラスを作成します-
このpythonプログラム(たとえば、removerepeat.py)を保存し、pythonコマンドプロンプトから実行します。 それを実行した後、繰り返し単語を削除したいときに Rep_word_removal クラスをインポートします。 方法を見てみましょうか?
完全な実装例
上記のプログラムを保存して実行したら、クラスをインポートして次のように使用できます-