Python-text-processing-python-bigrams

提供:Dev Guides
移動先:案内検索

Python-バイグラム

いくつかの英単語はより頻繁に一緒に出現します。 たとえば、Sky High、do or die、最高のパフォーマンス、大雨など。 したがって、テキスト文書では、感情分析に役立つこのような単語のペアを識別する必要があります。 まず、現在のシーケンスを維持する既存の文からそのような単語のペアを生成する必要があります。 このようなペアはバイグラムと呼ばれます。 Pythonには、NLTKライブラリの一部として、これらのペアを生成するのに役立つバイグラム関数があります。

import nltk

word_data = "The best performance can bring in sky high success."
nltk_tokens = nltk.word_tokenize(word_data)

print(list(nltk.bigrams(nltk_tokens)))

上記のプログラムを実行すると、次の出力が得られます-

[('The', 'best'), ('best', 'performance'), ('performance', 'can'), ('can', 'bring'),
('bring', 'in'), ('in', 'sky'), ('sky', 'high'), ('high', 'success'), ('success', '.')]

この結果は、特定のテキスト内のこのようなペアの頻度に関する統計的発見に使用できます。 それは、本文中に存在する説明の一般的な感情と相関します。