Python-ストップワードを削除
ストップワードは、文にあまり意味を加えない英語の単語です。 それらは文の意味を犠牲にすることなく無視しても安全です。 たとえば、the、he、haveなどの単語 このような単語は、コーパスという名前のコーパスですでにキャプチャされています。 まず、Python環境にダウンロードします。
英語のストップワードを含むファイルをダウンロードします。
ストップワードの検証
上記のプログラムを実行すると、次の出力が得られます-
[u'your', u'yours', u'yourself', u'yourselves', u'he', u'him', u'his', u'himself', u'she',
u"she's", u'her', u'hers', u'herself', u'it', u"it's", u'its', u'itself', u'they', u'them',
u'their', u'theirs', u'themselves', u'what', u'which', u'who', u'whom', u'this',
u'that', u"that'll", u'these', u'those', u'am', u'is', u'are', u'was', u'were', u'be',
u'been', u'being', u'have', u'has', u'had', u'having', u'do', u'does', u'did', u'doing',
u'a', u'an', u'the', u'and', u'but', u'if', u'or', u'because', u'as', u'until',
u'while', u'of', u'at']
これらのストップワードを持つ英語以外のさまざまな言語は以下のとおりです。
上記のプログラムを実行すると、次の出力が得られます-
例
以下の例を使用して、単語のリストからストップワードがどのように削除されるかを示します。
上記のプログラムを実行すると、次の出力が得られます-