Python-data-science-python-stemming-and-lemmatization
提供:Dev Guides
Python-ステミングと補題
自然言語処理の分野では、2つ以上の単語が共通の語根を持つ状況に遭遇します。 たとえば、同意、同意、同意の3つの単語は、同じ語根が一致します。 これらの単語のいずれかを含む検索では、それらをルート単語である同じ単語として扱う必要があります。 そのため、すべての単語をルート単語にリンクすることが不可欠になります。 NLTKライブラリには、このリンクを実行し、ルートワードを示す出力を提供するメソッドがあります。
以下のプログラムは、ステミングにポーターステミングアルゴリズムを使用しています。
上記のコードを実行すると、次の結果が生成されます。
語彙化は類似した語幹解析ですが、単語のコンテキストをもたらします。 たとえば、段落に車、電車、自動車などの単語がある場合、それらはすべて自動車にリンクされます。 以下のプログラムでは、語彙化にWordNet語彙データベースを使用します。
上記のコードを実行すると、次の結果が生成されます。