Python-text-processing-introduction

提供:Dev Guides
移動先:案内検索

Python-テキスト処理の紹介

テキスト処理は、NLPとも呼ばれる自然言語処理に直接適用されます。 NLPは、人間が相互に通信する際に、人間が話したり書いたりした言語を処理することを目的としています。 これは、コミュニケーションが人間によって書かれたコンピュータープログラムや、ある位置でマウスをクリックするような人間による何らかのジェスチャで枯渇する、コンピューターと人間との間のコミュニケーションとは異なります。 NLPは、人間が話す自然言語を理解し、分類し、必要に応じて分析します。 Pythonには、NLPのニーズに応える豊富なライブラリセットがあります。 Natural Language Tool Kit(NLTK)は、NLPに必要な機能を提供するこのようなライブラリのスイートです。

以下は、NLPと間接的にpythonのNLTKを使用するアプリケーションです。

要約

多くの場合、ニュース記事、映画のプロット、または大話の概要を取得する必要があります。 それらはすべて人間の言語で書かれており、NLPがなければ、そのような要約の別の人間の解釈と提示に頼らなければなりません。 しかし、NLPの助けを借りて、NLTKを使用するプログラムを作成し、最終出力で必要なテキストの割合など、さまざまなパラメーターを使用して長いテキストを要約したり、要約などのために肯定語と否定語を選択したりできます。 オンラインニュースフィードは、このような要約手法に基づいてニュースの洞察を提供します。

音声ベースのツール

リンゴSiriやAmazon Alexaなどの音声ベースのツールは、NLPに依存して人間との怒りの相互作用を理解しています。 彼らは、人間からの質問や命令を解釈して処理するために、単語、文章、文法の大きなトレーニングデータセットを持っています。 音声に関するものですが、間接的にテキストに翻訳され、音声から得られたテキストがNLPシステムを介して結果を生成します。

情報抽出

Webスクラップは、Pythonコードを使用してWebページからデータを抽出する一般的な例です。 ここでは厳密にNLPベースではないかもしれませんが、テキスト処理が含まれます。 たとえば、htmlページに存在するヘッダーのみを抽出する必要がある場合、ページ構造内でh1タグを探し、それらのタグ間のみでテキストを抽出する方法を見つけます。 これには、Pythonのテキスト処理プログラムが必要です。

スパムフィルタリング

電子メール内のスパムは、件名行とメッセージの内容のテキストを分析することで識別および排除できます。 通常、スパムメールは多くの受信者に大量に送信されるため、件名と内容にわずかな違いがあったとしても、それらを一致およびタグ付けしてスパムとしてマークすることができます。再びNLTKライブラリを使用する必要があります。

言語翻訳

コンピューター化された言語翻訳は、NLPに大きく依存しています。 オンラインプラットフォームで使用される言語が増えるにつれて、ある言語から別の言語への翻訳を自動化することが必要になります。 これには、翻訳に関係する言語の語彙、文法、コンテキストのタグ付けを処理するプログラミングが含まれます。 この場合も、NLTKを使用してこのような要件を処理します。

感情分析

映画のパフォーマンスに対する全体的な反応を調べるには、視聴者からの何千ものフィードバック投稿を読む必要があります。 しかし、これも、単語と文の分析を通じて肯定的フィードバックと否定的フィードバックの分類を使用することで自動化できます。 そして、肯定的および否定的なレビューの頻度を測定して、視聴者の全体的な感情を見つけます。 これは明らかに聴衆によって書かれた人間の言語の分析を必要とし、NLTKはここでテキストを処理するために頻繁に使用されます。