Python-text-processing-python-corpora-access
提供:Dev Guides
Python-コーパスアクセス
コーパスは、テキストドキュメントの複数のコレクションを提示するグループです。 単一のコレクションはコーパスと呼ばれます。 そのような有名なコーパスの1つは、http://www.gutenberg.org/でホストされている約25,000の無料の電子書籍を含むGutenberg Corpusです。 以下の例では、コーパスからファイル名が.txtで終わるプレーンテキストであるファイルのみの名前にアクセスします。
上記のプログラムを実行すると、次の出力が得られます-
生テキストへのアクセス
nltkでも使用できるsent_tokenize関数を使用して、これらのファイルから生のテキストにアクセスできます。 以下の例では、ブレイクポエンテキストの最初の2つの段落を取得します。
上記のプログラムを実行すると、次の出力が得られます-