Python-text-processing-python-text-munging

提供:Dev Guides
移動先:案内検索

Python-テキストの変更

一般的にマングとは、厄介なものを変換してクリーンアップすることを意味します。 この場合、テキストを変換して、データに望ましい変更を加える結果を得る方法を確認します。 簡単なレベルでは、扱っているテキストを変換するだけです。

以下の例では、最初と最後の文字を除く文のすべての文字をシャッフルし、再配置して、人間が書いているときにスペルミスの単語として生成される可能性のある代替単語を取得する予定です。 この再配置により、

import random

import re

def replace(t):
    inner_word = list(t.group(2))
    random.shuffle(inner_word)
    return t.group(1) + "".join(inner_word) + t.group(3)
text = "Hello, You should reach the finish line."
print re.sub(r"(\w)(\w+)(\w)", replace, text)

print re.sub(r"(\w)(\w+)(\w)", replace, text)

上記のプログラムを実行すると、次の出力が得られます-

Hlleo, You slouhd raech the fsiinh lnie.
Hlleo, You suolhd raceh the fniish line.

ここでは、最初と最後の文字を除いて、単語がどのように混乱しているのかを見ることができます。 間違ったつづりに対する統計的アプローチをとることにより、一般に誤字となる単語を決定し、それらに正しいつづりを提供できます。