Data-mining-dm-mining-text-data
データマイニング-テキストデータのマイニング
テキストデータベースは、膨大なドキュメントのコレクションで構成されています。 ニュース記事、書籍、デジタルライブラリ、電子メールメッセージ、Webページなどのいくつかのソースからこれらの情報を収集します。 情報量の増加により、テキストデータベースは急速に成長しています。 多くのテキストデータベースでは、データは半構造化されています。
たとえば、ドキュメントには、タイトル、作成者、publishing_dateなどのいくつかの構造化フィールドが含まれる場合があります。 ただし、構造データに加えて、ドキュメントには、抽象やコンテンツなどの非構造化テキストコンポーネントも含まれています。 文書に何が含まれているかを知らなければ、データから有用な情報を分析および抽出するための効果的なクエリを作成することは困難です。 ユーザーは、ドキュメントを比較し、その重要性と関連性をランク付けするツールを必要とします。 そのため、テキストマイニングが普及し、データマイニングの重要なテーマになりました。
情報検索
情報検索では、多数のテキストベースのドキュメントから情報を検索します。 データベースシステムの一部は、通常、情報検索システムには存在しません。これは、両方が異なる種類のデータを処理するためです。 情報検索システムの例が含まれます-
- オンライン図書館目録システム
- オンライン文書管理システム
- ウェブ検索システムなど
注-情報検索システムの主な問題は、ユーザーのクエリに基づいてドキュメントコレクション内の関連ドキュメントを見つけることです。 この種のユーザーのクエリは、情報のニーズを説明するいくつかのキーワードで構成されています。
このような検索の問題では、ユーザーはイニシアチブを取り、関連する情報をコレクションから引き出します。 これは、ユーザーがアドホックな情報のニーズ、つまり短期的なニーズがある場合に適しています。 しかし、ユーザーが長期的な情報を必要としている場合、検索システムはイニシアチブを取り、新しく到着した情報アイテムをユーザーにプッシュすることもできます。
この種類の情報へのアクセスは、情報フィルタリングと呼ばれます。 対応するシステムは、フィルタリングシステムまたはレコメンダーシステムとして知られています。
テキスト検索の基本的な手段
ユーザーの入力に基づいて多数のドキュメントを取得する場合、システムの精度を確認する必要があります。 クエリに関連するドキュメントのセットを\ {Relevant}と表示し、取得したドキュメントのセットを\ {Retrieved}と表示します。 関連して取得されるドキュメントのセットは、\ {Relevant}∩\ {Retrieved}として示されます。 これは、次のようにベン図の形で示すことができます-
テキスト検索の品質を評価するための3つの基本的な尺度があります-
- 精度
- 想起
- Fスコア
精度
精度とは、クエリに実際に関連する検索されたドキュメントの割合です。 精度は次のように定義できます-
Precision= |{Relevant} ∩ {Retrieved}|/ |{Retrieved}|
想起
リコールは、クエリに関連し、実際に取得されたドキュメントの割合です。 リコールは次のように定義されます-
Recall = |{Relevant} ∩ {Retrieved}|/ |{Relevant}|
Fスコア
Fスコアは一般的に使用されるトレードオフです。 情報検索システムは、しばしば精度とその逆のトレードオフが必要です。 Fスコアは、次のようにリコールまたは精度の調和平均として定義されています-
F-score = recall x precision/(recall + precision)/2