データマイニング-マイニングWorld Wide Web

World Wide Webには、データマイニングの豊富なソースを提供する大量の情報が含まれています。

Webマイニングの課題

ウェブは、次の観察に基づいてリソースと知識の発見に大きな課題をもたらします-

ウェブが大きすぎる-ウェブのサイズは非常に大きく、急速に増加しています。これは、データウェアハウジングやデータマイニングにはWebが大きすぎるようです。
* Webページの複雑さ*-Webページには統一構造がありません。従来のテキストドキュメントと比較して、非常に複雑です。 Webのデジタルライブラリには膨大な量のドキュメントがあります。これらのライブラリは、特定の並べ替え順序に従って配置されていません。
ウェブは動的な情報ソース-ウェブ上の情報は急速に更新されます。ニュース、株式市場、天気、スポーツ、ショッピングなどのデータは定期的に更新されます。
ユーザーコミュニティの多様性-Web上のユーザーコミュニティは急速に拡大しています。これらのユーザーには、さまざまな背景、関心、および使用目的があります。インターネットに接続されているワークステーションが1億台以上あり、急速に増加しています。
情報の関連性-特定の人は一般にウェブのごく一部にしか関心がないと考えられますが、ウェブの残りの部分にはユーザーに関係のない情報が含まれており、望ましい結果が得られる可能性があります。

マイニングWebページのレイアウト構造

Webページの基本構造は、ドキュメントオブジェクトモデル（DOM）に基づいています。 DOM構造は、ページ内のHTMLタグがDOMツリー内のノードに対応する構造のようなツリーを指します。 HTMLで事前定義されたタグを使用して、Webページをセグメント化できます。 HTML構文は柔軟であるため、WebページはW3C仕様に準拠していません。 W3Cの仕様に従わないと、DOMツリー構造でエラーが発生する場合があります。

DOM構造は、Webページのセマンティック構造の説明ではなく、ブラウザでの表示用に最初に導入されました。 DOM構造は、Webページのさまざまな部分間の意味関係を正しく識別できません。

ビジョンベースのページセグメンテーション（VIPS）

VIPSの目的は、視覚的な表示に基づいてWebページのセマンティック構造を抽出することです。
このようなセマンティック構造は、ツリー構造に対応しています。このツリーでは、各ノードはブロックに対応しています。
値は各ノードに割り当てられます。この値は、コヒーレンス度と呼ばれます。この値は、視覚に基づいてブロック内の一貫したコンテンツを示すために割り当てられます。
VIPSアルゴリズムは、最初にHTML DOMツリーからすべての適切なブロックを抽出します。その後、これらのブロック間のセパレータを見つけます。
セパレータは、視覚的にブロックなしで交差するWebページの水平線または垂直線を指します。
Webページのセマンティクスは、これらのブロックに基づいて構築されます。

次の図は、VIPSアルゴリズムの手順を示しています-

VIPS

Data-mining-dm-mining-www

目次

データマイニング-マイニングWorld Wide Web

Webマイニングの課題

マイニングWebページのレイアウト構造

ビジョンベースのページセグメンテーション（VIPS）