Data-mining-dm-issues

提供:Dev Guides
移動先:案内検索

データマイニング-問題

データマイニングは簡単なタスクではありません。使用されるアルゴリズムは非常に複雑になる可能性があり、データは常に1か所で利用できるとは限りません。 さまざまな異種データソースから統合する必要があります。 これらの要因もいくつかの問題を引き起こします。 ここでこのチュートリアルでは、に関する主要な問題について説明します-

  • マイニング方法論とユーザーインタラクション
  • パフォーマンスの問題
  • 多様なデータ型の問題

次の図は、主要な問題を説明しています。

データマイニングの問題

マイニング手法とユーザーインタラクションの問題

それは次の種類の問題を指します-

  • データベースでさまざまな種類の知識をマイニング-さまざまなユーザーがさまざまな種類の知識に興味を持っている場合があります。 したがって、データマイニングでは、広範な知識発見タスクをカバーする必要があります。
  • 複数レベルの抽象化での知識のインタラクティブマイニング-データマイニングプロセスは、ユーザーがパターンの検索に集中できるようにするため、インタラクティブである必要があり、返された結果に基づいてデータマイニングリクエストを提供および調整します
  • 背景知識の組み込み-発見プロセスを導き、発見されたパターンを表現するために、背景知識を使用できます。 背景知識を使用して、発見されたパターンを簡潔な用語だけでなく、複数の抽象化レベルで表現することもできます。
  • データマイニングクエリ言語とアドホックデータマイニング-ユーザーがアドホックマイニングタスクを記述できるデータマイニングクエリ言語は、データウェアハウスクエリ言語と統合し、効率的で柔軟なデータマイニングのために最適化する必要があります。
  • データマイニング結果のプレゼンテーションと視覚化-パターンが見つかったら、高レベルの言語と視覚的表現で表現する必要があります。 これらの表現は簡単に理解できるはずです。
  • ノイズのあるデータや不完全なデータの処理-データの規則性をマイニングしながらノイズや不完全なオブジェクトを処理するには、データクリーニング方法が必要です。 データクリーニング方法が存在しない場合、検出されたパターンの精度は低くなります。
  • パターン評価-発見されたパターンは、一般的な知識を表しているか、新規性に欠けているため、興味深いはずです。

パフォーマンスの問題

次のようなパフォーマンス関連の問題がある可能性があります-

  • データマイニングアルゴリズムの効率とスケーラビリティ-データベース内の大量のデータから情報を効果的に抽出するには、データマイニングアルゴリズムが効率的でスケーラブルでなければなりません。
  • 並列、分散、インクリメンタルマイニングアルゴリズム-データベースの巨大なサイズ、データの広範囲な分散、データマイニング手法の複雑さなどの要因により、並列および分散データマイニングアルゴリズムの開発が促進されます。 これらのアルゴリズムは、データをパーティションに分割し、さらに並列処理されます。 次に、パーティションからの結果がマージされます。 増分アルゴリズムは、データをゼロから再度マイニングせずにデータベースを更新します。

多様なデータ型の問題

  • リレーショナルおよび複雑なタイプのデータの処理-データベースには、複雑なデータオブジェクト、マルチメディアデータオブジェクト、空間データ、時間データなどが含まれる場合があります。 1つのシステムでこれらすべての種類のデータをマイニングすることはできません。
  • 異種データベースおよびグローバル情報システムからのマイニング情報-データは、LANまたはWANのさまざまなデータソースで利用可能です。 これらのデータソースは、構造化、半構造化、または非構造化のいずれでもかまいません。 したがって、それらから知識をマイニングすると、データマイニングに課題が追加されます。