データマイニング-クラスター分析

クラスターは、同じクラスに属するオブジェクトのグループです。つまり、類似したオブジェクトは1つのクラスターにグループ化され、異なるオブジェクトは別のクラスターにグループ化されます。

クラスタリングとは

クラスタリングは、抽象オブジェクトのグループを類似オブジェクトのクラスにするプロセスです。

覚えておくべきポイント

データオブジェクトのクラスターは、1つのグループとして扱うことができます。
クラスター分析を行う際、データの類似性に基づいて最初に一連のデータをグループに分割し、次にグループにラベルを割り当てます。
分類に対するクラスタリングの主な利点は、変更に適応可能であり、さまざまなグループを区別する便利な機能を特定できることです。

クラスター分析の応用

クラスタリング分析は、市場調査、パターン認識、データ分析、画像処理などの多くのアプリケーションで広く使用されています。
クラスタリングは、マーケティング担当者が顧客ベースで異なるグループを発見するのにも役立ちます。また、購入パターンに基づいて顧客グループを特徴付けることができます。
生物学の分野では、植物および動物の分類法を導き出し、同様の機能を持つ遺伝子を分類し、集団に固有の構造に関する洞察を得るために使用できます。
クラスタリングは、地球観測データベースで類似した土地利用の地域の特定にも役立ちます。また、家のタイプ、価値、および地理的位置に応じて、都市内の家のグループを識別するのにも役立ちます。
クラスタリングは、情報発見のためにWeb上のドキュメントを分類するのにも役立ちます。
クラスタリングは、クレジットカード詐欺の検出などの異常値検出アプリケーションでも使用されます。
データマイニング機能として、クラスター分析は、各クラスターの特性を観察するためにデータの分布を洞察するツールとして機能します。

データマイニングにおけるクラスタリングの要件

次の点は、データマイニングでクラスタリングが必要な理由に光を投げかけます-

スケーラビリティ-大規模なデータベースを処理するには、高度にスケーラブルなクラスタリングアルゴリズムが必要です。
さまざまな種類の属性を処理する能力-アルゴリズムは、間隔ベース（数値）データ、カテゴリ、バイナリデータなど、あらゆる種類のデータに適用できる必要があります。
属性形状を持つクラスターの検出-クラスタリングアルゴリズムは、任意の形状のクラスターを検出できる必要があります。それらは、小さなサイズの球状クラスターを見つける傾向がある距離測定のみに限定されるべきではありません。
高次元-クラスタリングアルゴリズムは、低次元データだけでなく高次元空間も処理できる必要があります。
ノイズの多いデータに対処する能力-データベースにはノイズのある、欠落した、または誤ったデータが含まれています。一部のアルゴリズムは、このようなデータに敏感であり、クラスターの品質が低下する可能性があります。
解釈可能性-クラスタリング結果は、解釈可能で、わかりやすく、使用可能である必要があります。

クラスタリング方法

クラスタリング方法は、次のカテゴリに分類することができます-

分割方法
階層的方法
密度ベースの方法
グリッドベースの方法
モデルベースの方法
制約ベースの方法

分割方法

「n」個のオブジェクトのデータベースが与えられ、パーティション化メソッドが「k」個のデータパーティションを構築するとします。各パーティションはクラスターを表し、k≤nです。それは、以下の要件を満たすデータをkグループに分類することを意味します-

各グループには少なくとも1つのオブジェクトが含まれます。
各オブジェクトは、1つのグループに属している必要があります。

覚えておくべきポイント-

所定の数のパーティション（たとえばk）に対して、パーティション方法は初期パーティションを作成します。
次に、オブジェクトをあるグループから別のグループに移動することにより、反復再配置手法を使用してパーティション化を改善します。

階層的な方法

このメソッドは、指定されたデータオブジェクトのセットの階層分解を作成します。階層分解の形成方法に基づいて、階層メソッドを分類できます。ここには2つのアプローチがあります-

凝集的アプローチ
分裂的アプローチ

凝集的アプローチ

このアプローチは、ボトムアップアプローチとも呼ばれます。これでは、各オブジェクトが個別のグループを形成することから始めます。互いに近いオブジェクトまたはグループを結合し続けます。すべてのグループが1つにマージされるまで、または終了条件が保持されるまで、そのようにし続けます。

分裂的アプローチ

このアプローチは、トップダウンアプローチとも呼ばれます。これでは、同じクラスター内のすべてのオブジェクトから始めます。連続反復では、クラスターはより小さなクラスターに分割されます。 1つのクラスター内の各オブジェクトまたは終了条件が保持されるまで停止します。この方法は厳格です。つまり、マージまたは分割が完了すると、元に戻すことはできません。

階層的クラスタリングの品質を改善するアプローチ

階層的クラスタリングの品質を改善するために使用される2つのアプローチを次に示します-

各階層パーティションでオブジェクトリンケージの注意深い分析を実行します。
最初に階層型凝集アルゴリズムを使用してオブジェクトをマイクロクラスターにグループ化し、次にマイクロクラスターでマクロクラスタリングを実行することにより、階層型凝集を統合します。

密度ベースの方法

この方法は、密度の概念に基づいています。基本的な考え方は、近隣の密度がしきい値を超える限り、特定のクラスターの成長を継続することです。つまり、特定のクラスター内の各データポイントについて、特定のクラスターの半径には少なくとも最小数のポイントが含まれている必要があります。

グリッドベースの方法

これで、オブジェクトは一緒にグリッドを形成します。オブジェクト空間は、グリッド構造を形成する有限数のセルに量子化されます。

メリット

この方法の主な利点は、処理時間が速いことです。
量子化された空間の各次元のセルの数のみに依存します。

モデルベースの方法

この方法では、特定のモデルに最適なデータを見つけるために、クラスターごとにモデルが仮定されます。このメソッドは、密度関数をクラスタリングすることによりクラスターを特定します。データポイントの空間分布を反映しています。

この方法は、外れ値やノイズを考慮して、標準統計に基づいてクラスターの数を自動的に決定する方法も提供します。したがって、堅牢なクラスタリング手法が得られます。

制約ベースの方法

この方法では、ユーザーまたはアプリケーション指向の制約を組み込むことにより、クラスタリングが実行されます。制約とは、ユーザーの期待または望ましいクラスタリング結果のプロパティを指します。制約により、クラスタリングプロセスとの対話型の通信方法が提供されます。制約は、ユーザーまたはアプリケーションの要件によって指定できます。

Data-mining-dm-cluster-analysis

目次