Data-mining-dm-dti
提供:Dev Guides
データマイニング-デシジョンツリーの誘導
決定木は、ルートノード、ブランチ、およびリーフノードを含む構造です。 各内部ノードは属性のテストを示し、各ブランチはテストの結果を示し、各リーフノードはクラスラベルを保持します。 ツリーの最上位ノードはルートノードです。
次の決定ツリーは、企業の顧客がコンピューターを購入する可能性が高いかどうかを示す概念buy_computer用です。 各内部ノードは、属性のテストを表します。 各リーフノードはクラスを表します。
決定木を持つことの利点は次のとおりです-
- ドメインに関する知識は必要ありません。
- 理解するのは簡単です。
- 決定木の学習と分類の手順は簡単で高速です。
決定木誘導アルゴリズム
Jという名前の機械研究者 Ross Quinlanは1980年にID3(Iterative Dichotomiser)として知られる決定木アルゴリズムを開発しました。 その後、彼はID3の後継であるC4.5を発表しました。 ID3とC4.5は貪欲なアプローチを採用しています。 このアルゴリズムでは、バックトラックはありません。ツリーは、トップダウンの再帰的な分割統治方式で構築されます。
木の剪定
ツリーの枝刈りは、ノイズまたは異常値によるトレーニングデータの異常を除去するために実行されます。 剪定された木は小さく、複雑ではありません。
ツリーの剪定アプローチ
木を剪定するには2つのアプローチがあります-
- 事前剪定-ツリーは、その構築を早期に停止することにより剪定されます。
- ポストプルーニング-このアプローチは、完全に成長したツリーからサブツリーを削除します。
コストの複雑さ
コストの複雑さは、次の2つのパラメータによって測定されます-
- ツリーの葉の数、および
- ツリーのエラー率。