Mean-median-and-mode-finding-outliers-in-data-set

提供:Dev Guides
移動先:案内検索

データセット内の外れ値を見つける

前書き

外れ値は、残りの数値のパターンに適合しないデータポイントです。 これらは、データセット内の非常に高い値または非常に低い値です。

外れ値を見つける簡単な方法は、データセットの数値を調べることです。 ほとんどの数値は範囲を中心にクラスター化されており、一部の数値は他の数値と比べて低すぎるか、高すぎることがわかります。 このような数値は外れ値と呼ばれます。

外れ値のその他の定義

残りのデータから明確に分離されたデータポイント。 外れ値の1つの定義は、最初の四分位より下または3番目の四分位より上の1.5四分位範囲(IQR)を超えるデータポイントです。 四分位範囲(IQR)は、データセットの3番目と4番目の四分位数の差です。

例1

データ0、2、5、6、9、12、35の外れ値を見つけます。

溶液

特定のデータセットについて、次の5つの数字の要約があります。

最小= 0

最初の四分位数= 2

中央値= 6

3番目の四分位数= 12

最大= 35

IQR = 12 – 2 = 10、したがって1.5・IQR = 15。

外れ値があるかどうかを判断するには、1.5・IQRまたは四分位数を超えた15の数値を考慮する必要があります。

最初の四分位– 1.5・IQR = 2 – 15 = –13

3番目の四分位+ 1.5・IQR = 12 + 15 = 27

35は–13〜27の間隔外にあるため、このデータセットでは35が外れ値です。

例2

以下の特定のデータセットで外れ値を見つけます。

28、26、29、30、81、32、37

溶液

ステップ1:

指定されたセットの他の番号と異なるデータは81です

ステップ2:

したがって、このデータセットの外れ値は81です

実施例3

以下の特定のデータセットで外れ値を見つけます。

16、14、3、12、15、17、22、15、52

溶液

ステップ1:

指定されたセットの他の番号と異なるデータは52です

ステップ2:

したがって、このデータセットの外れ値は52です