Mean-median-and-mode-finding-outliers-in-data-set
データセット内の外れ値を見つける
前書き
外れ値は、残りの数値のパターンに適合しないデータポイントです。 これらは、データセット内の非常に高い値または非常に低い値です。
外れ値を見つける簡単な方法は、データセットの数値を調べることです。 ほとんどの数値は範囲を中心にクラスター化されており、一部の数値は他の数値と比べて低すぎるか、高すぎることがわかります。 このような数値は外れ値と呼ばれます。
外れ値のその他の定義
残りのデータから明確に分離されたデータポイント。 外れ値の1つの定義は、最初の四分位より下または3番目の四分位より上の1.5四分位範囲(IQR)を超えるデータポイントです。 四分位範囲(IQR)は、データセットの3番目と4番目の四分位数の差です。
例1
データ0、2、5、6、9、12、35の外れ値を見つけます。
溶液
特定のデータセットについて、次の5つの数字の要約があります。
最小= 0
最初の四分位数= 2
中央値= 6
3番目の四分位数= 12
最大= 35
IQR = 12 – 2 = 10、したがって1.5・IQR = 15。
外れ値があるかどうかを判断するには、1.5・IQRまたは四分位数を超えた15の数値を考慮する必要があります。
最初の四分位– 1.5・IQR = 2 – 15 = –13
3番目の四分位+ 1.5・IQR = 12 + 15 = 27
35は–13〜27の間隔外にあるため、このデータセットでは35が外れ値です。
例2
以下の特定のデータセットで外れ値を見つけます。
28、26、29、30、81、32、37
溶液
ステップ1:
指定されたセットの他の番号と異なるデータは81です
ステップ2:
したがって、このデータセットの外れ値は81です
実施例3
以下の特定のデータセットで外れ値を見つけます。
16、14、3、12、15、17、22、15、52
溶液
ステップ1:
指定されたセットの他の番号と異なるデータは52です
ステップ2:
したがって、このデータセットの外れ値は52です