1. 什麼叫可疑值
可疑值是指在一組測量數據中,個別數據與平均值相差甚遠的值。關於可疑值,有以下幾點需要注意:
定義:可疑值通常是由於測量誤差、儀器故障或其他外部因素導致的,與數據集中其他值相比,它顯得異常偏大或偏小。
識別方法:通過觀察數據集的分布情況,特別是最小值或最大值,可以初步識別出可疑值。通常,可疑值與數據集中其他值的差異會非常明顯。
進一步判斷:為了確定可疑值是否為異常值,需要使用統計方法進行分析。例如,可以使用格拉布斯法等方法來計算統計量,並與臨界值進行比較,從而判斷可疑值是否應從數據集中剔除。
處理:如果經過統計方法判斷,可疑值被確定為異常值,那麼它應該從數據集中剔除,不再參與後續的平均值計算或其他統計分析。
在處理測量數據時,識別和剔除可疑值是提高數據准確性和可靠性的重要步驟。
2. 什麼叫可疑值
在一組測量數據中,如果個別數據與平均值相差甚遠,那麼我們稱之為「可疑值」。如果通過統計方法判定,能夠從這組數據中將這個值剔除,不再參與平均值的計算,那麼這個值就是「異常值(粗大誤差)」。接下來,我們將介紹如何使用格拉布斯法來判斷某個「可疑值」是否為「異常值」。
例如,進行10次測量(n=10),得到的數據為8.2、5.4、14.0、7.3、4.7、9.0、6.5、10.1、7.7、6.0。為了便於分析,我們需要將這些數據按從小到大的順序排列,得到4.7、5.4、6.0、6.5、7.3、7.7、8.2、9.0、10.1、14.0。從排列後的數據中可以明顯看出,可疑值通常是數據中的最小值或最大值。
接下來,我們需要計算這組數據的平均值和標准差。計算平均值時,應將所有10個數據點全部包含在內,得出平均值為7.89。而標准差s=2.704,計算時同樣要包含所有數據。
然後,我們需要計算各個數據點與平均值之間的偏離值。具體計算方法是,將平均值與最小值之差和最大值與平均值之差進行比較。通過計算得出,平均值與最小值之差為7.89-4.7=3.19;最大值與平均值之差為14.0-7.89=6.11。比較這兩個差值,可以發現最大值與平均值之差6.11明顯大於平均值與最小值之差3.19,因此可以判斷最大值14.0是一個可疑值。
使用格拉布斯法進行進一步分析,可以確定該可疑值是否為異常值。此方法通過計算統計量G,並與臨界值進行比較,從而判斷可疑值是否應從數據集中剔除。如果G值大於臨界值,則該可疑值可以被視為異常值。
以上就是通過格拉布斯法判斷可疑值是否為異常值的基本步驟。通過這種方法,我們能夠有效地識別並處理測量數據中的異常值,提高測量結果的准確性和可靠性。
3. 可疑數據的處理方法和步驟
在一組條件完全相同的重復試驗中,可能會出現個別異常的測量值。這些異常值可能過大或過小,與正常測量數據相比顯得不正常,也稱為可疑數據。為了判斷這些可疑數據的真偽並決定是否保留,可以採用數理統計方法。常用的判別方法包括拉依達法、肖維納特法(Chavenet)和格拉布斯法(Grubbs)等。
通常以倍標准偏差(3S)作為判斷可疑數據取捨的標准。如果某一測量數據(x)與其差值大於3倍標准偏差,即 x > 3S 或 x < -3S,那麼該測量數據應該被舍棄。這種方法被美國混凝土標准所採用,並被稱為3倍標准偏差法或3S法。其依據是正態分布的統計規律,這樣的差異出現的概率很低,大約只有0.27%,即在近400次試驗中可能只出現一次,因此被視為小概率事件。在實際操作中,一旦出現這種差異,就認為該數據不可靠,應予以舍棄。
當測量值與平均值之差超過2倍標准偏差(即 |x - x̄| > 2S),則該測量值應保留但需標記為可疑。如果在生產或試驗過程中發現有可疑的變異,那麼即使測量值在正常范圍內,也應該舍棄。
拉依達法操作簡便,不需要查表,但其適用條件較為寬松。在試驗次數較多或要求不嚴格的情況下可以使用,而當試驗次數較少(n < 10)時,即使在數據集中存在異常值,也可能無法單獨舍棄。