1. 什么叫可疑值
可疑值是指在一组测量数据中,个别数据与平均值相差甚远的值。关于可疑值,有以下几点需要注意:
定义:可疑值通常是由于测量误差、仪器故障或其他外部因素导致的,与数据集中其他值相比,它显得异常偏大或偏小。
识别方法:通过观察数据集的分布情况,特别是最小值或最大值,可以初步识别出可疑值。通常,可疑值与数据集中其他值的差异会非常明显。
进一步判断:为了确定可疑值是否为异常值,需要使用统计方法进行分析。例如,可以使用格拉布斯法等方法来计算统计量,并与临界值进行比较,从而判断可疑值是否应从数据集中剔除。
处理:如果经过统计方法判断,可疑值被确定为异常值,那么它应该从数据集中剔除,不再参与后续的平均值计算或其他统计分析。
在处理测量数据时,识别和剔除可疑值是提高数据准确性和可靠性的重要步骤。
2. 什么叫可疑值
在一组测量数据中,如果个别数据与平均值相差甚远,那么我们称之为“可疑值”。如果通过统计方法判定,能够从这组数据中将这个值剔除,不再参与平均值的计算,那么这个值就是“异常值(粗大误差)”。接下来,我们将介绍如何使用格拉布斯法来判断某个“可疑值”是否为“异常值”。
例如,进行10次测量(n=10),得到的数据为8.2、5.4、14.0、7.3、4.7、9.0、6.5、10.1、7.7、6.0。为了便于分析,我们需要将这些数据按从小到大的顺序排列,得到4.7、5.4、6.0、6.5、7.3、7.7、8.2、9.0、10.1、14.0。从排列后的数据中可以明显看出,可疑值通常是数据中的最小值或最大值。
接下来,我们需要计算这组数据的平均值和标准差。计算平均值时,应将所有10个数据点全部包含在内,得出平均值为7.89。而标准差s=2.704,计算时同样要包含所有数据。
然后,我们需要计算各个数据点与平均值之间的偏离值。具体计算方法是,将平均值与最小值之差和最大值与平均值之差进行比较。通过计算得出,平均值与最小值之差为7.89-4.7=3.19;最大值与平均值之差为14.0-7.89=6.11。比较这两个差值,可以发现最大值与平均值之差6.11明显大于平均值与最小值之差3.19,因此可以判断最大值14.0是一个可疑值。
使用格拉布斯法进行进一步分析,可以确定该可疑值是否为异常值。此方法通过计算统计量G,并与临界值进行比较,从而判断可疑值是否应从数据集中剔除。如果G值大于临界值,则该可疑值可以被视为异常值。
以上就是通过格拉布斯法判断可疑值是否为异常值的基本步骤。通过这种方法,我们能够有效地识别并处理测量数据中的异常值,提高测量结果的准确性和可靠性。
3. 可疑数据的处理方法和步骤
在一组条件完全相同的重复试验中,可能会出现个别异常的测量值。这些异常值可能过大或过小,与正常测量数据相比显得不正常,也称为可疑数据。为了判断这些可疑数据的真伪并决定是否保留,可以采用数理统计方法。常用的判别方法包括拉依达法、肖维纳特法(Chavenet)和格拉布斯法(Grubbs)等。
通常以倍标准偏差(3S)作为判断可疑数据取舍的标准。如果某一测量数据(x)与其差值大于3倍标准偏差,即 x > 3S 或 x < -3S,那么该测量数据应该被舍弃。这种方法被美国混凝土标准所采用,并被称为3倍标准偏差法或3S法。其依据是正态分布的统计规律,这样的差异出现的概率很低,大约只有0.27%,即在近400次试验中可能只出现一次,因此被视为小概率事件。在实际操作中,一旦出现这种差异,就认为该数据不可靠,应予以舍弃。
当测量值与平均值之差超过2倍标准偏差(即 |x - x̄| > 2S),则该测量值应保留但需标记为可疑。如果在生产或试验过程中发现有可疑的变异,那么即使测量值在正常范围内,也应该舍弃。
拉依达法操作简便,不需要查表,但其适用条件较为宽松。在试验次数较多或要求不严格的情况下可以使用,而当试验次数较少(n < 10)时,即使在数据集中存在异常值,也可能无法单独舍弃。