導航:首頁 > 數據分析 > 如何評判數據異常

如何評判數據異常

發布時間:2023-01-27 09:40:13

① 如何判別測量數據中是否有異常值

一般異常值的檢測方法有基於統計的方法,基於聚類的方法,以及一些專門檢測異常值的方法等,下面對這些方法進行相關的介紹。

1. 簡單統計

如果使用pandas,我們可以直接使用describe()來觀察數據的統計性描述(只是粗略的觀察一些統計量),不過統計數據為連續型的,如下:

df.describe()紅色箭頭所指就是異常值。

以上是常用到的判斷異常值的簡單方法。下面來介紹一些較為復雜的檢測異常值演算法,由於涉及內容較多,僅介紹核心思想,感興趣的朋友可自行深入研究。

4. 基於模型檢測

這種方法一般會構建一個概率分布模型,並計算對象符合該模型的概率,把具有低概率的對象視為異常點。如果模型是簇的集合,則異常是不顯著屬於任何簇的對象;如果模型是回歸時,異常是相對遠離預測值的對象。

離群點的概率定義:離群點是一個對象,關於數據的概率分布模型,它具有低概率。這種情況的前提是必須知道數據集服從什麼分布,如果估計錯誤就造成了重尾分布。

比如特徵工程中的RobustScaler方法,在做數據特徵值縮放的時候,它會利用數據特徵的分位數分布,將數據根據分位數劃分為多段,只取中間段來做縮放,比如只取25%分位數到75%分位數的數據做縮放。這樣減小了異常數據的影響。

優缺點:(1)有堅實的統計學理論基礎,當存在充分的數據和所用的檢驗類型的知識時,這些檢驗可能非常有效;(2)對於多元數據,可用的選擇少一些,並且對於高維數據,這些檢測可能性很差。

5. 基於近鄰度的離群點檢測

統計方法是利用數據的分布來觀察異常值,一些方法甚至需要一些分布條件,而在實際中數據的分布很難達到一些假設條件,在使用上有一定的局限性。

確定數據集的有意義的鄰近性度量比確定它的統計分布更容易。這種方法比統計學方法更一般、更容易使用,因為一個對象的離群點得分由到它的k-最近鄰(KNN)的距離給定。

需要注意的是:離群點得分對k的取值高度敏感。如果k太小,則少量的鄰近離群點可能導致較低的離群點得分;如果K太大,則點數少於k的簇中所有的對象可能都成了離群點。為了使該方案對於k的選取更具有魯棒性,可以使用k個最近鄰的平均距離。

優缺點:(1)簡單;(2)缺點:基於鄰近度的方法需要O(m2)時間,大數據集不適用;(3)該方法對參數的選擇也是敏感的;(4)不能處理具有不同密度區域的數據集,因為它使用全局閾值,不能考慮這種密度的變化。

5. 基於密度的離群點檢測

從基於密度的觀點來說,離群點是在低密度區域中的對象。基於密度的離群點檢測與基於鄰近度的離群點檢測密切相關,因為密度通常用鄰近度定義。一種常用的定義密度的方法是,定義密度為到k個最近鄰的平均距離的倒數。如果該距離小,則密度高,反之亦然。另一種密度定義是使用DBSCAN聚類演算法使用的密度定義,即一個對象周圍的密度等於該對象指定距離d內對象的個數。

優缺點:(1)給出了對象是離群點的定量度量,並且即使數據具有不同的區域也能夠很好的處理;(2)與基於距離的方法一樣,這些方法必然具有O(m2)的時間復雜度。對於低維數據使用特定的數據結構可以達到O(mlogm);(3)參數選擇是困難的。雖然LOF演算法通過觀察不同的k值,然後取得最大離群點得分來處理該問題,但是,仍然需要選擇這些值的上下界。

6. 基於聚類的方法來做異常點檢測

基於聚類的離群點:一個對象是基於聚類的離群點,如果該對象不強屬於任何簇,那麼該對象屬於離群點。

離群點對初始聚類的影響:如果通過聚類檢測離群點,則由於離群點影響聚類,存在一個問題:結構是否有效。這也是k-means演算法的缺點,對離群點敏感。為了處理該問題,可以使用如下方法:對象聚類,刪除離群點,對象再次聚類(這個不能保證產生最優結果)。

優缺點:(1)基於線性和接近線性復雜度(k均值)的聚類技術來發現離群點可能是高度有效的;(2)簇的定義通常是離群點的補,因此可能同時發現簇和離群點;(3)產生的離群點集和它們的得分可能非常依賴所用的簇的個數和數據中離群點的存在性;(4)聚類演算法產生的簇的質量對該演算法產生的離群點的質量影響非常大。

7. 專門的離群點檢測

其實以上說到聚類方法的本意是是無監督分類,並不是為了尋找離群點的,只是恰好它的功能可以實現離群點的檢測,算是一個衍生的功能。

② 如何判定溫度列數據中的缺失值和異常值

可以通過數據清洗與整理來判斷,具體方法如下:
數據清洗:當發現數據中的缺失與異常值時進行數據處理。
第一步:檢查原表——先檢查原表是否是同樣的數據
第二步:確認問題——檢查此數據是如何收集而來,和業務團隊確認
第三步:數據清洗——從技術角度評估該數據是否缺失/異常,以及如何進行處理
1、遇到數據缺失時,可以依次思考以下問題:缺失的信息來自於哪個數據表?在原表中它們也是缺失的嗎?如果在原表也缺失,那麼是否是有收集信息的疏漏?
當判定該數據為缺失值時,往往會通過python等工具進行缺失值填充
數據整理:為了能夠進一步進行數據分析,將進行數據整理環節。
1、對數據進行統一的格式化和命名規則處理
2、對某些信息進行重新編碼以滿足後續分析需求。

③ 如何通過計算方差來判斷數據波動是否異常

計算公式如下:

1、方差公式:

方差的概念:

方差是在概率論和統計方差衡量隨機變數或一組數據時離散程度的度量。概率論中方差用來度量隨機變數和其數學期望(即均值)之間的偏離程度。統計中的方差(樣本方差)是每個樣本值與全體樣本值的平均數之差的平方值的平均數。在許多實際問題中,研究方差即偏離程度有著重要意義。

方差是衡量源數據和期望值相差的度量值。

④ 如何判別測量數據中是否有異常值


異常值outlier:指樣本中的個別值,其數值明顯偏離它(或他們)所屬樣本的其餘觀測值,也稱異常數據,離群值。

目前人們對異常值的判別與剔除主要採用物理判別法和統計判別法兩種方法。

所謂物理判別法就是根據人們對客觀事物已有的認識,判別由於外界干擾、人為誤差等原因造成實測數據值偏離正常結果,在實驗過程中隨時判斷,隨時剔除。

統計判別法是給定一個置信概率,並確定一個置信限,凡超過此限的誤差,就認為它不屬於隨機誤差范圍,將其視為異常值剔除。當物理識別不易判斷時,一般採用統計識別法。

對於多次重復測定的數據值,異常值常用的統計識別與剔除法有:

拉依達准則法(3δ):簡單,無需查表。測量次數較多或要求不高時用。是最常用的異常值判定與剔除准則。但當測量次數《=10次時,該准則失效。

如果實驗數據值的總體x是服從正態分布的,則

式中,μ與σ分別表示正態總體的數學期望和標准差。此時,在實驗數據值中出現大於μ+3σ或小於μ—3σ數據值的概率是很小的。因此,根據上式對於大於μ+3σ或小於μ—3σ的實驗數據值作為異常值,予以剔除。具體計算方法參見http://202.121.199.249/foundrymate/lessons/data-analysis/13/131.htm
在這種情況下,異常值是指一組測定值中與平均值的偏差超過兩倍標准差的測定值。與平均值的偏差超過三倍標准差的測定值,稱為高度異常的異常值。在處理數據時,應剔除高度異常的異常值。異常值是否剔除,視具體情況而定。在統計檢驗時,指定為檢出異常值的顯著性水平α=0.05,稱為檢出水平;指定為檢出高度異常的異常值的顯著性水平α=0.01,稱為舍棄水平,又稱剔除水平(reject level)。
標准化數值(Z-score)可用來幫助識別異常值。Z分數標准化後的數據服從正態分布。因此,應用Z分數可識別異常值。我們建議將Z分數低於-3或高於3的數據看成是異常值。這些數據的准確性要復查,以決定它是否屬於該數據集。

肖維勒准則法(Chauvenet):經典方法,改善了拉依達准則,過去應用較多,但它沒有固定的概率意義,特別是當測量數據值n無窮大時失效。
狄克遜准則法(Dixon):對數據值中只存在一個異常值時,效果良好。擔當異常值不止一個且出現在同側時,檢驗效果不好。尤其同側的異常值較接近時效果更差,易遭受到屏蔽效應。
羅馬諾夫斯基(t檢驗)准則法:計算較為復雜。
格拉布斯准則法(Grubbs):和狄克遜法均給出了嚴格的結果,但存在狄克遜法同樣的缺陷。朱宏等人採用數據值的中位數取代平均值,改進得到了更為穩健的處理方法。有效消除了同側異常值的屏蔽效應。國際上常推薦採用格拉布斯准則法。

⑤ 怎麼對統計數據的異常值進行判斷和處理

異常值也稱離群值,具體地說,判斷標准依據實際情況,根據業務知識及實際需要而定。

上界=75%分位數+(75%分位數-25%分位數)*1.5

下界=25%分位數- (75%分位數-25%分位數)*1.5

比上界大的和比下界小的都是異常值。

(5)如何評判數據異常擴展閱讀:

取檢出水平α為5%,剔除水平α』為1%,按雙側情形檢驗,從附表中查得檢出水平α對應格拉布斯檢驗臨界值G0.975,剔除水平α』對應格拉布斯檢驗臨界值G0.995。

若Gn>Gn』,且Gn>G0.975,則判斷fn為異常值,否則,判斷無異常值;

若Gn>Gn』,且Gn>G0.995,則判斷fn為高度異常值,可考慮剔除;

若Gn』>Gn,且Gn』>G0.975,則判斷f1為異常值,否則,判斷無異常值;

若Gn』>Gn,且Gn』>G0.995,則判斷f1為高度異常值,可考慮剔除;

⑥ 如何用演算法判斷裝置運行狀態異常

用演算法判斷裝置運行狀態異常分四步。
第一步:找出異常點。需要建立數據異常、設備異常的一套演算法,聽著好像很難,實際非常簡單,無非就是讓專家腦袋裡面的東西,變成「大於號、小於號」的計算機語言,反復的微調,做出一套適合區域內的演算法,給出懷疑的點。第二步:定位造成異常的原因。比如數據異常是某某零件故障,導致怎麼滴怎麼滴。第三步:關聯對應的法條。第四步:網眼大小問題。網眼越大,能處罰的就多,網眼越小,普適性的問題就越多。不同行業需要不同的規則。

⑦ 如何檢測業務數據中的異常

在回彈法檢測砼強度中,按批抽樣檢測的測區數量往往很多,這就不可避免出現較多的檢測異常值,怎樣判斷和處理這些異常值,對於提高檢測結果的准確性意義重大。格拉布斯檢驗法是土木工程中常用的一種檢驗異常值的方法,其應用於回彈法檢測砼強度,能有效提高按批抽樣檢測結果的准確性。

與如何評判數據異常相關的資料

熱點內容
dcm格式文件能發給醫聖嗎 瀏覽:998
ps文件大卡頓是顯卡問題嗎 瀏覽:616
win7可以用win10易升嗎 瀏覽:56
企業qq營銷qq區別 瀏覽:322
parallels10安裝win10 瀏覽:410
程序員看什麼書 瀏覽:481
聊城織夢網站怎麼加登錄頁面 瀏覽:547
北京宏岸圖升網路技術有限公司上海分公司 瀏覽:825
手機中無用的文件夾有哪些 瀏覽:535
品管文件名 瀏覽:940
蘋果用一個id通話記錄 瀏覽:417
文件名前綴 瀏覽:998
w10網路撥號651錯誤代碼 瀏覽:801
大數據進階書籍 瀏覽:948
家裡兩台電腦怎麼傳文件 瀏覽:305
網路機頂盒怎麼接電腦 瀏覽:951
文件管理文件夾 瀏覽:891
iphone怎麼存文件 瀏覽:201
linux查找復制文件 瀏覽:631
蘋果系統酷狗文件路徑 瀏覽:269

友情鏈接