1. 調查數據預處理是什麼意思
調查數據預處理是一項重要的數據分析前置工作。它指的是對搜集到的數據進行清洗和整理,以保證數據質量和完整性。該過程包括去重、缺失值處理、異常值處理、標准化、離散化等多個步驟,目的是將原始數據整理為適合分析的格式,方便後續的統計分析和挖掘。
調查數據預處理對於保證分析的准確性和可靠性非常重要。原始數據中可能存在多個問題,比如數據重復、數據缺失、變數缺失值、異常值等問題,如果不進行預處理,可能會影響後續的分析結果。此外,通過數據預處理,可以將數據整理為規范的格式,方便後續數據分析和挖掘。
調查數據預處理一般包括以下幾個步驟:數據清洗、缺失值處理、異常值處理、標准化和離散化。首先,對數據進行清洗,去除不必要的列、行和重復數據。然後,對缺失的數據進行處理,可以採用刪除、填充等方法。對於異常值,可以採用刪除、修正等方式進行處理。接著,進行標准化,使得數據在不同的尺度上具有可比性。最後,進行離散化,將連續型的數據通過劃分成一段的離散區間,方便後續的統計和挖掘。
2. 數據預處理總結
為了使數據更加適合挖掘,需要對數據進行預處理操作,其中包含大量復雜的處理方式: 聚集 , 抽樣 , 維歸納 , 特徵子集選擇 , 特徵創建 , 離散化和二元化 和 變數變換 。
聚集將兩個或多個對象合並成單個對象,如將多張表的數據匯集成一張表,同時起到了范圍或標度轉換的作用。
從統計學的角度來看:相對於被聚集的單個對象,平均值、總數等聚集量有較小的變異性。對於總數,實際變差大於單個對象的(平均)變差,但變差的百分比較小;對於平均值,實際變差小於單個對象的(平均)變差。
聚集的優勢是數據集變小,處理時間變少,使聚集的對象或者屬性群的行為比未聚集前更加穩定。缺點是可能丟失部分細節。
抽樣是一種選擇數據對象自己進行分析的方法,常用語數據的事先調查和最終的數據分析。和統計學中使用抽樣是因為得到感興趣的數據集費用太高、太費時間不同的是,數據挖掘中使用抽樣可以有效的壓縮整體數據量。
有效抽樣的原理是:樣本具有代表性,有原數據集有近似的或相同的性質,這樣使用樣本與整個數據集的效果幾乎一樣。
無樣放回抽樣--每個選中項立即從構成總體的所有對象中刪除。
有放回抽樣--對象被選中時不從總體中刪除。此方法較簡單,原因是抽樣過程中,每個對象被選中的概率是不變的。
在有放回抽樣中,相同的對象可能被多次抽出。當樣本與數據集相差較小時,兩種方法結果差別不太。
當總體由不同類型的對象組成,同時每種類型的對象差別很大時,簡單隨機抽樣不能重返的代表不太頻繁出現的對象類型,尤其是需要分析所有類型的代表時,需要在樣本中適當的提供稀有類以代表不同頻率的抽樣。
等大小抽樣:每個組大小不同,但是每次抽取的對象個數相同。
等比抽樣:每一組抽取的對象數量和該組的大小成正比。
當選定完抽樣技術後,就需要選擇抽樣容量。較大的樣本容量增大了樣本具有代表性的概率。相反,使用較小容量的樣本,可能出現特徵丟失。
合適的樣本容量可能很難確定,因此有時需要使用自適應或者漸進抽樣的方法。這些方法從一個小樣本開始,然後增加樣本容量直至得到足夠容量的樣本。該技術部需要在開始就確定正確的樣本容量,但是需要評估樣本的方法,以確定它是否滿足大。
例如使用漸進抽樣來評估一個預測模型,模型的准確率隨樣本容量的增加而增加,但在某一點的准確率的增加趨於穩定,如果希望在穩定點停止增加樣本容量,就需要掌握模型准去率隨樣本逐漸增大的變化情況並通過選取接近當前容量的其他樣本,從而估計出與穩定點的接近程度,從而停止抽樣。
通過創建新屬性,將一些舊屬性合並在一起來降低數據集的維度。通過選擇舊屬性的子集得到新屬性,這種維規約稱為特徵子集選擇或特徵選擇。
如果維度(數據屬性的個數)較低,許多數據挖掘演算法的效果就會更好,一方面因為可以刪除不相關的特徵並降低雜訊,另一方面是因為維災難(隨數據維度的增加,數據在它所佔據的空間中越來越稀疏,導致分析變得困難,如分類准確率降低,聚類質量下降等)。
讓模型更加容易理解,因為模型可能只涉及較少的屬性。
可以更容易讓數據可視化,即使沒有將數據規約到二維或三維,數據也可以通過觀察屬性或對三元組屬性達到可視化,並且這種組合的數目也會大大減少。
違規約降低了數據挖掘演算法的時間和內存需求。
將高維空間投影到低維空間,特別是對於連續數據。常用的有主成分分析(PCA),它找出新的屬性(主成分),這些屬性是原屬性的線性組合,是相互正交的,並且捕獲了數據的最大變差。奇異值分解(SVD),也常用於維規約,與PCA有關。
降低維度的另一種方法是僅使用特徵的一個子集,在冗餘特徵(重復包含了一個或多個其他屬性中的信息)出現時特別有效。
理想的方法是將所有可能的特徵子集作為感興趣的數據挖掘演算法輸入,然後選取產生最後結果的子集。優點是反應了最終使用的數據挖掘演算法的目的和偏愛,但當涉及N個屬性的自己多達 時,這個方法行不通,需要通過其他三種標準的特徵選擇方法:
嵌入:把特徵選擇的過程與分類器學習的過程融合一起,在學習的過程中進行特徵選擇。常見的使用L1正則化,決策樹和支持向量機等。
過濾:獨立於學習演算法,直接由原始的特徵集合求得。先對數據集進行特徵選擇,排除冗餘無關特徵,得到特徵數據集,然後對其訓練學習器,這兩個過程是獨立的。過濾式特徵選擇演算法會通過數據的本質屬性對所有特徵進行相應的評分,在評價過程中無需分類器完成,在對給出所有特徵賦予相應的評分後,選擇評分高的特徵用於之後的學習演算法中。
單變數過濾式:使用某種評價標准作為度量方式來確定數據集中特徵對類別的區分能力。
多變數過濾式:通過考慮特徵之間的交互作用來確定特徵的重要性。
包裝:與學習演算法有關,利用學習演算法的性能來評價特徵子集的優劣。在特徵選擇的過程中,需要一個分類器,根據分類器性能去衡量特徵子集,分類器有決策樹,近鄰分類器,貝葉斯分類器等。
過濾式演算法簡單高效,但是缺失與模型的交互性;封裝式與模型相結合,結果精確,但是易過擬合;嵌入式有著兩者的優點,但是構造起來比較麻煩。
過濾和包裝組合式:先使用過濾進行特徵選擇,去掉不相關的特徵,降低特徵維度;然後利用包裝進行特徵選擇。
可以由原來的屬性創建新的屬性集,新屬性的數量可能較少,但能更有效的捕獲數據集中的重要信息。
由原始數據集創建新的特徵集稱為特徵提取,一般特徵提取技術都是高度針對具體領域的,也就是當數據挖掘用於一個較新的領域時候,開發新的特徵和提取方法是一個關鍵的任務。
使用一種完全不同的視角挖掘數據可能揭示出重要和有趣的特徵。
如時間序列數據,常常包含周期模式。當只有單個周期時,雜訊不明顯,則容易檢測到該模式;但當有大量周期時,並且存在大量雜訊時,則很難檢測這些模式,此時可以實施傅里葉變換(識別時間序列數據中的基本頻率),將它轉換成頻率信息的表示,就能檢測到這些模式。
有時候原始數據集的特徵具有必要的信息,但其形式不適合數據挖掘演算法,這種情況下,一個或多個由原始特徵構造的新特徵可能比原特徵更有用。
有些數據挖掘演算法,特別是某些分類演算法,要求數據是分類屬性形式。發現關聯模式的演算法要求數據是二元屬性形式。常常需要將連續屬性變換成分類屬性(離散化),並且連續和離散屬性可能都需要變換成一個或多個二元屬性(二元化)。
變數變換(也稱屬性變換)是指用於變數的所有值變換。
參考:
1:《數據挖掘導論》
2: 特徵選擇與特徵子集 - 思想永不平凡