導航:首頁 > 數據分析 > 數值型數據有哪些處理方法

數值型數據有哪些處理方法

發布時間:2023-01-21 11:30:57

A. 數值型數據的統計分組方法有哪些

方法:1、品質分組2、數量分組3、等距分組與異距分組 原則: 1.必須堅持組內統計資料的同質性和組間資料的差別性,這是統計分組的一個基本原則:2.必須符合完備性原則,即所謂「窮舉」性。3.必須遵守「互斥性」原則,即總體任一單位都只能歸屬於一組,而不能同時屬於兩個或兩個以上的組。

B. Excel文本型數據轉為數值型數據的解決方法

Excel文本型數據轉為數值型數據小技巧

如果我們在設置成「文本型」的`Excel單元格中輸入數字,那這些文本型的數字就不能作各種排序、求和等函數運算,即使簡單地把單元格格式改成「數值」也無濟於事,這時我們需要把將它們轉換成數值格式。

方法一

在任意一個空白單元格中輸入數值1,選中該單元格,執行復制操作,然後選中需要轉換的單元格(區域),執行「編輯、選擇性粘貼」命令,打開「選擇性粘貼」對話框,選中其中的「乘」選項後,確定返回即可。

以上方法可用於所有版本的Excel中。

方法二

如果你使用的是Excel 2002或Excel 2003,則可選中需要轉換單元格(區域),單元格旁邊會出現一個智能標記,按一下這個智能標記,在隨後彈出的下拉列表中選中「轉換為數字」選項,即可快速完成轉換。

C. 數值型特徵常用的特徵工程方法有哪幾種

數值型特徵常用的特徵工程方法有交叉特徵,離散型變數處理。

交叉特徵算是特徵工程中非常重要的方法之一,它將兩個或更多的類別屬性組合成一個。當組合的特徵要比單個特徵更好時,這是一項非常有用的技術。數學上來說,是對類別特徵的所有值進行交叉相乘。

定義

數據形式在計算機中的表示主要有兩大類:數值型變數和非數值型變數(如,字元、漢字等)。數值型變數指,被人為定義的數字(如整數、小數、有理數等)在計算機中的表示。這種被定義的數據形式可直接載入內存或寄存器進行加、減、乘、除的運算。一般不經過數據類型的轉換,所以運算速度快。具有計算意義。

D. 數值型數據的整理和圖示方法有哪些

對於分類數據: (1)數據的整理方法有列出所分的類別,計算每一類別的頻數、頻率、比例、比率等 (2)圖示方法有條形圖和圓形圖 對於順序數據: (1)數據的整理方法中包括所有的處理分類數據的方法,同時還可以計算累積頻數和累積頻率

E. 特徵工程中數據預處理方法總結

特徵工程

「巧婦難為無米之炊」,在機器學習中,數據和特徵便是「米」,而模型和演算法則是「巧婦」。沒有充足的數據和合適的特徵,再強大的模型也無法擬合出滿意的結果。因此,對於機器學習的問題,常說的一句話是數據和特徵決定了結果的上限,而模型和演算法則是在優化過程中逐步接近這個上限。所以,特徵的處理在整個機器學習過程中佔有舉足輕重的地位,對特徵的處理過程被稱為特徵工程。特徵工程是對原始數據進行一系列的工程處理,將其提煉為特徵,作為輸入工演算法和模型使用。

特徵工程又包含了Data PreProcessing(數據預處理)、Feature Extraction(特徵提取)、Feature Selection(特徵選擇)和Feature construction(特徵構造)等子問題,而數據預處理又包括了數據清洗和特徵預處理等子問題。本文用作總結數據預處理的一系列方法。

1、無量綱化

(1)什麼是無量綱化

為了消除數據特徵之間的量綱影響,我們需要對特徵進行歸一化和標准化處理,使得不同指標之間具有可比性。例如:分析一個人的身高和體重對健康的影響,如果使用米和千克作為單位,那麼身高和體重會處於不同的數值范圍內,體重的數值在量上要遠大於身高,而如果不對其做處理直接用的情況下分析結果顯然會更依賴於數值差別較大的體重特徵。因此,為了得到更為准確的結果,就需要對特徵進行歸一化和標准化處理,使各項指標處於同一數量級,以便進行分析。

(2)無量綱化方法

無量綱化通常也被稱為歸一化或標准化,是因為歸一化和標准化是無量綱化的兩個主要方法

1)歸一化

歸一化是對原始數據進行線性變換, 使結果映射到[0, 1]的范圍, 實現對原始數據的等比縮放。 最常用對的是Min-Max Scaling歸一化方法(也叫極差變換法),公式如下 :

  其中X為原始數據, Xmax、Xmin分別為數據最大值和最小值。最值歸一化的使用范圍是特徵的分布具有明顯邊界的,受outlier的影響比較大。

除此之外,常用的歸一化方法有原始值比最大值。

2)標准化

標准化會將原始數據映射到均值為0、 標准差為1的分布上。常用的方法是零均值標准化(Z-Score Normalization)。 具體來說, 假設原始特徵的均值為μ、 標准差為σ, 那麼歸一化公式定義為 :

零均值標准化適用於數據中沒有明顯的邊界,有可能存在極端數據值的情況。

3)不同的無量綱方法的適用范圍

無量綱化避免了不同量綱的選取對距離計算產生的巨大影響。但是,歸一化和標准化適用於不同的場景,在分類、聚類演算法中,需要使用距離來度量相似性的時候、或者使用PCA技術進行降維的時候,標准化方法表現更好。在不涉及距離度量、協方差計算、數據不符合正太分布的時候,可以使用歸一化方法。比如圖像處理中,將RGB圖像轉換為灰度圖像後將其值限定在[0 255]的范圍。

(3)無量綱化的作用和適用模型

1)作用

無量綱化的作用除了可以使分析結果不明顯傾向於差異化較大的特徵外,另一個重要作用是在隨機梯度下降演算法中,如果對特徵進行了無量綱化處理,會在相同的學習率的情況下減少差異較大的特徵的迭代次數,更快找到最優解。例如,假設有兩種數值型特徵,x1x1的取值范圍為 [0, 10],x2x2的取值范圍為[0, 3]。則在未歸一化和歸一化數據的梯度下降過程分別如下圖:

由圖可以看出,在學習速率相同的情況下,x1相比與x2需要較多的迭代才能找到最優解。但是,如果將 x1 和 x2都映射到到相同的數值區間後, 優化目標的等值圖會變成圓形。x1和 x2 的更新速度變得更為一致, 容易更快地通過梯度下降找到最優解。

2)適用演算法

機器學習中,並不是所有的模型都需要對特徵進行無量綱化處理。比如概率模型並不需要,因為它們不關心變數的值,而是關心變數的分布和變數之間的條件概率。但是,像線性回歸、邏輯回歸和支持向量機以及神經網路模型等則就需要提前進行特徵的無量綱化。從另一個角度來看,通過梯度下降法求解的模型通常需要無量綱化。否則,像決策樹在求解過程中,主要依據特徵值的信息增益比等信息,而這些信息跟特徵是否經過歸一化等無量綱化處理是無關的,因此決策數不要求對特徵進行無量綱化處理。

2、類別型特徵編碼

類別型特徵的值表現為類別變數,類別型變數,也被稱為定性變數(categorical variable)。比如性別、省份、學歷、產品等級等。這類變數的取值通常是用文字而非數字來表示。在機器學習中,除了決策樹族的演算法能直接接受類別型特徵作為輸入,對於支持向量機,邏輯回歸等模型來說,必須對其做一定的處理,轉換成可靠的數值特徵才能正確運行。類別型特徵的處理方法有:

(1)序列編碼(ordinal encoding)

一般處理類別間具有大小關系的數據,例如期末成績的 [A, B, C, D] 四擋可以直接轉化為 [0, 1, 2, 3]。在轉化後,依然保持類別之間的順序關系。

(2)獨熱編碼(one-hot encoding)

序列編碼潛在的定義了類別之間的距離具有相同的含義。以成績為例,兩個人之間,得分A與B的成績差,和B與C的成績差,在進行預測時,是完全等價的,由於 [A, B, C, D] 直觀上與成績正相關,使用序列編碼不會帶來太大的損失。然而在處理像血型這樣的類別特徵時,如果將 [A, B, AB, O] 直接編碼成 [1, 2, 3, 4],顯然A與B和B與AB之間的距離,並不具有相同的含義,甚至是完全抽象的無法理解的意義,此時,序列編碼就不適用了。因此,便出現了獨熱編碼,獨熱編碼將類別特徵用一組比特位來表示,每一位代表一個可能的類別,如果該變數不能一次稱為多個類別,那麼該組中只有一位可以是1。

對於類別取值較多的情況下適用獨熱編碼需要注意以下問題:

1)適用稀疏向量來節省空間。在獨熱編碼下,特徵向量只有某一維取值為1,其他位置取值均為0。因此,可以利用向量的稀疏表示有效節省空間,並且目前大部分的演算法均接受稀疏向量形式的輸入。

2)配合特徵選擇來降低維度。高維度特徵會帶來幾方面的問題,一是在K近鄰演算法中,高維空間下兩點之間的距離很難得到有效的衡量;二是在邏輯回歸模型中,參數的數量會隨著維度的增加而增高,容易引起過擬合問題;三是通常只有部分維度是對分類、預測有幫助,因此可以考慮配合特徵選擇來降低維度。

(3)啞變數(mmy encoding)

啞變數是獨熱編碼的一種形式,onehot編碼的問題是它允許k個自由度,其中變數本身只需要k-1。虛擬編碼通過僅適用表示中的k-1個特徵來消除額外的自由度。

3、數值型特徵離散化

離散化是數值型特徵非常重要的一個處理,其實就是要將數值型數據轉化成類別型數據。連續值的取值空間可能是無窮的,為了便於表示和在模型中處理,需要對連續值特徵進行離散化處理。

(1)無監督方法

1)自定義離散化,根據業務經驗或者常識等自行設定劃分的區間,然後將原始數據歸類到各個區間中。

2)等距化方法,按照相同寬度將數據分成幾等份,其缺點是受到異常值的影響比較大。

3)等頻化方法,將數據分成幾等份,每等份數據裡面的個數是一樣的。

4)聚類離散化

5)二值化方法,設定一個閾值,大於閾值的賦值為1,小於等於閾值的賦值為0。

(2)有監督方法

1)卡方法,自底向上的(即基於合並的)數據離散化方法。它依賴於卡方檢驗:具有最小卡方值的相鄰區間合並在一起,直到滿足確定的停止准則。其基本思想是,對於精確的離散化,相對類頻率在一個區間內應當完全一致。因此,如果兩個相鄰的區間具有非常類似的類分布,則這兩個區間可以合並;否則,它們應當保持分開。而低卡方值表明它們具有相似的類分布。

2)最小熵法,需要使總熵值達到最小,也就是使分箱能夠最大限度地區分因變數的各類別。數據集的熵越低,說明數據之間的差異越小,最小熵劃分就是為了使每箱中的數據具有最好的相似性。給定箱的個數,如果考慮所有可能的分箱情況,最小熵方法得到的箱應該是具有最小熵的分箱。

4、缺失值處理方法

(1)直接刪除

如果在數據集中,只有幾條數據的某幾列中存在缺失值,那麼可以直接把這幾條數據刪除。

(2)均值插補

數據的屬性分為定距型和非定距型。如果缺失值是定距型的,就以該屬性存在值的平均值來插補缺失的值;如果缺失值是非定距型的,就根據統計學中的眾數原理,用該屬性的眾數(即出現頻率最高的值)來補齊缺失的值。

(3)利用同類均值插補

同均值插補的方法都屬於單值插補,不同的是,它用層次聚類模型預測缺失變數的類型,再以該類型的均值插補。

(4)極大似然估計

在缺失類型為隨機缺失的條件下,假設模型對於完整的樣本是正確的,那麼通過觀測數據的邊際分布可以對未知參數進行極大似然估計(Little and Rubin)。

(5)多重插補

多重插補的思想來源於貝葉斯估計,認為待插補的值是隨機的,它的值來自於已觀測到的值。具體實踐上通常是估計出待插補的值,然後再加上不同的雜訊,形成多組可選插補值。根據某種選擇依據,選取最合適的插補值。

F. 數據預處理

在數據挖掘中,海量的原始數據中存在大量不完整(有缺失值)、不一致、有異常的數據,會嚴重影響到數據挖掘建模的執行效果,甚至會導致挖掘結果的偏差,進而數據清洗就變得尤為重要。在數據清洗完成後接著甚至同時進行數據集成、變換、規約等一系列的處理,而整個過程稱之為 數據預處理 。在整個數據挖掘過程中,數據預處理工作大致占據整個過程的 60%
一般來說,數據預處理的主要包括如下內容: 數據清洗、數據集成、數據變換、數據規約。
接下來的內容,我們也是從這幾方面闡述。

常見的缺失值處理方法: 刪除法、替換法、插補法等
(1)、刪除法: 最簡單的缺失值處理方法。從不同角度進行數據處理劃分:

<code>
缺失值的處理
inputfile$date=as.numeric(inputfile$date)#將日期轉換成數值型變數
sub=which(is.na(inputfile$sales))#識別缺失值所在行數
inputfile1=inputfile[-sub,]#將數據集分成完整數據和缺失數據兩部分
inputfile2=inputfile[sub,]
行刪除法處理缺失,結果轉存
result1=inputfile1
</code>
(2)、替換法
一般根據屬性將變數分:數值型和非數值型

在數據挖掘過程中,可能會存在數據分布在不同的數據源中,而這個時候需要將多個數據源合並存放在一個一致的數據存儲(如數據倉庫),整個過程稱之為 數據集成

數據倉庫:
關於數據倉庫構思
漫談數據倉庫之維度建模
漫談數據倉庫之拉鏈表(原理、設計以及在Hive中的實現)

在R中,通過將存儲在兩個數據框中的數據以關鍵字為依據,以行為單位做列向合並,直接通過merge()函數完成。
merge(數據框1,數據框2,by="關鍵字"),而合並後的新數據自動按照關鍵字取值大小升序排列。不過在數據集成過程中存在表達形式不一樣,導致不能直接完成匹配,就需要我們進行加以轉換、提煉、集成等操作。具體從如下幾方面:
(1)、實體識別
從不同數據源識別出現實世界的實體,來完成統一不同源的數據矛盾之處。

實體識別承擔著檢測和解決這些沖突的任務

(2)、冗餘屬性識別

數據變換主要對數據進行規范化處理、連續變數的離散化以及屬性屬性的構造,將數據轉換成「適當的」形式,來滿足挖掘任務及演算法的需要。
(1)、簡單函數變換
對原始數據進行某些數學函數變換,常見平方、開方、取對數、差分運算等等
主要來完成不具有正態分布變換服從正態分布;非平穩序列變為平穩序列等等
(2)、數據規范化
為了清除指標之間的量綱和取值范圍差異的影響,需要進行標准化處理,將數據按照比例進行縮放,使之落入一個特定區域,便於進行綜合分析。
常見方法如下:

<code>
讀取數據
data=read.csv('./data/normalization_data.csv',he=F)
最小-最大規范化
b1=(data[,1]-min(data[,1]))/(max(data[,1])-min(data[,1]))
b2=(data[,2]-min(data[,2]))/(max(data[,2])-min(data[,2]))
b3=(data[,3]-min(data[,3]))/(max(data[,3])-min(data[,3]))
b4=(data[,4]-min(data[,4]))/(max(data[,4])-min(data[,4]))
data_scatter=cbind(b1,b2,b3,b4)
零-均值規范化
data_zscore=scale(data)
小數定標規范化
i1=ceiling(log(max(abs(data[,1])),10))#小數定標的指數
c1=data[,1]/10^i1
i2=ceiling(log(max(abs(data[,2])),10))
c2=data[,2]/10^i2
i3=ceiling(log(max(abs(data[,3])),10))
c3=data[,3]/10^i3
i4=ceiling(log(max(abs(data[,4])),10))
c4=data[,4]/10^i4
data_dot=cbind(c1,c2,c3,c4)
</code>

(3)、連續屬性離散化
在數據的取值范圍內設定若干個離散的劃分點,將取值范圍劃分為不同的離散化的區間,最後使用不同的符號或數值代表落在不同區間的數據值。
常見離散方法:

(4)、屬性構造
利用已有的屬性構造出新的屬性
(5)、小波變換(本次不進行闡述)

數據規約在大數據集上產生更小的且保持原數據完整性的新數據集,提升在數據集合上進行分析和挖掘的效率。
意義如下:

G. 數值型數據的分組方法

數值型數據的分組方法有單變數值分組和組距分組;第一步:確定組距,一般情況下,分組數
據不應少於
5
組且不多於
15
組;第二步:確定各組的組距,第一組的下限應低於最小變數,最後一組的
上限應高於最大變數值;第三步:根據分組整理成頻數分布表。

H. 數據的特徵級處理包括什麼

數據的特徵處理主要有以下幾種方法:
數值型數據:標准縮放
1、歸一化
2、標准化
3、缺失值
類別型數據:one-hot編碼
時間類型:時間的切分
對特徵進行分類,對於不同的特徵應該有不同的處理方法。
根據不同的分類方法,可以將特徵分為
(1)Low level特徵和High level特徵。
Low level特徵——較低級別的特徵,主要是原始特徵,不需要或者需要非常少的人工處理和干預。
(2)穩定特徵與動態特徵。
穩定特徵——變化頻率(更新頻率)較少的特徵
例如評價平均分,團購單價格等,在較長的時間段內都不會發生變化。
動態特徵——更新變化比較頻繁的特徵,有些甚至是實時計算得到的特徵
(3)二值特徵、連續特徵、枚舉特徵。
二值特徵——主要是0/1特徵,即特徵只取兩種值:0或者1

I. 數據處理的基本方法有哪些

典型的計算方法有:1、列表法2、作圖法3、逐差法4、最小二乘法等等

閱讀全文

與數值型數據有哪些處理方法相關的資料

熱點內容
炒股軟體指標編程用的是什麼語言 瀏覽:261
三星美版s6怎麼開網路 瀏覽:197
數據線什麼樣的好 瀏覽:138
怎麼根據ipv4地址算網路地址 瀏覽:48
概率演算法程序集pdf 瀏覽:457
遂平app商城有哪些 瀏覽:693
有哪些語言支持函數式編程範式 瀏覽:960
iphone6plus怎麼充電 瀏覽:939
批量導入word文件製作ppt 瀏覽:676
蘋果6如何跳過id激活 瀏覽:899
文件夾優酷中緩存的視頻找不到 瀏覽:685
成都騰進網路技術有限公司 瀏覽:549
電腦保存文件怎麼發到qq 瀏覽:556
寶寶文件夾圖片 瀏覽:516
蘋果電腦如何剪切文件夾 瀏覽:183
蘋果電腦怎麼拷貝excel文件 瀏覽:260
cf狙擊準星工具 瀏覽:27
西門子數控編程r11r25是什麼意思 瀏覽:574
iphone6怎麼刪除聯系人 瀏覽:643
ipad4刷安卓系統 瀏覽:463

友情鏈接