导航:首页 > 数据分析 > 数值型数据有哪些处理方法

数值型数据有哪些处理方法

发布时间:2023-01-21 11:30:57

A. 数值型数据的统计分组方法有哪些

方法:1、品质分组2、数量分组3、等距分组与异距分组 原则: 1.必须坚持组内统计资料的同质性和组间资料的差别性,这是统计分组的一个基本原则:2.必须符合完备性原则,即所谓“穷举”性。3.必须遵守“互斥性”原则,即总体任一单位都只能归属于一组,而不能同时属于两个或两个以上的组。

B. Excel文本型数据转为数值型数据的解决方法

Excel文本型数据转为数值型数据小技巧

如果我们在设置成“文本型”的`Excel单元格中输入数字,那这些文本型的数字就不能作各种排序、求和等函数运算,即使简单地把单元格格式改成“数值”也无济于事,这时我们需要把将它们转换成数值格式。

方法一

在任意一个空白单元格中输入数值1,选中该单元格,执行复制操作,然后选中需要转换的单元格(区域),执行“编辑、选择性粘贴”命令,打开“选择性粘贴”对话框,选中其中的“乘”选项后,确定返回即可。

以上方法可用于所有版本的Excel中。

方法二

如果你使用的是Excel 2002或Excel 2003,则可选中需要转换单元格(区域),单元格旁边会出现一个智能标记,按一下这个智能标记,在随后弹出的下拉列表中选中“转换为数字”选项,即可快速完成转换。

C. 数值型特征常用的特征工程方法有哪几种

数值型特征常用的特征工程方法有交叉特征,离散型变量处理。

交叉特征算是特征工程中非常重要的方法之一,它将两个或更多的类别属性组合成一个。当组合的特征要比单个特征更好时,这是一项非常有用的技术。数学上来说,是对类别特征的所有值进行交叉相乘。

定义

数据形式在计算机中的表示主要有两大类:数值型变量和非数值型变量(如,字符、汉字等)。数值型变量指,被人为定义的数字(如整数、小数、有理数等)在计算机中的表示。这种被定义的数据形式可直接载入内存或寄存器进行加、减、乘、除的运算。一般不经过数据类型的转换,所以运算速度快。具有计算意义。

D. 数值型数据的整理和图示方法有哪些

对于分类数据: (1)数据的整理方法有列出所分的类别,计算每一类别的频数、频率、比例、比率等 (2)图示方法有条形图和圆形图 对于顺序数据: (1)数据的整理方法中包括所有的处理分类数据的方法,同时还可以计算累积频数和累积频率

E. 特征工程中数据预处理方法总结

特征工程

“巧妇难为无米之炊”,在机器学习中,数据和特征便是“米”,而模型和算法则是“巧妇”。没有充足的数据和合适的特征,再强大的模型也无法拟合出满意的结果。因此,对于机器学习的问题,常说的一句话是数据和特征决定了结果的上限,而模型和算法则是在优化过程中逐步接近这个上限。所以,特征的处理在整个机器学习过程中占有举足轻重的地位,对特征的处理过程被称为特征工程。特征工程是对原始数据进行一系列的工程处理,将其提炼为特征,作为输入工算法和模型使用。

特征工程又包含了Data PreProcessing(数据预处理)、Feature Extraction(特征提取)、Feature Selection(特征选择)和Feature construction(特征构造)等子问题,而数据预处理又包括了数据清洗和特征预处理等子问题。本文用作总结数据预处理的一系列方法。

1、无量纲化

(1)什么是无量纲化

为了消除数据特征之间的量纲影响,我们需要对特征进行归一化和标准化处理,使得不同指标之间具有可比性。例如:分析一个人的身高和体重对健康的影响,如果使用米和千克作为单位,那么身高和体重会处于不同的数值范围内,体重的数值在量上要远大于身高,而如果不对其做处理直接用的情况下分析结果显然会更依赖于数值差别较大的体重特征。因此,为了得到更为准确的结果,就需要对特征进行归一化和标准化处理,使各项指标处于同一数量级,以便进行分析。

(2)无量纲化方法

无量纲化通常也被称为归一化或标准化,是因为归一化和标准化是无量纲化的两个主要方法

1)归一化

归一化是对原始数据进行线性变换, 使结果映射到[0, 1]的范围, 实现对原始数据的等比缩放。 最常用对的是Min-Max Scaling归一化方法(也叫极差变换法),公式如下 :

  其中X为原始数据, Xmax、Xmin分别为数据最大值和最小值。最值归一化的使用范围是特征的分布具有明显边界的,受outlier的影响比较大。

除此之外,常用的归一化方法有原始值比最大值。

2)标准化

标准化会将原始数据映射到均值为0、 标准差为1的分布上。常用的方法是零均值标准化(Z-Score Normalization)。 具体来说, 假设原始特征的均值为μ、 标准差为σ, 那么归一化公式定义为 :

零均值标准化适用于数据中没有明显的边界,有可能存在极端数据值的情况。

3)不同的无量纲方法的适用范围

无量纲化避免了不同量纲的选取对距离计算产生的巨大影响。但是,归一化和标准化适用于不同的场景,在分类、聚类算法中,需要使用距离来度量相似性的时候、或者使用PCA技术进行降维的时候,标准化方法表现更好。在不涉及距离度量、协方差计算、数据不符合正太分布的时候,可以使用归一化方法。比如图像处理中,将RGB图像转换为灰度图像后将其值限定在[0 255]的范围。

(3)无量纲化的作用和适用模型

1)作用

无量纲化的作用除了可以使分析结果不明显倾向于差异化较大的特征外,另一个重要作用是在随机梯度下降算法中,如果对特征进行了无量纲化处理,会在相同的学习率的情况下减少差异较大的特征的迭代次数,更快找到最优解。例如,假设有两种数值型特征,x1x1的取值范围为 [0, 10],x2x2的取值范围为[0, 3]。则在未归一化和归一化数据的梯度下降过程分别如下图:

由图可以看出,在学习速率相同的情况下,x1相比与x2需要较多的迭代才能找到最优解。但是,如果将 x1 和 x2都映射到到相同的数值区间后, 优化目标的等值图会变成圆形。x1和 x2 的更新速度变得更为一致, 容易更快地通过梯度下降找到最优解。

2)适用算法

机器学习中,并不是所有的模型都需要对特征进行无量纲化处理。比如概率模型并不需要,因为它们不关心变量的值,而是关心变量的分布和变量之间的条件概率。但是,像线性回归、逻辑回归和支持向量机以及神经网络模型等则就需要提前进行特征的无量纲化。从另一个角度来看,通过梯度下降法求解的模型通常需要无量纲化。否则,像决策树在求解过程中,主要依据特征值的信息增益比等信息,而这些信息跟特征是否经过归一化等无量纲化处理是无关的,因此决策数不要求对特征进行无量纲化处理。

2、类别型特征编码

类别型特征的值表现为类别变量,类别型变量,也被称为定性变量(categorical variable)。比如性别、省份、学历、产品等级等。这类变量的取值通常是用文字而非数字来表示。在机器学习中,除了决策树族的算法能直接接受类别型特征作为输入,对于支持向量机,逻辑回归等模型来说,必须对其做一定的处理,转换成可靠的数值特征才能正确运行。类别型特征的处理方法有:

(1)序列编码(ordinal encoding)

一般处理类别间具有大小关系的数据,例如期末成绩的 [A, B, C, D] 四挡可以直接转化为 [0, 1, 2, 3]。在转化后,依然保持类别之间的顺序关系。

(2)独热编码(one-hot encoding)

序列编码潜在的定义了类别之间的距离具有相同的含义。以成绩为例,两个人之间,得分A与B的成绩差,和B与C的成绩差,在进行预测时,是完全等价的,由于 [A, B, C, D] 直观上与成绩正相关,使用序列编码不会带来太大的损失。然而在处理像血型这样的类别特征时,如果将 [A, B, AB, O] 直接编码成 [1, 2, 3, 4],显然A与B和B与AB之间的距离,并不具有相同的含义,甚至是完全抽象的无法理解的意义,此时,序列编码就不适用了。因此,便出现了独热编码,独热编码将类别特征用一组比特位来表示,每一位代表一个可能的类别,如果该变量不能一次称为多个类别,那么该组中只有一位可以是1。

对于类别取值较多的情况下适用独热编码需要注意以下问题:

1)适用稀疏向量来节省空间。在独热编码下,特征向量只有某一维取值为1,其他位置取值均为0。因此,可以利用向量的稀疏表示有效节省空间,并且目前大部分的算法均接受稀疏向量形式的输入。

2)配合特征选择来降低维度。高维度特征会带来几方面的问题,一是在K近邻算法中,高维空间下两点之间的距离很难得到有效的衡量;二是在逻辑回归模型中,参数的数量会随着维度的增加而增高,容易引起过拟合问题;三是通常只有部分维度是对分类、预测有帮助,因此可以考虑配合特征选择来降低维度。

(3)哑变量(mmy encoding)

哑变量是独热编码的一种形式,onehot编码的问题是它允许k个自由度,其中变量本身只需要k-1。虚拟编码通过仅适用表示中的k-1个特征来消除额外的自由度。

3、数值型特征离散化

离散化是数值型特征非常重要的一个处理,其实就是要将数值型数据转化成类别型数据。连续值的取值空间可能是无穷的,为了便于表示和在模型中处理,需要对连续值特征进行离散化处理。

(1)无监督方法

1)自定义离散化,根据业务经验或者常识等自行设定划分的区间,然后将原始数据归类到各个区间中。

2)等距化方法,按照相同宽度将数据分成几等份,其缺点是受到异常值的影响比较大。

3)等频化方法,将数据分成几等份,每等份数据里面的个数是一样的。

4)聚类离散化

5)二值化方法,设定一个阈值,大于阈值的赋值为1,小于等于阈值的赋值为0。

(2)有监督方法

1)卡方法,自底向上的(即基于合并的)数据离散化方法。它依赖于卡方检验:具有最小卡方值的相邻区间合并在一起,直到满足确定的停止准则。其基本思想是,对于精确的离散化,相对类频率在一个区间内应当完全一致。因此,如果两个相邻的区间具有非常类似的类分布,则这两个区间可以合并;否则,它们应当保持分开。而低卡方值表明它们具有相似的类分布。

2)最小熵法,需要使总熵值达到最小,也就是使分箱能够最大限度地区分因变量的各类别。数据集的熵越低,说明数据之间的差异越小,最小熵划分就是为了使每箱中的数据具有最好的相似性。给定箱的个数,如果考虑所有可能的分箱情况,最小熵方法得到的箱应该是具有最小熵的分箱。

4、缺失值处理方法

(1)直接删除

如果在数据集中,只有几条数据的某几列中存在缺失值,那么可以直接把这几条数据删除。

(2)均值插补

数据的属性分为定距型和非定距型。如果缺失值是定距型的,就以该属性存在值的平均值来插补缺失的值;如果缺失值是非定距型的,就根据统计学中的众数原理,用该属性的众数(即出现频率最高的值)来补齐缺失的值。

(3)利用同类均值插补

同均值插补的方法都属于单值插补,不同的是,它用层次聚类模型预测缺失变量的类型,再以该类型的均值插补。

(4)极大似然估计

在缺失类型为随机缺失的条件下,假设模型对于完整的样本是正确的,那么通过观测数据的边际分布可以对未知参数进行极大似然估计(Little and Rubin)。

(5)多重插补

多重插补的思想来源于贝叶斯估计,认为待插补的值是随机的,它的值来自于已观测到的值。具体实践上通常是估计出待插补的值,然后再加上不同的噪声,形成多组可选插补值。根据某种选择依据,选取最合适的插补值。

F. 数据预处理

在数据挖掘中,海量的原始数据中存在大量不完整(有缺失值)、不一致、有异常的数据,会严重影响到数据挖掘建模的执行效果,甚至会导致挖掘结果的偏差,进而数据清洗就变得尤为重要。在数据清洗完成后接着甚至同时进行数据集成、变换、规约等一系列的处理,而整个过程称之为 数据预处理 。在整个数据挖掘过程中,数据预处理工作大致占据整个过程的 60%
一般来说,数据预处理的主要包括如下内容: 数据清洗、数据集成、数据变换、数据规约。
接下来的内容,我们也是从这几方面阐述。

常见的缺失值处理方法: 删除法、替换法、插补法等
(1)、删除法: 最简单的缺失值处理方法。从不同角度进行数据处理划分:

<code>
缺失值的处理
inputfile$date=as.numeric(inputfile$date)#将日期转换成数值型变量
sub=which(is.na(inputfile$sales))#识别缺失值所在行数
inputfile1=inputfile[-sub,]#将数据集分成完整数据和缺失数据两部分
inputfile2=inputfile[sub,]
行删除法处理缺失,结果转存
result1=inputfile1
</code>
(2)、替换法
一般根据属性将变量分:数值型和非数值型

在数据挖掘过程中,可能会存在数据分布在不同的数据源中,而这个时候需要将多个数据源合并存放在一个一致的数据存储(如数据仓库),整个过程称之为 数据集成

数据仓库:
关于数据仓库构思
漫谈数据仓库之维度建模
漫谈数据仓库之拉链表(原理、设计以及在Hive中的实现)

在R中,通过将存储在两个数据框中的数据以关键字为依据,以行为单位做列向合并,直接通过merge()函数完成。
merge(数据框1,数据框2,by="关键字"),而合并后的新数据自动按照关键字取值大小升序排列。不过在数据集成过程中存在表达形式不一样,导致不能直接完成匹配,就需要我们进行加以转换、提炼、集成等操作。具体从如下几方面:
(1)、实体识别
从不同数据源识别出现实世界的实体,来完成统一不同源的数据矛盾之处。

实体识别承担着检测和解决这些冲突的任务

(2)、冗余属性识别

数据变换主要对数据进行规范化处理、连续变量的离散化以及属性属性的构造,将数据转换成“适当的”形式,来满足挖掘任务及算法的需要。
(1)、简单函数变换
对原始数据进行某些数学函数变换,常见平方、开方、取对数、差分运算等等
主要来完成不具有正态分布变换服从正态分布;非平稳序列变为平稳序列等等
(2)、数据规范化
为了清除指标之间的量纲和取值范围差异的影响,需要进行标准化处理,将数据按照比例进行缩放,使之落入一个特定区域,便于进行综合分析。
常见方法如下:

<code>
读取数据
data=read.csv('./data/normalization_data.csv',he=F)
最小-最大规范化
b1=(data[,1]-min(data[,1]))/(max(data[,1])-min(data[,1]))
b2=(data[,2]-min(data[,2]))/(max(data[,2])-min(data[,2]))
b3=(data[,3]-min(data[,3]))/(max(data[,3])-min(data[,3]))
b4=(data[,4]-min(data[,4]))/(max(data[,4])-min(data[,4]))
data_scatter=cbind(b1,b2,b3,b4)
零-均值规范化
data_zscore=scale(data)
小数定标规范化
i1=ceiling(log(max(abs(data[,1])),10))#小数定标的指数
c1=data[,1]/10^i1
i2=ceiling(log(max(abs(data[,2])),10))
c2=data[,2]/10^i2
i3=ceiling(log(max(abs(data[,3])),10))
c3=data[,3]/10^i3
i4=ceiling(log(max(abs(data[,4])),10))
c4=data[,4]/10^i4
data_dot=cbind(c1,c2,c3,c4)
</code>

(3)、连续属性离散化
在数据的取值范围内设定若干个离散的划分点,将取值范围划分为不同的离散化的区间,最后使用不同的符号或数值代表落在不同区间的数据值。
常见离散方法:

(4)、属性构造
利用已有的属性构造出新的属性
(5)、小波变换(本次不进行阐述)

数据规约在大数据集上产生更小的且保持原数据完整性的新数据集,提升在数据集合上进行分析和挖掘的效率。
意义如下:

G. 数值型数据的分组方法

数值型数据的分组方法有单变量值分组和组距分组;第一步:确定组距,一般情况下,分组数
据不应少于
5
组且不多于
15
组;第二步:确定各组的组距,第一组的下限应低于最小变量,最后一组的
上限应高于最大变量值;第三步:根据分组整理成频数分布表。

H. 数据的特征级处理包括什么

数据的特征处理主要有以下几种方法:
数值型数据:标准缩放
1、归一化
2、标准化
3、缺失值
类别型数据:one-hot编码
时间类型:时间的切分
对特征进行分类,对于不同的特征应该有不同的处理方法。
根据不同的分类方法,可以将特征分为
(1)Low level特征和High level特征。
Low level特征——较低级别的特征,主要是原始特征,不需要或者需要非常少的人工处理和干预。
(2)稳定特征与动态特征。
稳定特征——变化频率(更新频率)较少的特征
例如评价平均分,团购单价格等,在较长的时间段内都不会发生变化。
动态特征——更新变化比较频繁的特征,有些甚至是实时计算得到的特征
(3)二值特征、连续特征、枚举特征。
二值特征——主要是0/1特征,即特征只取两种值:0或者1

I. 数据处理的基本方法有哪些

典型的计算方法有:1、列表法2、作图法3、逐差法4、最小二乘法等等

阅读全文

与数值型数据有哪些处理方法相关的资料

热点内容
熊和羊是主角是什么电影打一生肖 浏览:602
猎奇电影高分好评 浏览:688
谁有最新网站 浏览:57
日韩伦理爱情电影 浏览:560
李采潭老师勾引学生哪一部 浏览:44
全免费vip影视 浏览:150
主角是无耻采花贼的小说 浏览:287
百度云小说txt下载 浏览:947
iphone手机访问电脑共享文件 浏览:673
北京送快递的那个电影叫啥 浏览:652
国有银行哪些银行app值得用 浏览:940
主角很能生孩子的小说 浏览:452
常识修改器系统类型小说 浏览:288
加微信少妇号码是多少 浏览:728
plc入门编程软件有哪些 浏览:79
python怎么读取数据库 浏览:762
邵氏武侠10000部 浏览:644
网站如何写原创内容 浏览:275
寻梦环游记原片是什么语 浏览:584
supportapplecom官网 浏览:323

友情链接