❶ 控制变量最少几个
30个。面板数据控制变量是指在时间序列上取多个截面,在这些截面上同时选取样本观测值所构成的样本数据。面板数据在时间序列上不太好找,一般要有30个稍微少点也可以,但一定不要少于25个,少于25个就有可能会出现故障等情况,所以一定要注意。
❷ 面板数据96个可以吗
可以。
一般来说面板数据大于30个以上就属于大样本了,所以96个面板数据是完全可以进行统计的。但是96个面板数据统计量是比较大的,统计起来也会有一定的难度,需要花费较长的时间。
面板数据也叫平行数据,是指在时间序列上取多个截面,在这些截面上同时选取样本观测值所构成的样本数据。或者说是一个数据矩阵,记载的是n个时间节点上,m个对象的某一数据指标。
❸ 高级计量经济学 16:短面板(上) (修正1)
在读 paper 的时候,发现自己对短面板的框架逻辑有不全面的地方,在这里对各位读者说声对不起!
这是船新的版本,我将自己的理解融入其中,笔记顺序与教材不同。
毕竟我也是现学现卖,敬请谅解!
此文内容为《高级计量经济学及STATA应用》的笔记,陈强老师著,高等教育出版社出版。
我只将个人会用到的知识作了笔记,并对教材较难理解的部分做了进一步阐述。为了更易于理解,我还对教材上的一些部分( 包括证明和正文 )做了修改。
目录
面板数据 ( panel data ),也译为 平行数据 ( longitudinal data ),指的是在一段时间内跟踪同一组个体( indivial )的数据。它既有横截面的维度( 个个体 ),又有时间维度( 个时期 )。
通常的面板数据 较小,而 较大,在使用大样本理论时让 。这种面板数据被称为 短面板 ( short panel )。反之,如果 较大而 较小,则被称为 长面板 ( long panel )。
如果在面板数据中,每个时期的样本中的个体完全一样,则称为 平衡面板数据 ( balanced panel );反之,则称为 非平衡面板数据
在面板 模型 中,如果解释变量包含被解释变量的滞后值,则称为 动态面板 ( dynamic panel );反之,称为 静态面板 ( static panel )
(1) 面板数据的优点
(2) 截面数据的缺点
当然,截面数据也会带来一些问题:
估计面板数据的 一个极端策略 是将其看成横截面数据而进行 混合回归 ( pooled regression ),即要求样本中每个个体都拥有完全相同的回归方程( 在 15.3 讨论 )。 另一个极端策略 是为每个个体估计一个单独的回归方程。
前者忽略了个体间不可观测或被遗漏的异质性,而该异质性可能与解释变量相关而导致估计不一致;后者则忽略了个体间的共性,也可能没有足够的的样本容量。
因此,在实践中常常采用折衷的估计策略:即假定个体的回归方程拥有 相同的斜率 ,但可以拥有 不同的截距 ,以此来捕捉异质性,如 图 15.1 所示:
这种模型被称为 个体效应模型 ( indivial-specific effects model ),其模型形式为:
其中, 为不随时间而变( time invariant )的个体特征( 即 ),比如性别;而 则可以随个体及时间而变( time-varying )。扰动项由 两部分构成,成为 复合扰动项 ( composite erroe term ),而方程 也称为 复合扰动项模型 ( error compoents model )。
较早的文献有时将 视为 常数 ,但这也只是随机变量的特例,即退化的随机变量;而 为随个体与时间而改变的扰动项。
我们主要关注 ,这是因为“个体效应模型”的 个体特征 来源于 。 在 几何上 代表个体异质性的截距;在 统计上 则代表一个扰动项:
在短面板,我们假设 为独立同分布(长面板可以放松此假定),且与 不相关。另外,
显然,与截面数据相比,面板数据提供了更为丰富的模型与估计方法。
如果所有个体都拥有完全一样的回归方程,也就是说每个个体 连截距项都相同 ,那么方程 的 就都相等。我们记 为截距,即 ,那么方程 就可以写成:
其中, 不包含常数项。这样,就可以把所有的数据放在一起,像对待横截面数据那样进行 OLS 回归,故被称为 混合回归 ( polled regression )。混合回归可以被称为 总体平均估计量 ( Population-averaged estimator, PA),因为可以把它理解为 将个体效应都平均掉了 。
由于面板数据的特点,虽然通常可以假设不同个体之间的扰动项相互独立,但同一个体在不同时间的扰动项之间往往存在自相关。此时,对标准误的估计应该使用 聚类稳健的标准误 ( cluster-robust standard error ),而所谓聚类( cluster ),就是由每个个体不同时期的所有观测值所组成。同一聚类(个体)的观测值允许存在相关性,而不同聚类(个体)的观测值则不相关。
混合回归的基本假设是 不存在个体效应 。 对于这个假设必须进行统计检验 。由于个体效应以两种不同的形态存在:固定效应、随机效应,故在下面会分别介绍其检验方法。
固定效应模型是指 与某个解释变量 或 相关的个体效应模型。换句话说,由于存在一些遗漏变量,使得 与解释变量产生内生性。所以,固定效应模型求解的关键就是 如何排除内生性的干扰 !
总的来看, 与某个解释变量 或 相关分成两种情况:
我们下面来探讨如何对两种固定效应模型进行处理。
如果 与某个解释变量 或 相关,那么此个体效应模型就变成了 固定效应模型 。这种情况下, OLS估计是不一致的 。为了得到一致的 估计量,解决的方法是将模型转换,并将 消去。
给定个体 ,将方程 两边对时间取平均,可得:
用 则可以得到原模型的 离差形式 :
定义:
那么 就变成了:
在公式 中, 已经被消去,故只要 与 不相关,就可以使用 OLS 一致地估计 ,称为 固定效应估计量 ( Fixed Effects Estimator ),记为 。由于 使用了每个个体的组内离差信息,故也被称为 组内估计量 ( within estimator )。即使个体特征 与解释变量 相关,只要使用组内估计量,就可以得到一致估计,这是面板数据的一大优势。
然而,在作离差变换的过程中, 也被消掉了,于是无法估计 。也就是说固定效应模型无法估计不随时间而变的变量的影响,这是 FE 的一大缺点。另外,为了保证 与 不相关,则要求第 个观测值满足严格外生性,即:
这是因为 中包含了 的所有信息。换言之,扰动项必须与各期的解释变量均不相关,这是一个比较强的假定。
如果在原方程中引入 个虚拟变量(如果没有截距,则引入 个虚拟变量)来代表不同的个体,则可以得到与上述离差模型同样的结果,即:
其中,个体虚拟变量 如果 ;否则 。可以用 OLS 估计此方程,而且我们可以证明, LSDV 法与组内估计量 FE 完全一样。因此,FE 也被称为 最小二乘虚拟变量模型 ( Least Square Dummy Variable Model, LSDV)
不过,如果作完 LSDV 后发现某些个体的虚拟变量不显著将其删去,那么 LSDV 的结果就不会与 FE 相同。使用 LSDV 的好处是可以得到对个体异质性 的估计(模型中的 ),但如果 很大,则需要在回归方程中加入很多虚拟变量,可能超出一些计量软件的最大解释变量数量。
LSDV 法深受不少研究者的喜爱,因为它操作简便,可解释性也强。
考虑固定效应模型,可以对个体效应模型 进行差分处理:
于是,把两个方程相减,就可以得到一阶差分方程,从而消除个体效应:
对此差分模型使用 OLS 估计即得到 一阶差分估计量 ( First Differencing Estimator ),记为 。由于 不再出现在差分方程中,只要扰动项的一阶差分 与解释变量的一阶差分 不相关,则 就是一致的,这比 的严格外生性要求更弱,是 的优点。
不过,可以证明,在 下, 比 更有效率。因此,在实践上,主要使用 而不是 。但对于动态面板,严格外生性无法满足,则主要用 。
上面的个体固定效应解决了不随时间而变但随个体而变(time invariant)的遗漏变量问题。
类似地,引入时间固定效应,则可解决不随个体而变但随时间而变(indivial invariant)的遗漏变量问题。
假设模型为:
其中, 不可观测,定义 ,则上式可以写成:
在上式,可将 视为第 期独有的截距项,并将其解释为 第 期 对被解释变量 的效应。于是,这些 称为 时间固定效应 (time fixed effects)。
显然,这个模型可以用 LSDV 法来估计,即对每时期定义一个虚拟变量,然后把 个时间虚拟变量包括在回归方程中,比如:
其中,时间虚拟变量 如果 否则 。对于上面的式子,既考虑了个体固定效应( 的 )、又考虑了时间固定效应( 的 ),所以称为 双向固定效应 (Two-way FE)。相应的,如果仅考虑个体固定效应(如15.4.1 的模型)则称为 单向固定效应 (One-way FE)。
有些情况,为了节省参数,可以引入时间趋势项,以代替 个时间虚拟变量:
显然,这个式子隐含着一个较强的假定:每个时期的时间效应应该增长, 随时间 是均匀增长的。
如果此假定不大可能成立,那么就应该使用 a. 的时间虚拟变量法;该方法可以独立估计每一期的时间固定效应,也可以用于判断每期的时间效应是否大致相等。
❹ 10年*11个样本 总样本110可以做面板数据么用SPSS
可以的,但是不太专业,因为SPSS做截面数据好一些。做一个DW检验(杜宾检验)会好一些。如果要求比较高的论文就,比如金融经济什么的,就要用eviews了。如果是毕业论文,和导师沟通一下,看他的要求。
❺ 面板数据11个样本7年数据够吗
够。数据是7年的,每一年都有15个数据,共105组观测值。表11.1.11996-2002年中国东北、华北、华东15个省级地区的居民家庭人均消费数据。
❻ 面板数据模型的定义和操作方法
(第3组 宏现经济增长与发展,6686个字符)
中国能源、环境与经济增长基于面板数据的计量分析
王洲洋
(河北经贸大学数统学院,石家庄,050061)
摘 要
本文运用面板数据的分析方法对我国各地区的能源消费、环境污染与经济增长进行了实证研究。研究表明:能源消费、环境污染与经济增长变量均为不平稳变量,但它们之间存在着长期的协整关系。如果能源供应每增加1%,GDP就会增加0.269%;环境污染每减少1%,GDP就能增加0.043%。
关键词 经济增长 面板协整检验 Hausman检验
Abstract
This paper assesses the relationship among the energy consumption, environment pollution and economic growth in all the regions of China by the method of Panel Data. Research results indicate that the energy consumption, environment pollution and economic growth are not balanced variables,but they have the Co-integration relations in a long run.If the energy supply increases 1%,the economic growth will increase 0.269%;And if the environment pollution decreases 1%,the economic growth will increase 0.043%.
Key words : economical growth Panel data Co-integration Test Hausman-test
一、引言
自从进入工业化时期以来,世界上许多国家为了追求经济的快速增长和物质产品的极大丰富,对能源进行了大规模的开发和利用,而能源的逐渐枯竭及能源带来的生态环境问题,都将严重阻碍经济的发展。环境作为经济、社会发展的物质条件,作为经济发展的基础,既可以直接地促进经济的发展,也可能成为经济的发展的阻力,环境污染已成为危害人们健康、制约经济和社会发展的重要因素之一。如今能源与环境问题已成为制约一个国家经济增长的瓶颈,而这种现象在我国尤为突出。不断开发新能源,开发可再生能源,提高能源利用效率,保护环境将对我国经济发展起到重要作用。党的十七大报告再次强调要加强能源资源节约和生态环境保护,并指出,加强能源资源节约和环境环境保护,增强可持续发展能力,坚持节约资源和保护环境的基本国策,关系人民群众切身利益和中华民族生存发展。因此,对于我国能源消费、环境保护和经济发展的关系研究具有十分重要的理论价值和现实意义。
近年来我国的能源、环境问题已成为被关注的热点,许多学者从不同的角度进行了大量的分析,得出了许多有用的启示。如林伯强[1](2003)通过协整分析考察了我国能源需求与经济增长的关系;王逢宝[2]等(2006)运用线性回归的方法对区域能源、环境与经济增长进行了研究。冯秀[3](2006)则探讨了我国能源利用现状及能源、环境与经济增之长的关系。林师模等[4](2006)研究了能源技术创新对我国经济,环境与能源之间的关系。目前大多的文献是用时间序列的数据,或是从总量的角度来分析全国或某个地区的能源消费、环境污染与经济增长之间的关系,但由于我国幅员辽阔,各地区间的经济、能源消费与环境方面都存在着巨大的差异,因而不能把各个地区的经济、能源消费与环境污染视为一个同质的整体,且运用时间序列数据往往很难解释它们间的内在联系。
本文使用我国省级的面板数据,运用面板数据的分析方法对我国各地区的能源消费、环境污染与经济增长进行实证分析,从而来揭示我国能源消费、环境污染与经济增长之间的内在联系。
二、研究方法
面板数据分析方法是最近几十年来发展起来的新的统计方法,面板数据可以克服时间序列分析受多重共线性的困扰,能够提供更多的信息、更多的变化、更少共线性、更多的自由度和更高的估计效率,而面板数据的单位根检验和协整分析是当前最前沿的领域之一。在本文的研究中,我们首先运用面板数据的单位根检验与协整检验来考察能源消费、环境污染与经济增长之间的长期关系,然后建立计量模型来量化它们之间的内在联系。
面板数据的单位根检验的方法主要有 Levin,Lin and CHU(2002)提出的LLC检验方法[5]。Im,Pesearn,Shin(2003)提出的IPS检验[6] , Maddala和Wu(1999),Choi(2001)提出的ADF和PP检验[7]等。面板数据的协整检验的方法主要有Pedroni[8] (1999,2004)和Kao[9](1999)提出的检验方法,这两种检验方法的原假设均为不存在协整关系,从面板数据中得到残差统计量进行检验。Luciano(2003)中运用Monte Carlo模拟[10]对协整检验的几种方法进行比较,说明在T较小(大)时,Kao检验比Pedroni检验更高(低)的功效。具体面板数据单位根检验和协整检验的方法见参考文献[5-10]。
三、实证分析
1.指标选取和数据来源
经济增长:本文使用地区生产总值 ,以1999年为基期,根据各地区生产总值指数折算成实际 ,单位:亿元。
能源消费:考虑到近年来我国能源消费总量中,煤炭和石油供需存在着明显低估,而电力消费数据相当准确。因此使用电力消费更能准确反映能源消费与经济增长之间的内在联系(林伯强,2003)。所以本文使用各地区电力消费量 作为能源消费量,单位:亿千瓦小时。
环境污染:污染物以气休、液体、固体形态存在,本文选取工业废水排放量 作为环境污染的量化指标,单位:万吨。
本文采用1999-2006年全国30个省(直辖市,自治区)的地区生产总值 、电力消费量 和工业废水排放量 的数据构建面板数据集。30个省(直辖市,自治区)包括北京、天津、河北、辽宁、上海、江苏、浙江、福建、山东、广东、山西、内蒙古、吉林、黑龙江、安徽、江西、河南、湖北、湖南、海南、广西、重庆、四川、贵州、云南、陕西、西藏、甘肃、青海、宁夏、新疆,由于西藏数据不全故不包括在内。数据来源于《中国统计年鉴2000-2007》。为了消除变量间可能存在的异方差,本文先对 、 和 进行自然对数变换。
记 , , .
2.面板数据的单位根检验
为了避免单一方法可能存在的缺陷,本文使用LLC检验、IPS检验、Fisher-ADF检验和Fisher-PP检验四种方法来进行面板数据的单位根检验。利用Eviews 6.0软件(下同),检验结果见表1。
表1 , , 的面板单位根检验
变 量 LLC p值 IPS p值 Fisher-ADF p值 Fisher-PP p值
4.21 1.00 5.78 1.00 16.95 1.00 7.67 1.00
6.35 1.00 10.24 1.00 5.37 1.00 9.45 1.00
-2.91 0.0018 1.26 0.89 56.97 0.058 90,56 0.0066
-14.89 0.00 -3.17 0.0008 103.88 0.0004 86.42 0.0144
-21.99 0.00 -5.80 0.00 143.77 0.00 146.44 0.00
-12.21 0.00 -4.52 0.00 135.51 0.00 184.48 0.00
从表1可以看出, , 在5%水平不平稳,经一阶差分后 , 均在5%水平拒绝原假设, 的LLC检验在5%水平不显著,但其它三种检验方法均显著, 的四种检验方法均在5%水平下拒绝原假,所以我们认为 , , 均为一阶差分平稳变量。
3.面板数据的协整检验
对 , , 的协整关系进行Pedroni协整检验和Kao协整检验。其检验结果见表2和表3。
表2 Pedroni协整检验
统计量 p值
Panel v统计量 -1.145 0.0056
Panel rho统计量 2.588 0.0277
Panel PP统计量 -1.543 0.0013
Panel ADF统计量 -3.811 0.0000
Group rho统计量 5.088 0.0000
Group PP统计量 -2.559 0.0151
Group ADF统计量 -6.985 0.0000
表3 Kao协整检验
t统计量 p值
ADF -5.873 0.0000
由表2和表3的面板协整检验结果可知: Pedroni协整检验的七个统计量与Kao协整检验的ADF统计量均在5%显著性水平下拒绝原假设,表明 , , 之间存在显著的协整关系。
4.模型检验
(1) 固定效应模型显著性检验
固定效应模型显著性检验是检验模型中固定效应系数 是否有差异,即原假设为 。其检验结果如表4所示:
表4 固定效应模型的显著性检验
固定效应显著性检验 统计量 自由度 p值
Cross-section F 374.484 (29,208) 0.0000
Cross-section Chi-square 953.827 29 0.0000
由表4固定效应模型的显著性检验结果可知,p值小于5%,因此拒绝固定效应系数 相同的原假设,所以我们选取固定效应模型比较合适。
(2)Hausman检验
Hausman检验的原假设是随机效应模型的系数与固定效应模型的系数没有差别,如果接受原假设,表明应选择随机效应模型,否则就应该选择固定效应模型。检验结果在表4和表5中列出。
表5 Hausman检验
Chi-Sq. 统计量 Chi-Sq. Statistic自由度 p值
Cross-section random 117.766 2 0.000
表6 固定效应与随机效应检验比较
变量 固定效应 随机效应 两种效应方差之差 p值
0.269 0.279 0.000002 0.0000
-0.0434 -0.017 0.000007 0.0000
从表5中Hausman检验结果与表6中固定效应与随机效应检验比较可以看出,p值在5%水平下拒绝原假设,模型中被忽视的效应与模型中的两个解释变量相关,所以我们认为固定效应模型是更好的选择。
5.模型的估计
根据上面的分析我们采用固定效应模型对模型进行估计,模型估计结果如下式所示:
(1)
(44.647) (20.341) (-3.097)
[0.0000] [0.0000] [0.0022]
小括号中是t统计量,中括号中是相应的p值。
模型调整后的 为0.996,F值为2484.3,残差平方和为0.599,各个系数均通过t检验,模型拟合的相当不错。
固定效应系数 见表7所示:
表7各地区的固定效应系数
地区
地区
地区
北京 0.207 浙江 0.792 海南 -1.044
天津 -0.268 安徽 0.283 重庆 -0.222
河北 0.582 福建 0.425 四川 0.440
山西 -0.351 江西 -0.00158 贵州 -0.808
内蒙古 -0.454 山东 1.034 云南 -0.121
辽宁 0.473 河南 0.623 陕西 -0.228
吉林 -0.138 湖北 0.429 甘肃 -0.815
黑龙江 0.251 湖南 0.424 青海 -1.962
上海 0.555 广东 1.139 宁夏 -1.908
江苏 1.058 广西 -0.0147 新疆 -0.380
式(1)表明,GDP与能源消费、环境污染之间存在着显著的长期均衡关系,从全国的平均水平来看,能源消费的弹性系数是0.269,也就是能源供应每增加1%,GDP就会增加0.269%;环境污染的弹性系数是-0.043,即环境污染每减少1%,GDP就能增加0.043%,这说明GDP与环境污染存在着反向的关系,与我们普遍认为的保护环境能促进经济健康快速发展的观点相一致。
四、主要结论
本文通过采用比较前沿的面板单位根检验、面板协整检验等分析方法,对1999年到2006年我国能源消费、环境污染与经济增长的省级面板数据进行了实证研究。研究表明:我国能源消费、环境污染与经济增长均为不平稳过程,这主要是因为我国各地区由于政策、环境等多种原因,使得各地区间存在着很大的差异,所以不同的地区表现出非一致性,但不同地区的能源消费、环境污染与经济增长之间都存在着显著的协整关系。能源和环境作为经济持续增长的要素,对我国经济发展有着重大的影响作用。能源供应与经济增长存在着正向的关系,经济增长对能源有很强的信赖性,而环境污染与经济增长存在着反向的关系,环境污染程度的加剧将会严重阻碍经济的增长。从全国平均水平来看,能源供应每增加1%,GDP将增加0.269%;环境污染每减少1%,GDP将增加0.043%。因此坚持节约能源、提高能源使用效率和保护环境将对我国经济的持续、快速、健康发展具有极其重要的意义。
需要指出的是,由于数据方面的原因,本文使用的面板数据时间跨度并不长(1999-2006),得到的长期关系有可能受到质疑 (DimitrisK.Christopoulos and Efthvmios G.Tsionas,2004) [11]。本文使用各地区电力消费量来代替能源消费总量,工业废水排放量来反映环境污染程度,但它们都只反映了能源消费、环境污染程度的一个方面,所以指标的选取并不全面,应该将煤、石油等能源的消费以及大气污染、固体废弃物污染等全部纳入指标体系,这样指标体系才更加全面、更加合理,这有待我们今后更加深入的研究。
参考文献:
[1]林伯强:《电力消费与中国经济增长:基于生产函数的研究》[J],《管理世界》2003年第11期。
[2]王逢宝、张磊、秦贞兰:《能源、环境与区域经济增长的计量分析》[J],《天津财贸管理干部学院学报》2006年第3期。
[3]冯秀、丁勇:《可持续发展下中国的能源、环境与经济》[J],《北方经济》2006年第2期。
[4]林师模、苏汉邦、林幸桦:《能源技术创新对经济、能源及环境》的影响[J]《东莞理工学院学报》2006年第4期。
[5]Levin.A.,C.F.Lin Unit Root Tests in Panel Data:Asymptotic and Finite Sample Properties[C].UC San Diego.Working Paper,1992.92-93.
[6]Im K.S.,M.H.Pesaran and Y.Shin.Testing for Unit Roots in Heterogeneous Panels[J].Journal of Econometrics 2003,115:53-74.
[7]Maddala G.S.,Wu Shaowen,1999.Acomparative Study of Unit Root Tests with Panel Data and a New Simple Test [J].Oxford Bulletin of Economics and Statistics,1999,61:631-652.
[8]Luciano,G..On the Power of Panel Cointegration Tests:A Monte Carlo Comparison[J].Economics Letters,2003,80:105-111.
[9]Pedroni,P.Critical Value for Cointegration Tests in Heterogeneous Panels with Multiple Regressors[J].Oxford Bulletin of Economics and Statistics,1999,61:653-678.
[10]Kao,C,Spurious Regression and Resial-based Tests for Cointetration in Panel Data[J].Journal of Econometrics,1999,90:1-44.
[11]Dimitris K. Christopoulos,Efthymios G.Tsionas,2004,Financial development and economic growth: evidence from panel.
❼ 面板数据要进行平稳性检验吗 只有五年五个数据
数据量少的话一般无须做平稳性检验。
但同时还得考虑用这些数据做什么,如果
是时间序列预测,则必须做该检验