21世纪数量经济学(第13卷)
上QQ阅读APP看书,第一时间看更新

1.5 小样本高维宏观经济统计数据VAR诊断模型及其估计方法性质比较研究[1]

周建 龚玉婷[2]

摘要:本文建立了小样本高维宏观经济统计数据的VAR联立诊断模型,通过动态随机优化网格法对具有代表性的13917组平稳数据生成过程样本数据采用各20000次分块自举法和蒙特卡洛模拟研究了单方程和联立方程诊断功效以及四种重要估计方法的性质,研究结论表明:(1)在有异常点情况下,VAR联立模型估计所得拟合优度和诊断功效显著高于单方程模型。因此,小样本数据VAR模型诊断优于单方程。(2)各方法参数估计量分布非对称性特征明显且呈现出左偏趋势,它们普遍低估了模型真实参数。LIML和OLS估计在方差上的差异并不明显,3SLS的方差在所有参数估计中都小于其他3种方法,性质最优。(3)联立模型误差项为t分布且数据中无异常值时,2SLS、3SLS、LIML各自的三类损失函数(MSE、MAE、RMSE)和有异常点的正态分布的情况相比均有所增加,而OLS则降低;在误差项正态分布下,2SLS和OLS对异常数据十分敏感,其损失函数远大于3SLS和LIML,3SLS受到异常数据的影响最小,各类损失函数最低。在此基础上,进一步对出口序列进行了单方程和基于3SLS的VAR模型诊断对比分析,证明基于3SLS的VAR模型诊断具有更高功效。

关键词:宏观经济管理 异常点 VAR诊断模型 小样本 分块自举法

1.5.1 引言

宏观经济统计数据不仅是应用宏观计量经济学进行分析的前提和基础,也是政府经济政策管理的重要依据。许多宏观经济时间序列数据由于受多种因素的影响,例如非重复性突发事件、经济或者政治结构突变以及自然灾害、地震等,会产生各种不同的异常性、波动性、强影响性等特征。因此,建立宏观经济变量的数据特征诊断模型和方法已经成为国际上理论计量经济学的最新和重要前沿研究领域[1],基于数据诊断前提条件下所得到的应用计量实证分析结论更会为准确的宏观经济分析、有效的政府管理、前瞻性的政策制定等提供重要科学依据。宏观经济数据诊断分为单方程和联立方程诊断。由于联立方程诊断比单方程更适用于反映动态宏观经济系统的内生演变机制和相互作用机理,分析过程更具有系统性和整体性,所得诊断结论更加准确,因此,联立模型诊断具有更为重要的理论研究价值和应用价值[2]

从已有文献来看,国内外对宏观经济统计数据诊断的主要集中于单方程诊断。在理论研究方面,一般使用“均值漂移模型”和“数据删除模型”来诊断异常点,Furnival和Wilson(1974)[3]进一步提出了数据诊断的“方差扰动模型”。Kianifard和Swallow(1989)[4]用学生化残差或Cook距离对各点排序得到基本集,在此基础上按递推残差对基本集以外各点进行异常检验。Hadi和Simonoff(1993)[5]提出以“校正残差”各点排序得到基本集,以学生化残差和标准化预测误差对各点作诊断检验。国内有关异常点(包括突变点、渐变点)等问题的理论研究近年有快速发展。韦博成等(1991)[6]对单方程统计诊断统计量做了系统介绍。马阳明和韦博成(1993)[7]对带约束非线性回归模型及其数据点进行影响分析,推导出度量影响的诊断统计量及曲率。缪柏其(1993)[8]基于Wilcoxon样本统计量采用非参数方法检验位置参数异常点。李国英(2002)[9]对高维统计诊断理论做了总结性回顾和评价。缪柏其等(2003)[10]利用滑窗方法研究分布序列参数异常点的假设检验和估计问题。赵媛媛(2005)[11]将不等式约束转化为等式约束对残差分析进行异常点诊断。周建(2005)[12]对于宏观经济数据的单方程诊断进行了系统研究。谭常春等(2007,2008)[13,14]对异常点参数分布进行了统计推断,杨婷等(2007)[15]提出了在椭球约束下的数据删除模型和均值漂移模型。叶五一等(2007)[16]基于分位数回归法对异常点进行检验。Wang(2008)[17]研究一阶自回归模型中的异常点问题,分别讨论了突变点和渐变点的诊断统计量及影响分析。在数据单方程诊断模型的实证应用方面,Rawski(2001)[18]通过对比GDP和能源数据对中国1997~2000年经济增长数据提出了质疑。Lardy(2002)[19]通过进口额、财政收入等对中国经济增速可信度也进行了验证。Klein等(2003)[20]和阙里、钟笑寒(2005)[21]选取了能源、交通、通讯、农业、贸易等15个变量来解释中国GDP增速并对其可信度进行判断。

由于联立诊断方程理论和方法研究的复杂性和艰巨性,与单方程相比其研究成果要少得多,考虑到方便性和适用性,已有文献中联立诊断方程普遍是基于VAR模型(向量自回归模型)展开分析的。Kroner和Engle(1995)[22]提出在不考虑异方差的条件下,用2SLS和3SLS估计联立诊断模型的参数。Guido等(2002)[23]研究了当不存在具有可加性随机误差时,非参数方法识别三角联立模型的问题。Anselin等(2004)[24]概述了联立模型统计推断和估计方法的已有成果。Iglesias等(2005)[25]对异方差情况下联立诊断模型的2SLS估计性质进行了理论分析。Guan等(2007)[26]采用分块自举法对空间计量模型进行了诊断分析。

从以上可以看出,国内外已有相关研究往往都局限于单方程,对VAR联立诊断方程进行研究才刚处于起步阶段,最新文献还没有从理论和方法角度深入研究异常点对于VAR联立诊断模型各种估计方法的影响,由此许多实证研究往往得到了不准确甚至是错误的结论。宏观经济数据系统的小样本和高维特征往往使单方程诊断模型无法得到有效结论,所谓“小样本”特征包括两方面的含义:(1)样本观测值数量较少。(2)虽然样本数据观测值不少,但相对于高维的宏观经济系统分析变量而言,样本则不充分。事实上,我国的各种宏观数据大都是改革开放以后才有,呈现出明显的小样本特征,而且国内外环境日新月异,这些数据极大可能存在异常值、波动性等重要数据特征,同时我国宏观时序的小样本特征在世界其他国家也都普遍存在。因此,对于小样本高维宏观经济统计数据VAR联立诊断模型估计方法进行深入研究就显得尤为迫切和重要,所得研究结论不仅在计量经济学理论上具有极其重要的学术价值,而且基于此所进行的政策实证研究对于加强政府宏观管理的准确性、有效性及其针对性都具有十分重要的现实意义。本文主要的创新性工作表现为采用小样本研究方法——自举法和蒙特卡洛模拟对比分析了在异常数据出现时单方程和联立方程诊断的检测功效,在建立宏观数据VAR联立诊断模型基础上,对于最重要的四种估计方法OLS、2SLS、3SLS、LIML在受到异常点和误差项非正态分布影响情况下参数估计特征及其性质进行了比较分析和深入研究,这些均是已有成果中尚未深入讨论的重要计量经济学理论问题,在此基础上,本文进一步对我国出口序列进行了诊断实证分析,得到了有价值的研究结论和启示。

1.5.2 VAR诊断模型设定及其估计方法性质比较

1.5.2.1 宏观经济统计数据VAR诊断模型的形式设定及其性质研究

(1)宏观经济统计数据VAR诊断模型的形式设定。

设向量Yt+1的条件分布满足均值为μt+1、方差为Ω的独立同分布,则VAR模型的结构式VAR(p)表述为:Yt=dB0+YtD+Yt-1B1+Yt-2B2+…+Yt-pBp+Utt=1,2,…,Ttp

其中,Yt和随机误差项Ut均为G维行向量,Bjj=0,1,2,…,pD均是G×G阶参数矩阵,d为1×G阶行向量,所有元素均为1,将等式左右两边第t期向量合并,可得VAR模型简化式为Yt=0+Yt-1Π1+Yt-2Π2+…+Yt-pΠp+Vtt=1,2,…,TBjIG-D-1=Πjj=0,1,…,p

(2)宏观经济统计数据VAR诊断模型的平稳性条件。

L表示滞后算子,有Yt-j=YtLj。滞后p期的向量自回归模型VAR(p)可表示为YtIG-1-L2Π2-…-LpΠp)=Vt。记πL)=1+L2Π2+…+LpΠp为关于Lp阶多项式,Yt平稳性条件满足|ZPIG-ZP-1Π1-…-Z1Πp-1-Πp|=0的p个根均在单位圆内,实际应用中一般采用Jury准则进行分析[12]。当满足平稳性条件时,VAR(p)就可表示为VMA(∞)的形式,对任意的VAR(p)都可以写成如下的VAR(1)形式Y=ΠY-1+V,即

其中,Yss=1,2,…,t为1×G阶行向量,YpG×1阶列向量,Y-1pG×1阶列向量,V=[Vt 0′ 0′ … 0′]′pG×1pG×1阶列向量,第1行以外的元素均为0,Π为上式中pG×pG阶的分块系数阵。由于Y-1Y的滞后一期变量,因此可将上述形式的VAR(p)模型通过矩阵变换写成有VAR(1)的等价形式,因此,VAR(1)能够代表所有的高阶平稳自回归模型的一般性和普遍性,研究VAR(p)的有关性质可从VAR(1)入手分析。

1.5.2.2 小样本数据VAR诊断模型参数估计方法性质比较研究

由于小样本问题不能通过理论推导进行分析,国际上最常用的小样本研究方法是采用自举抽样(Bootstrapping)和蒙特卡洛模拟方法来进行分析,本文也采用这样的思路来研究小样本宏观经济统计数据VAR联立诊断模型的有关性质,使用软件为Matlab7.6。自举[26],即采用从总体中反复抽取样本的方法计算统计量的值,从独立同分布总体X中确定T个随机变量{x1x2,…,xT}并随机得到N个自举样本,X1={x11x12,…,x1T};X2={x21x212,…,x2T};…XN={xN1xN2,…,xNT},对于关心的统计量,那么用N个自举样本可以得到一个容量为N的估计值序列,通过这个序列,可以研究的分布特征、的特征数、百分位数、的平均数与真值θ的差别等等。

(1)小样本VAR诊断模型的平稳数据生成过程及其仿真思路。

为使研究结论具有普遍意义,本文选取了能够代表所有VAR模型的典型性四种数据生成过程(DGP)加以模拟研究,具体为三种VAR(1)模型(包括2元、3元、4元内生变量,表示内生变量或联立方程个数由少到多)和一种2元VAR(2)模型(VAR(2)作为高阶滞后模型的代表),选取3种VAR(1)的原因是VAR(1)具有代表性,任意一个平稳性VAR(p)模型都能转化为VAR(1)的形式。以2元VAR(1)为例,运用动态随机网格法搜索在全部待估参数组合20000种DGP中,基于平稳性判断的Jury准则,发现其中只有13917种是平稳性DGP(剩余的6083种不平稳DGP舍去),然后采用蒙特卡洛模拟法分别生成时间跨度为100的13917组样本数据,对每组样本数据再自举抽样20000次,以保证基于抽样数据的统计量达到收敛。同时为研究不同样本区间带来的影响,上述数据生成过程可按30、50、70、100分为4种样本区间;为讨论异常数据可能产生的问题,还需要在不同区间的基础上进一步加入一定数目的异常点。相关研究思路参见图1和以下详细步骤:

图1 小样本VAR联立诊断模型的平稳数据生成过程及其仿真思路

步骤1:设定模型形式。本文模拟研究了4种形式向量自回归过程,分别用Mi。i=1,2,3,4表示。不失一般性,不考虑常数项,对有截距项的模型可进行标准化处理后得到不存在截距项的形式,而不影响其他参数估计的性质。

步骤2:随机生成模型参数。以2元VAR(1)为例,另外3种向量自回归过程同理。不失一般性,令a11取值区间为(0,1],用网格法抽取4个参数,网格法的步长为0.02,将区间平均分为16个子区间进行随机抽样的次数记为Ngrid(Ngrid=20000)。

步骤3:根据Jury准则,判断以为参数矩阵的一阶自回归过程是否平稳。如果不平稳,则重新进行步骤2中的抽样;如果平稳,则储存这组参数,作为2元VAR(1)的一个模拟模型,通过Ngrid次随机抽样共得到Nmc(13917)种参数矩阵可生成平稳的VAR(1)。

步骤4:对每个参数矩阵,赋予y10y20初始值均为0,模拟生成Nleng(100)期的样本数据,随机误差项的方差协方差阵按逆威夏特IW分布(自由度为Nmc-2)随机抽取,ρ=0.3,σ21=1,σ22=1,分别选取该数据链前Np=30,50,70,100期的样本数据作为不同样本容量的研究对象。将Nmc组跨度为Np期的数据保存,记为M1DS0(其一般表述为MiDS0,i=1,2,3,4表示4种形式向量自回归过程)。为保证数据生成过程收敛,每次实际生成Nomit+Nleng(1000+100=1100)期样本数据,去掉前面的Nomit期数据,将剩余的Nleng数据作为研究对象。类似地,另一个数据生成过程DGP2,仅把模型中的随机误差项变为2元t分布,它和正态分布相比具备一定的尖峰厚尾性,同样生成Nomit+Nleng期样本数据,但只截取后Nleng期进行研究,保存为数据库M1DS2。

步骤5:增加异常数据。如图1所示,先随机选取M1DS0p0期的数据(步骤5.1),将其设定为异常数据真实位置。然后将对数据集合M1DS0M1DS2进行不同形式的处理,分别对应着随机变量w=0,1,2(步骤5.2)。在步骤5.3中,若w=0,则M1DS0无需处理,直接进入步骤6的自举抽样过程。若w=2,则M1DS2无需处理直接进入步骤6的自举抽样过程。若w=1,将p0处的数据替换为相当于水平漂移了10倍的标准差,即,生成有1个异常数据点的样本数据。将Nmc组跨度为Nleng期的数据及其相应真实异常数据点的位置保存,记为M1DS1

步骤6:分块自举抽样。对M1DS0、M1DS1、M1DS2中每组数据均进行分块自举抽样,每组次数为Nbtrp(20000),数据时间跨度与Np相同,反复自举抽样Nbtrp次直至达到收敛。对M1DS0、M1DS1、M1DS2,分别将各自4×Nmc类自举抽样数据(因为Np有4个取值),每类自举Nbtrp组,时间跨度为Np,分别保存为12个数据库文件[3]

分块自举法(block bootstrapping)是众多自举方法中比较常见的一种。它是指在重抽样时保证某一整“块”的数据放在同一个单元中被抽取。由于统计数据在很多情况下并不能满足独立同分布的性质,而是存在一定的相依结构[26]。分块自助法通过块状整体地抽取样本数据,保持了数据内部的相依性,其基本原理可参见图2。

图2 小样本数据分块自举抽样参数估计方法示意

步骤7:估计模型参数。对上述12个数据库中的数据,分别用单方程(SINGLE)、联立方程估计方法(OLS、2SLS、3SLS、LIML)对参数进行估计,将参数矩阵写成列向量形式θ=(a11 a12 a21 a22T。对生成的小样本数据,选取的诊断模型有单变量自回归模型(SINGLE)和向量自回归模型。联立方程估计方法包括OLS、2SLS、3SLS、LIML,依次用θOLSθ2SLSθ3SLSθLIML表示。首先比较单方程和VAR联立方程对样本数据的拟合情况,然后再针对VAR模型,对于其4种估计方法的小样本性质进行比较研究。

(2)小样本数据VAR诊断模型参数估计方法性质比较研究。

①小样本数据单方程及VAR诊断模型估计的拟合优度比较。

为了比较单方程和联立方程的诊断功效,本文不仅对样本容量分别为30、50、70、100四种具有异常点的小样本VAR联立方程进行OLS、2SLS、3SLS、LIML估计,也用单方程(SINGLE)拟合各内生变量的自回归模型,并计算出不同模型和方法对真实DDP模拟生成的小样本数据的拟合优度。表1列出了M1D30S1数据库中2元VAR(1)各方程的可调整拟合优度adjusted (其中K=2是每个方程解释变量个数,T=30是样本容量,RSS是被估计方程的残差平方和,TSS是样本的总体回归平方和。篇幅所限,此处只列出了样本容量为30的M1D30S1的拟合优度,其余所有具有异常点的数据库MiD30S1MiD50S1MiD70S1MiD100S1i=1,2,3,4)情况类似,此处略去)。从表1中不难看出,2元VAR(1)联立方程估计所得拟合优度除了OLS以外,其余的各种方法所得模型的拟合效果都比单方程要好得多。单方程关于y1的可调整拟合优度仅为0.0597,相当于3SLS的1/10。而基于2SLS、3SLS估计的残差均非常小,特别是y2,拟合优度高达0.9784和0.9438。LIML是通过极大化似然函数,同时估计出模型结构参数和方差矩阵,因此两个变量同时求得的拟合优度相等均为0.1149,此时较低的拟合优度原因是由于样本容量仅为30的小样本数据随机误差项分布和此处采用LIML估计所假定的大样本正态分布存在较大的差异。

以上分析表明,在有异常点和小样本数据情况下单方程诊断拟合效果和功效远远低于VAR联立方程,联立方程在性质上优于单方程。

表1 单方程(SINGLE)和2元VAR(1)联立方程四种估计方法的可调整拟合优度

②四种方法分块自举样本各参数估计量的统计分布特征。

为分析异常点对于VAR联立诊断模型各种估计方法的影响,现采用OLS、2SLS、3SLS、LIML四种方法对于所有13917组平稳DGP分块自举进行参数估计,得到参数估计的统计特征如表2所示(篇幅所限,表2只列出了M1D30S1的结果,对于所有具有异常点的MiD30S1MiD50S1MiD70S1MiD100S1i=1,2,3,4)情况类似,此处略去),可以发现:

(a)各种方法所得参数估计普遍低估了真实模型结构参数,其偏度、均值均小于0,在异常点和小样本等多种数据特征影响情况下,各种方法都或多或少不满足无偏性。四种方法估计出a12的J-B(即Jarque-Bera)统计量p值均为0,即全部拒绝该参数服从正态分布的原假设,其余3个估计参数p值都在10%以上,都可接受服从正态分布的原假设。

表2 2元VAR(1)联立诊断模型自举样本各参数估计的基本统计量特征

(b)从方差角度比较,3SLS的方差(a11a12a21a22的方差分别为0.01465、0.00527、0.01648、0.0145)都小于其他3种估计方法相对应参数的方差,2SLS方差最大(a11a12a21a22的方差分别为0.01507、0.00553、0.01704、0.01507)且具有较大的峰度,说明2SLS估计参数密度曲线比其他三种方法呈现出更强的尖峰厚尾性特点,其参数估计以较大的概率出现在模拟密度曲线中心位置。LIML和OLS估计在方差上的差异并不明显,比较接近。

图3给出了2元VAR(1)中4个待估参数用分块自举法所得到的模拟概率密度函数,使用的库文件是M1D30S1。在16个频率图中,左上方的4个图表示参数a11的4种估计方法结果,右上方4个图表示a12,左下方4个图表示a21,右下方4个图表示a22。每一个图中对比分析了各参数使用不同估计方法所得到的模拟密度曲线(用黑体柱状曲线表示)和真实密度曲线。所有方法参数估计偏度均小于0,说明各方法估计参数分布非对称性特征明显且呈现出左偏趋势。图3中各参数估计的密度曲线均已经过中心化处理,即各估计参数减去其均值后再除以其标准差。因此,相关方法如果能较好地估计模型参数的话,那么其模拟概率密度就应与真实的标准正态分布N(0,1)密度曲线相吻合,图中发现四种方法所得估计参数都与中心位置0相比明显左偏,即它们都低估了模型的真实参数。以a11为例进行说明,从图3中很容易看出,各种方法均低估了真实参数a11,而且2SLS所得估计呈现出明显的尖峰性特征,显著地异于其他方法,绝大部分估计值集中于模拟平均值,θ2SLS落在真实分布拒绝域的概率大于θLIML且小于θOLS落在真实分布拒绝域的概率,在在有异常点和小样本影响下,θLIML分布尾部较厚,落在真实分布拒绝域的概率大于θ3SLS且小于θOLS落在真实分布拒绝域的概率,因此,4种方法中估计参数偏离真实值的概率从高到低依次为:OLS、2SLS、LIML、3SLS,且偏离程度因各参数而异。

③小样本数据VAR诊断模型各参数估计方法性质比较。

图3 各参数估计方法自举抽样的模拟分布密度和真实分布密度比较

为了比较异常点和随机误差项分布对于小样本数据VAR联立方程各种参数估计方法的影响程度,现对所有动态随机优化网格法生成的Nmc种平稳DGP进行分析。仍以2元VAR(1)模型为例(Nmc=13917),采用的库文件是M1D30S1(有异常点,误差项服从正态分布)和M1D30S2(无异常点,误差项服从t分布),采用四种方法通过分块自举估计参数,计算出所有13917种DGP各参数对应的三种损失函数:为各种方法对第j种DGP第i次自举参数估计值,θj为第j种DGP各真实参数值),模拟结果如表3所示。这些指标都从绝对量(MSE、MAE)和相对量(RMSE)的角度反映出不同参数估计方法对VAR联立方程的诊断精度,对比这些指标发现以下性质:

(a)3SLS、LIML、2SLS三种方法在有异常点且随机误差项服从正态分布的估计精度均高于无异常点且误差项服从t分布的估计精度,t分布下的

表3 2元VAR(1)联立诊断模型自举样本各参数估计损失函数

三类损失函数MSE、MAE、RMSE均比正态分布下显著增大。以3SLS为例,对比误差项为正态分布和t分布的MSE有:a11为18.18(正态分布)<21.64(t分布);a12为6.38(正态分布)<7.77(t分布);a21为27.31(正态分布)<31.51(t分布);a22为18.35(正态分布)<21.55(t分布)。对比误差项为正态分布和t分布的MAE有:a11为39.9(正态分布)<44.69(t分布);a12为21.56(正态分布)<24.93(t分布);a21为50(正态分布)<54.64(t分布);a22为40.1(正态分布)<44.61(t分布)。对比误差项为正态分布和t分布的RMSE有:a11为0.727(正态分布)<0.866(t分布);a12为0.709(正态分布)<0.863(t分布);a21为0.759(正态分布)<0.875(t分布);a22为0.734(正态分布)<0.862(t分布)。LIML、2SLS也存在以上类似规律。这说明3SLS、LIML、2SLS估计精度均会受到异常点和误差项分布的影响,且误差项分布的影响更大。

(b)OLS在无异常点且随机误差项服从t分布下的估计精度高于有异常点且误差项服从正态分布下的估计精度,其变化规律与其他三种方法恰好相反。对比分析OLS下误差项为正态分布和t分布的MSE有:a11为29.77(正态分布)>26.49(t分布);a12为13.62(正态分布)>10.53(t分布);a21为40.91(正态分布)>37.55(t分布);a22为29.93(正态分布)>26.44(t分布)。对比误差项为正态分布和t分布的MAE有:a11为50.45(正态分布)>50.01(t分布);a12为31.82(正态分布)>30.11(t分布);a21为60.3(正态分布)>60.07(t分布);a22为50.49(正态分布)>49.96(t分布)。对比误差项为正态分布和t分布的RMSE有:a11为1.191(正态分布)>1.060(t分布);a12为1.513(正态分布)>1.170(t分布);a21为1.137(正态分布)>1.043(t分布);a22为1.197(正态分布)>1.057(t分布)。OLS之所以出现以上与其他三种方法不同的变化趋势可能是由于联立方程中OLS估计的有偏性导致其模拟密度曲线显著向左偏离于其真实密度,进而以较大概率落入了真实密度曲线的拒绝域,从而加大了异常值对于参数估计的影响。

(c)当有异常点且随机误差项服从正态分布时,3SLS和LIML各项损失函数均比较低,特别是3SLS,由于3SLS综合利用了方程间的有用信息,MSE、MAE和RMSE均在4种估计方法中处于最低。以正态分布下的MSE为例进行分析,a11的MSE由小到大为:18.18(3SLS)<20.88(LIML)<21.06(2SLS)<29.77(OLS);a12的MSE由小到大为:6.38(3SLS)<7.37(LIML)<7.41(2SLS)<13.62(OLS);a21的MSE由小到大为:27.31(3SLS)<30.08(LIML)<30.85(2SLS)<40.91(OLS);a22的MSE由小到大为:18.35(3SLS)<20.94(LIML)<21.1(2SLS)<29.93(OLS)。其余MAE和RMSE存在着类似规律。因此,从三种损失函数来看,4种估计方法的优劣排序为:3SLS、LIML最优,2SLS次之,OLS最差。

(d)当无异常点且误差项服从t分布时,3SLS和LIML的三类损失函数MSE、MAE、RMSE均显著低于其他两种方法同类指标。为说明一般性,此处随机以t分布下的RMSE为例进行分析,a11的RMSE由小到大为:0.866(3SLS)<0.872(LIML)<0.907(2SLS)<1.060(OLS);a12的RMSE由小到大为:0.863(3SLS)<0.870(LIML)<0.877(2SLS)<1.170(OLS);a21的RMSE由小到大为:0.875(3SLS)<0.886(LIML)<0.922(2SLS)<1.043(OLS);a22的RMSE由小到大为:0.862(3SLS)<0.872(LIML)<0.908(2SLS)<1.057(OLS)。其余MSE和MAE存在着类似规律。因此,在误差项服从t分布且无异常点下从三种损失函数来看,4种估计方法的优劣排序为:3SLS、LIML最优,2SLS次之,OLS最差。

综合以上,从参数估计损失函数来看,无论是在有异常点的正态分布下,还是无异常点的t分布下,小样本联立方程各类参数估计方法均以3SLS为最好,LIML、2SLS次之,OLS估计最差。以上方法优劣排序不随误差项分布的变化或异常点的出现而变化,其分析结果具有稳健性,因此,小样本数据VAR模型中3SLS估计诊断优于其他方法。

1.5.3 实证分析

为研究我国出口序列的长期趋势和演变特征,并依此为政府制订有效的贸易政策提供科学依据,现分别运用单方程和基于3SLS的VAR模型(前文已经证明该方法具有优于其他方法的良好性质)对其进行异常点诊断并进行比较分析。样本区间为1996年1月至2008年12月,以2000年作为基期并采用美国商务部和人口普查局使用的X-12对出口序列进行价格指数调整和季节调整。对出口量(EX)、人民币实际有效汇率(r)分别取对数后进行ADF单位根检验,发现lnEX是存在截距项和时间趋势的一阶单整序列,lnr是存在截距项的一阶单整序列。经ACF和PACF检验,出口增速dlnEX平稳且为AR(1)(d表示差分)。

1.5.3.1 出口序列异常点的单方程诊断

表4 出口增速序列(dlnEX)单方程AR(1)异常点诊断

对出口额增速(dlnEX)单独建立AR(1)模型进行数据质量诊断,在样本点不是异常点的原假设下,残差诊断统计量——学生化残差,其中s2i为删除第i个样本后所有剩余的样本方差,hi为矩阵P=XXX-1X′第i个对角线元素,X为解释变量矩阵,ei为估计残差。本文将t值大于1.5的点作为异常点。其结果为原序列有3个异常点,时间分别在2000年2月、2002年1月、2006年3月,其残差诊断如图4和表4(图4左上方是残差正态性检验,左下方是频率图,右上方是残差大小图,右下方是异常点检验)。

1.5.3.2 出口序列异常点的VAR联立模型诊断

由于出口和汇率密切相关,为了得到更多的有用信息帮助判断出口序列的变化特征,此处将基于lnEX与lnr组成的二元VAR模型进行异常点诊断。根据信息准则确定VAR模型滞后阶数为3,采用3SLS估计参数矩阵如(2)式所示(系数下的中括号中数值为t值)。

图4 残差诊断

在VAR(3)所得参数估计的基础上进行数据质量诊断,所得残差诊断如图5和表5所示。VAR(3)诊断模型中发现出口序列存在6个异常值,对应的时间分别是1996年1月、1998年1月、1998年2月、2000年3月、2006年4月、2007年12月。1995年我国大规模降低了出口退税税率,导致出口迅速下降,诊断结果发现1996年1月出现了异常点。1997年东南亚金融危机使我国出口显著下降,于是在1998年出现异常点,2006年以来美国次贷危机对我国出口造成了巨大的冲击,在2006、2007年均出现了异常点,以上异常点出现的时间均符合我国经济运行事实,可以看出出口序列异常点与我国外贸体制改革、外部冲击等事件均密切相关,而前面单方程诊断出的异常点主要发生在2000、2002、2006年等,而在我国应当显著发生异常点的1996、1998年却没有诊断出,说明单方程诊断出现了严重的偏误。

对比单方程和VAR联立模型诊断所得的结果可以发现,二者诊断出的我国出口序列发生异常点的时间和大小均不相同,单方程由于没有考虑经济系统其他变量之间的有用相关性信息且由于自身样本点之间互相干扰,导致异常点诊断出的结果发生错位且不完全,因此,基于3SLS的VAR模型诊断功效远远高于单方程和其他方法。

表5 VAR(3)联立模型异常点诊断

从以上研究结论可以看出,本文设定的小样本高维宏观经济统计数据VAR联立诊断模型不仅可以显著克服单方程诊断存在的不足,而且在联立方程中发现基于3SLS的诊断功效高于其他常用方法且具有良好的适用性,因此小样本VAR联立诊断方程不仅在管理科学理论上具有重要学术价值和理论价值,而且基于此所进行的宏观经济变量的实证研究和政策分析对于加强和提高政府宏观管理的准确性、有效性及其前瞻性都具有十分重要的现实意义。

图5 VAR(3)中lnEX、lnR异常点诊断(上两图为拟合值和样本值,下两图为残差)

参考文献

[1]Richard Huggins.2006. Understanding nonparametric estimation for clustered data. Biometrika,(6):486-489.

[2]Eric J Tchetgen,Brent A Coull. 2006. A diagnostic test for the mixing distribution in a generalized linear mixed model. Biometrika,(12):1003-1010.

[3]Furnival George M,Robert W Wilson. 1974. Regressions by leaps and bounds. American Statistical Association and American Society for Quality. Springer 16(4):499-511.

[4]Kianifard,Farid,William H Swallow. 1989. Using recursive residuals,calculated on adaptively-ordered observations to identify outliers in linear regression. International Biometric Society,(45):571-585.

[5]Hadi Ali S,Jeffrey S Simonoff. 1993. Procedures for the identification of multiple outliers in linear models. American Statistical Association,88(424):1264-1272.

[6]韦博成,鲁国斌,史建清.1991.统计诊断引论.南京:东南大学出版社。

[7]马阳明,韦博成.1993.带约束非线性回归模型的影响分析.东南大学学报,3:57-62。

[8]缪柏其.1993.关于只有一个变点模型的非参数的推断.系统科学与数学,2:132-140。

[9]李国英.2002.关于高维、相依的不完全数据的统计分析.数学进展,3:3-9。

[10]缪柏其,赵林城.2003.变点个数及位置的检测和估计.应用数学学报,1:26-39。

[11]赵媛媛.2005.含有不等式约束的回归问题的影响分析.应用数学学报,1:20-27。

[12]周建.2005.宏观经济统计数据诊断理论方法及其应用.北京:清华大学出版社。

[13]谭常春,赵林城.2007.至多一个变点的统计推断及应用.系统科学与数学,1:2-10。

[14]谭常春,缪柏其.2008.分部参数变点的非参数统计推断.中国科学技术大学学报,2:149-156。

[15]杨婷,杨虎.2007.椭球约束下线性模型的强影响分析.工程数学学报,1:61-64。

[16]叶五一,缪柏其.2007.基于分位点变点检验的金融传染分析.数量经济技术经济研究,10:151-160。

[17]Wang LM. 2008. Estimating for change point of the first-order autoregressive time series models. Chinese Journal of Applied Probability and Statistics,(1):29-36.

[18]Rawski,Thomas G. 2001. What’s happening to China’s GDP?China Economic Review,298-302.

[19]Lardy,Nicholas R. China Will Keep On Growing[J].Asian Wall Street Journal,2002,(6):2-9.

[20]Klein L R,S Ozmucur.2003. Estimate of the economic growth rate of China. Journal of Economic and Social Measurement,(4):187-202.

[21]阙里,钟笑寒.2005.中国地区GDP增长真实性检验.数量经济技术经济研究,4:7-12。

[22]Kroner K,R F Engle. 1995. Multivariate simultaneous ARCH. Econometric Theory,(11):122-150.

[23]Guido,Imbens W,Whitney K Newey. 2002. Identification and estimation of triangular simultaneous equations models without additivity. SSRN,T0285.

[24]Luc Anselin,G M Florax,Sergio J Rey. 2004. Econometrics for spatial models:Recent advances. In Advances in Spatial Econometrics,Methodology,Tools and Applications,Springer,1-25.

[25]M Iglesias,Emma,Garry,Phillips. 2005. Simultaneous equations and the validity of instrumental variables under conditionally heteroskedastic disturbance ESWC. London.

[26]Guan,Yongtao,Loh,Ji Meng. 2007. A thinned block bootstrap variance estimation procedure for inhomogeneous spatial point patterns. Journal of the American Statistical Association,(12):1377-1386.


[1] 基金项目:国家自然科学基金(71071092、70801040);2011年度教育部“新世纪优秀人才支持计划(NCET-11-0680)”;上海市浦江人才计划资助(11PJC065)。

[2] 周建(1976~),男,汉族,四川人,教授,博士生导师,经济学博士。主要研究方向:宏观经济管理与政策,计量经济学方法及应用;龚玉婷(1985~),女,汉族,福建人,数量经济学博士生。主要研究方向:理论计量经济学、经济系统仿真。

[3] 数据库文件(.mdb)为M1D30S0,M1D50S0,M1D70S0,M1D100S0,M1D30S1,M1D50S1,M1D70S1,M1D100S1,M1D30S2,M1D50S2,M1D70S2,M1D100S2