Regression Analysis —— from Regression to OLS(未完工)

2024 年 5 月 13 日 星期一(已编辑)
/
43
这篇文章上次修改于 2024 年 10 月 1 日 星期二,可能部分内容已经不适用,如有疑问可询问作者。

Regression Analysis —— from Regression to OLS(未完工)

本文是基于非数学系的概率论与数理统计内容,对计量经济学中的回归(Regression)进行的分析。主要参考的教材为中科大陈希儒教授的概率论与数理统计和Wooldridge的Introductory Econometrics: A Modern Approach。同时推荐看一下李子奈教授的计量经济学和洪永淼教授的高级计量经济学及其B站的课程,辅助理解。

如陈教授在书中所言,对于概率论的理解不应光是形式地看待一些分析公式,更重要的是要分析其概率意义及直观理解,这样才能加深理解。而科研则是概率论应用的一个非常好的场景。

但是很多研究者对计量经济学的模型的态度是,只要知道结果的含义即可,这些计量的方法只不过是工具而已。这样的态度使得计量经济学只是一个黑箱,仿佛把数据丢进去,产出的结果是我们想要的,便证明了我们的想法。

或许,对于一个只是想发论文过上更丰厚的物质生活的人来说,这并无大碍。但是,对于一个想要进行真正研究的人来说,我认为这样的态度是完全不可取的。如果不对计量模型有一定程度的理解,很容易就会漏掉一些信息,因为所有的模型都有缺陷,都有很多的假设,我们在解释模型时,应当对这些缺陷予以考虑,才称得上是严谨。而严谨,我认为是研究必须要有的。

故本文以一个非数学系的学生的水平,以相对严谨的态度,分析回归(Regression)的理论基础与现实的直观理解。

1. 一个简洁但严谨的理论分析


以MSE作为估计的衡量标准,此时g(X)=E(YX)g(X)=E(Y|X)使得MSE(g)=E[Yg(X)]2\text{MSE}(g)=E[Y-g(X)]^2最小。定义εYE(YX)\varepsilon\equiv Y-E(Y|X)可得Y=E(YX)+εY=E(Y|X)+\varepsilon,此时E(εX)=0E(\varepsilon|X)=0

假定Y=βX+εY=\beta^\prime X+\varepsilon,同时假定E(εX)=0E(\varepsilon|X)=0,便可得E(YX)=βXE(Y|X)=\beta^\prime X

根据OLS方法,可得β^\hat\beta

实际上OLS估计的β^\hat \beta是线性拟合的最优值β\beta^\ast的一致估计,而E(εX)=0E(\varepsilon|X)=0Y=Xβ+εY=X^\prime\beta+\varepsilon保证了该值是均方误最优值βo\beta^o

以上便是一个本文分析的大纲,一开始看不懂无妨,后面都会有很详细的讨论

2. 社会科学在研究什么


因果推断实证研究方法_江艇 0:43:00

江艇老师认为,经济学研究的是趋势,而并非确定值。也就是说即使条件期望函数是非线性的,但是总体回归函数是条件期望的最佳线性拟合,同时OLS是总体回归函数的一致估计量,虽然与条件期望函数不一致,但是趋势应当是一致的,可以作为因果关系的佐证。

3. 所需的概率论与数理统计前置知识


在看后面的内容之前,应当确保自己掌握了这些前置知识

可以在B站看一些课程辅助理解

强烈推荐洪永淼教授的高级计量经济学,看之前应该把第二章看了,因为这部分会说一些课程的约定,比如XX, xx, XX^\prime分别代表什么

前置的微积分与线性代数知识

概率论有许多推导其实会涉及到微积分与线性代数的少量知识,尤其是二重积分,会经常用到

基本概念

  • 随机变量及其概率分布
  • 随机变量的数字特征
  • 参数估计
  • 假设检验

必须深刻理解的概念

基本概念的内容很多,但是至少也应当对简单情形理解。而其中有一些概念对于理解回归至关重要。

  • 条件概率分布与随机变量的独立性
  • 条件期望,尤其是迭代期望法则
  • 总体与样本
  • 估计量与估计值,尤其是一些常见的估计量,更重要的是理解什么是估计量,与估计值的区别是什么
  • 大数定律和中心极限定理
  • 矩估计和极大似然估计
  • 重要参数的检验

其中最为重要的就是迭代期望法则(Law of Iterated Expectation)条件概率分布与条件期望

迭代期望法则(Law of Iterated Expectation)

E[E(YX)]=E(Y)\begin{equation*}E[E(Y|X)]=E(Y)\end{equation*}

一定要自己推导一遍以加深理解,同时也要理解其推广形式(陈希儒《概率论与数理统计》3.1.3 条件数学期望(条件均值))

4. 回归(Regression)


回归(Regression)这个术语是英国生物学家兼统计学家F • 高尔顿在1886年左右提出来的。人们大概都注意到,子代的身高与其父母的身高有关。高尔顿以父母的平均身高XX作为自变量,其一成年儿子的身高YY为因变量。他观察了1074对父母及其一成年儿子的身高,将所得(X,Y)(X,Y)值标在直角坐标系上,发现二者的关系近乎一条直线,有如下图所示。总的趋势是XX增加时YY倾向于增加——这是意料中的结果。有意思的是,高尔顿对所得数据做了深入一层的考察,而发现了某种有趣的现象。

高尔顿算出这1074个XX值的算术平均为Xˉ\bar X=68英寸(1英寸为2.54厘米),而1074个YY值的算术平均为Yˉ\bar Y=69英寸,子代身高平均增加了1英寸,这个趋势现今人们也注意到。以此为据,人们可能会这样推想:如果父母平均身高为aa英寸,则这些父母的子代平局身高应a+1a+1英寸,即比父代多1英寸。但高尔顿观察的结果与此不符,他发现:当父母平均身高为72英寸时,他们的子代身高平均只有71英寸,不仅达不到预计的72+1=73英寸,反而比父母平均身高小了。反之,若父母平均身高为64英寸,则观察数据显示子代平均身高为67英寸,比预计的64+1=65英寸要多。

高尔顿对此的解释是:大自然有一种约束机制,使人类身高分布保持某种稳定形态而不作两极分化。这就是一种使身高“回归于中心”的作用。例如,父母身高平均为72英寸,比他们这一代平均身高68英寸高出许多,“回归于中心”的力量把他们子代的身高拉回来一些:其平均身高只有71英寸,反比父母平均身高小,但仍超过子代全体平均69英寸。反之,当父母平均身高只有64英寸——远低于他们这一代的平均值68英寸时,”回归于中心“的力量将其子代身高拉回去一些,其平均值达到67英寸,增长了3英寸,但仍低于子代全体平均值69英寸。

正是通过这个例子,高尔顿引入了“回归”这个名词。现在我们觉得,高尔顿的例子只反映了变量关系中的一种情况,在其他涉及变量关系的众多情况中,多不必如此,故拿这个名称作为变量关系统计分析的称呼,实不见得恰当。但这个名词现今已沿用成习,如硬要改变,反觉多此一举了。(摘自陈希儒《概率论与数理统计》6.1末)

计量模型

我们的计量模型实际上也是在做这件事,但是,我们一般假设,E(YX)E(Y|X)是线性的,即E(YX)=βXE(Y|X)=\beta^\top X

同时要强调,Y=E(YX)+εY=E(Y|X)+\varepsilon是一个恒等式,仅仅需要E(YX)E(Y|X)存在即可,一定要深刻理解这个概念。或许,你需要先全看一遍,才能理解这句话。

而条件期望函数(Conditional Expectation Function, CEF)并不一定是线性的,一定要注意辨析,参考

regression function and regression model

在洪永淼教授的Lecture Notes on ADVANCED ECONOMETRICS中,将E(YX)E(Y|X)定义为Regression Function,而Y=Xβ+εY=X^\prime\beta+\varepsilon定义为Linear Regression Model

Wooldridge在Introductory Econometrics: A Modern Approach中定义E(YX)E(Y|X)为Population Regression Function

5. 回归好坏的衡量标准——MSE和MAE


在经典回归模型中,我们希望用解释变量(regressand)XX的函数g(X)g(X)来预测被解释变量(regressor)YY。此时需要一个标准来测度g(X)g(X)YY的接近程度,均方误(mean squared error, MSE)准则最常被使用,MSE是预测误差(预测值g(X)g(X)与目标YY之差)的平方的期望,表达式如下

MSE(g)=E[Yg(X)]2=[yg(x)]2fXY(x,y)dxdy\begin{equation*}\text{MSE}(g)=E[Y-g(X)]^2=\iint[y-g(x)]^2f_{XY}(x,y)dxdy\tag{1}\end{equation*}

显然,MSE越小,g(X)g(X)YY的预测能力越强。因此现在的问题转换为,求解使MSE最小的函数g()g(\cdot),注意到MSE是函数g()g(\cdot)的函数。

事实上,条件均值E(YX)E(Y|X)就是使MSE最小的函数g0(X)g_0(X),可以用求微分和方差分解两种方法证明(证明见此文章)。

E(YX)E(Y|X)XX而非YY的函数

一定要深刻理解此概念

另一标准——MAE

MSE是衡量g(X)g(X)YY的预测能力的准则之一,但非唯一准则。例如,平均绝对误差(mean absolute error, MAE),

MAE(g)=EYg(X)\begin{equation*}\text{MAE}(g)=E|Y-g(X)|\end{equation*}

此时,使MAE最小的函数g(X)g(X)是条件中位数,分位数回归采用的正是该准则。

相比MAE,MSE具有连续可导的优良性质。

6. Y=E(Y|X)+ε是一个恒等式


认为Y=E(YX)+εY=E(Y|X)+\varepsilon是一个假设,是常见的误区。

事实上,如果E(YX)E(Y|X)存在,我们总可以写成

Y=E(YX)+ε\begin{equation*}Y=E(Y|X)+\varepsilon\end{equation*}

其中ε\varepsilon被称为回归扰动项,同时具有以下属性

E(εX)=0\begin{equation*}E(\varepsilon|X)=0\end{equation*}

实际上,ε\varepsilon是被定义出来的,即ε=YE(YX)\varepsilon=Y-E(Y|X),从而

Y=E(YX)+ε\begin{equation*}Y=E(Y|X)+\varepsilon\end{equation*}

作为一个社科研究者,也要清楚,E(YX)E(Y|X)本身并不说明任何的YYXX之间的因果关系。

更多讨论见下一节,以及参考洪永淼教授的高级计量经济学课程讲义定理2.4部分及其讲解

7. 零条件均值假设的由来与分析


在MSE中

假定g0(X)=E(YX)g_0(X)=E(Y|X),同时定义ε=YE(YX)\varepsilon=Y-E(Y|X),则可证

E(εX)=E[YE(YX)X]=E(YX)E[E(YX)X]=E(YX)E[g0(X)X]=E(YX)g0(X)=0\begin{aligned}E(\varepsilon|X)&=E[Y-E(Y|X)|X]\\ &=E(Y|X)-E[E(Y|X)|X]\\ &=E(Y|X)-E[g_0(X)|X]\\ &=E(Y|X)-g_0(X)\\ &=0\end{aligned}

其中用到了性质E[c(X)X]=c(X)E[c(X)|X]=c(X),详见Wooldridge的Introductory Econometrics: A Modern Approach附录B.4。

这是一个比E(ε)=0E(\varepsilon)=0更强的假设

E(ε)=0E(\varepsilon)=0经常被误解为比E(εX)=0E(\varepsilon|X)=0更强的假设,甚至错误的认为E(ε)=0E(\varepsilon)=0可以推出E(εX)=0E(\varepsilon|X)=0

事实上,相反,由E(εX)=0E(\varepsilon|X)=0可以推出E(ε)=0E(\varepsilon)=0,只需用迭代期望法则

E[E(εX)]=E(ε)\begin{equation*}E[E(\varepsilon|X)]=E(\varepsilon)\end{equation*}

为什么需要这一假定?

事实如上一节所讲,只要E(YX)E(Y|X)存在,Y=E(YX)+εY=E(Y|X)+\varepsilon是一个恒等式,同时E(εX)=0E(\varepsilon|X)=0也必然成立,为什么我们还需要零条件均值假定?

实际上在于假定E(YX)=βXE(Y|X)=\beta^\prime X

假设Y=βX+εY=\beta^\prime X+\varepsilon,若E(εX)=0E(\varepsilon|X)=0,则

E(YX)=E(XβX)+E(εX)=Xβ\begin{align*}E(Y|X)&=E(X^\prime\beta|X)+E(\varepsilon|X)\\ &=X^\prime\beta\end{align*}

E(εX)0E(\varepsilon|X)\neq0,则

E(YX)=E(XβX)+E(εX)=Xβ+E(εX)Xβ\begin{align*}E(Y|X)&=E(X^\prime\beta|X)+E(\varepsilon|X)\\ &=X^\prime\beta+E(\varepsilon|X)\\ &\neq X^\prime\beta\end{align*}

也就是说,零条件均值假设是为了让总体回归函数(Population Regression Function, PRF)成为我们期望的形式。在线性回归中,便是E(YX)=βXE(Y|X)=\beta^\prime X。否则E(YX)E(Y|X)是由XβX^\prime\betaE(εX)E(\varepsilon|X)共同决定的,我们便无法通过样本XX正确地估计E(YX)E(Y|X)的系数,甚至连形式都无法确定。

而回归的系数无偏,在我看来,或许只是这个假定的副产品,不如满足线性形式更加重要,但是很多教科书并不会提这个原因。

一个简单例子可见该文章,李子奈教授在《计量经济学》中的讨论以及Wooldridge在Introductory Econometrics: A Modern Approach的2.1节末的讨论。

8. 何谓内生性与控制变量


问题

什么是正确的模型?

E(YX)E(Y|X)吗? dE(YX)dX\frac{\text{d}E(Y|X)}{\text{d}X}为什么是X对Y的边际效应(the marginal effect of X on Y)?

思考(我还没能回答上面的问题)

考虑一个情境,现实中的YY的函数为Y=2X1+14X2+14X3Y=2X_1+\frac 1 4 X_2+\frac 1 4 X_3,同时X1,X2,X3i.i.d.X_1,X_2,X_3\sim i.i.d.,且X1N(1,1)X_1\sim \text{N(1,1)}。但是,我们并不知道

此时我们用Y=β0+β1X1+εY=\beta_0+\beta_1X_1+\varepsilonYY建模,肯定是一个对E(YX1)E(Y|X_1)的正确建模,但是X2,X3X_2,X_3是否应该当作控制变量呢?

首先考虑模型

Y=β0+β1X1+ε=Xβ+ε\begin{equation*}\begin{split}Y&=\beta_0+\beta_1X_1+\varepsilon\\ &=X^\prime\beta+\varepsilon\end{split}\tag{1}\end{equation*}

肯定存在一个βoR\beta^o\in\mathbb{R},使得MSE最小,且此时β=[E(XX)]1E(XY)=βo\beta^\star=[E(XX^\prime)]^{-1}E(XY)=\beta^o。同时,E(εX1)=0E(\varepsilon|X_1)=0也必然成立。

证明:

首先有

E(YX1)=E(2X1+14X2+14X3X1)=E(2X1X1)+E(14X2+14X3X1)=2X1+E(14X2+14X3)=2X1+12\begin{align*}E(Y|X_1)&=E(2X_1+\frac 1 4 X_2+\frac 1 4 X_3|X_1)\\ &=E(2X_1|X_1)+E(\frac 1 4 X_2+\frac 1 4 X_3|X_1)\\ &=2X_1+E(\frac 1 4 X_2+\frac 1 4 X_3)\\ &=2X_1+\frac 1 2\end{align*}

也就是说βo=(12,2)\beta^o=\left(\frac 1 2,2\right)^\prime使得MSE最小,此时有

E(εX1)=E(Y122X1X1)=E(14X2+14X312X1)=0\begin{align*}E(\varepsilon|X_1)&=E(Y-\frac 1 2-2X_1|X_1)\\ &=E(\frac 1 4 X_2+\frac 1 4 X_3-\frac 1 2|X_1)\\ &=0\end{align*}

此时肯定还有[E(XX)]1E(XY)=(12,2)[E(XX^\prime)]^{-1}E(XY)=\left(\frac 1 2,2\right)^\primeE(β^)=(12,2)E(\hat\beta)=\left(\frac 1 2,2\right)^\prime,其中β^\hat\beta为OLS的估计量,即β^=(XX)1XY\hat\beta=(X^\prime X)^{-1}X^\prime Y。但是先不证了。

9. 截距项的含义


The intercept β0o\beta^o_0 corresponds to the variable X0X_0 = 1, which is always uncorrelated with any other random variables. It captures the "average effect" on YY from all possible factors rather than the explanatory variables in XtX_t. For example, consider the standard Capital Asset Pricing Model (CAPM)

E(YX)=β0o+β1oX1\begin{equation*}E(Y|X)=\beta^o_0+\beta^o_1X_1\end{equation*}

where YY is the excess portfolio return (i.e., the difference between a portfolio return and a risk-free rate) and X1X_1 is the excess market portfolio return (i.e., the difference between the market portfolio return and a risk-free rate). Here, β0o\beta^o_0 represents the average pricing error. When CAPM holds, β0o\beta^o_0 = 0. Thus, if the data generating process has β0o\beta^o_0 > 0, CAPM underprices the portfolio. If β0o\beta^o_0 < 0, CAPM overprices the portfolio.

No economic theory ensures that the functional form of E(YX)E(Y|X) must be linear in XX. Nonlinear functional form in XX is a generic possibility. Therefore, we must be very cautious about the economic interpretation of linear coefficients.

但是R2R^2依然不等于1,为什么?

可能是因为还有ε\varepsilon,因为β0o\beta^o_0只代表了期望值

A.1 拓展阅读


Granger and Machina(2006) conditional heteroskedaticity

Akaike(1973) AIC

A.2 番外:区分T显著性与经济含义


BV1xd4y1G7ag P5 1:10:00 左右处

思路

对于

T=β^jβjse(β^j)\begin{equation*}T=\frac{\hat\beta_j-\beta_j}{se(\hat\beta_j)}\end{equation*}

既可以是β^j\hat\beta_j很大,也有可能是se(β^j)se(\hat\beta_j)很小,即精度很高。

这时要小心,我们只是在检验βj\beta_j是否为0。统计显著代表的是βj\beta_j很大概率不为0,但却不能一定说βj\beta_j具有经济显著性。而经济显著性,则要观察βj\beta_j代表的实际含义了。

可参考Wooldridge - Introductory Econometrics: A Modern Approach的4-2f Economic, or Practical, versus Statistical Significance P132

以及洪永淼 - Lecture Notes on ADVANCED ECONOMETRICS的3.7 Hypothesis Testing P35的remarks

使用社交账号登录

  • Loading...
  • Loading...
  • Loading...
  • Loading...
  • Loading...