回归分析

此章节将记录回归分析课程中的知识点,供复习使用。

一元线性回归模型

模式表示方法

一元线性理论回归模型

y=β0+β1x+εE(εX)=0var(εX)=σ2\begin{aligned} y = \beta_0 + \beta_1x + \varepsilon\\ E(\varepsilon|X) = 0\\ var(\varepsilon|X)=\sigma^2 \end{aligned}

另一种表示方法

E(yx)=βo+β1xvar(yx)=σ2\begin{aligned} E(y|x)=\beta_o+\beta_1x\\ var(y|x) = \sigma^2 \end{aligned}

待估参数为:截距项β0\beta_0,斜率β1\beta_1,方差σ2\sigma^2

误差随机项εi\varepsilon_iGauss-Markov条件

高斯马尔科夫条件是最小二乘(OLS)的前提

E(εi)=0Var(εi)=σ2Cov(εi,εj)=0,ij\begin{aligned} E(\varepsilon_i)=0\\ Var(\varepsilon_i) = \sigma^2\\ Cov(\varepsilon_i,\varepsilon_j)=0,i\ne j \end{aligned}

参数估计及其性质

最小二乘估计

经验回归方程通过数据的重心(xˉ,yˉ)(\bar x,\bar y)

β^0=yˉβ^1xˉβ^1=Lxy/Lxx其中Lxx=i=1n(xixˉ)2=i=1nxi2n(xˉ)2Lxy=i=1n(xixˉ)(yiyˉ)=i=1nxiyinxˉyˉ\begin{aligned} \hat\beta_0 = \bar y -\hat\beta_1 \bar x\\ \hat\beta_1 = L_{xy} /L_{xx}\\ 其中\\ L_{xx} = \sum_{i=1}^n (x_i - \bar x)^2 = \sum_{i=1}^n x_i^2 - n(\bar x)^2\\ L_{xy} = \sum_{i=1}^n (x_i - \bar x)(y_i- \bar y) =\sum_{i=1}^n x_i y_i - n \bar x \bar y \end{aligned}

β1\beta_1与相关系数的关系

极大似然估计

仅考虑β0,β1\beta_0,\beta_1估计时,与最小二乘原理相同。进一步对σ2\sigma^2的估计为

σ2=1ni=1n(yiy^i)2=1ni=1nei2\sigma^2 = \frac{1}{n} \sum_{i=1}^n(y_i - \hat y_i)^2 = \frac{1}{n}\sum_{i=1}^ne_i^2

但是这是一个有偏估计量,所以一般采用调整后的无偏估计量作为方差的估计具体将在残差性质中证明

E(ei2)=(n2)σ2σ^2=1n2i=1n(yiyˉ)2\begin{aligned} E(\sum e_i^2) = (n-2)\sigma^2\\ \hat \sigma^2 = \frac{1}{n-2}\sum_{i=1}^n(y_i - \bar y)^2 \end{aligned}

最小二乘估计的性质

  • 线性性

    β0,β1\beta_0,\beta_1y1,y2,...,yny_1,y_2,...,y_n的线性组合:

    β^1=i=1n(xixˉ)Lxxyiβ^0=i=1n[1n(xixˉ)xˉLxx]yi\begin{aligned} \hat \beta_1 = \sum_{i=1}^n\frac{(x_i - \bar x)}{L_{xx}}y_i\\ \hat \beta_0 = \sum_{i=1}^n[\frac{1}{n}-\frac{(x_i - \bar x)\bar x}{L_{xx}}]y_i \end{aligned}

    给定xix_i,拟合值y^i\hat y_i可以表示为y1,y2,...,yny_1,y_2,...,y_n的线性组合

    y^i=β^0+β^1xi=j=1n[1n+(xixˉ)(xjxˉ)Lxx]yjj=1nhijyj\begin{aligned} \hat y_i = \hat \beta_0 +\hat \beta_1 x_i = \sum_{j=1}^n [\frac{1}{n}+\frac{(x_i - \bar x)(x_j - \bar x)}{L_{xx}}]y_j \doteq \sum_{j=1}^n h_{ij}y_j \end{aligned}

    残差eie_i可以表示为y1,y2,...,yny_1,y_2,...,y_n的线性组合

    ei=yiy^i=yij=1nhijyje_i = y_i - \hat y_i = y_i -\sum_{j=1}^n h_{ij}y_j

    注意hij=hjih_{ij}=h_{ji}是只和xx有关的量。

估计量的期望、方差、协方差

截距项β0\beta_0的估计量

β^0N(β0,[1n+xˉ2Lxx]σ2)\begin{aligned} \hat \beta_0 \sim N(\beta_0,[\frac{1}{n}+\frac{\bar x ^2}{L_{xx}}]\sigma^2) \end{aligned}

斜率项β1\beta_1的估计量

β^1N(β1,σ2Lxx)\hat \beta_1 \sim N(\beta_1,\frac{\sigma^2}{L_{xx}})

估计量的协方差

Cov(β^0,β^1)=xˉLxxσ2Cov(\hat \beta_0,\hat \beta_1) = -\frac{\bar x}{L_{xx}}\sigma^2

回归方程显著性检验

回归系数的显著性检验(t检验)

构造t统计量,其中σ^2\hat \sigma^2σ2\sigma^2的无偏统计量

t=β^10σ^2/Lxxt = \frac{\hat \beta_1 -0}{\sqrt{\hat \sigma^2/L_{xx}}}

回归方程的显著性检验(F检验)

构造F统计量服从卡方分布,右侧检验,越大越拒绝

F=SSR/1SSE/n2其中SST=i=1n(yiyˉ)2SSR=i=1n(y^iyˉ)2SSE=i=1n(y^iyi)2F = \frac {SSR/1}{SSE/n-2}\\其中\\ SST = \sum_{i=1}^n(y_i-\bar y)^2、SSR = \sum_{i=1}^n(\hat y_i - \bar y)^2,SSE = \sum_{i=1}^n(\hat y_i-y_i)^2

残差及其性质

残差eie_i可以表示为y1,y2,...,yny_1,y_2,...,y_n的线性组合

ei=yiy^i=yij=1nhijyj其中hij=1n+(xixˉ)(xjxˉ)Lxxe_i = y_i - \hat y_i = y_i -\sum_{j=1}^n h_{ij}y_j\\其中\\ h_{ij} = \frac{1}{n}+\frac{(x_i - \bar x)(x_j - \bar x)}{L_{xx}}

残差eie_i可以看做随机变量ε\varepsilon的非独立样本

残差的协方差

i=jCov(ei,ej)=(1hii)σ2ijCov(ei,ej)=hijσ2当i=j时\\ Cov(e_i,e_j)=(1-h_{ii})\sigma^2 \\ 当i \ne j时\\ Cov(e_i,e_j)=-h_{ij}\sigma^2

残差平方和的期望

E(ei2)=E(ei2)=Var(ei)=(1hii)σ2=(nhii)σ2=(n2)σ2E(\sum e_i^2) = \sum E(e_i^2) = \sum Var(e_i) = \sum (1-h_{ii})\sigma^2 = (n - \sum h_{ii})\sigma^2 = (n-2)\sigma^2

杠杆值hijh_ij

度量了自变量空间中的第ii个数据偏离数据中心的程度

i=1nhii=2,tr(H)=2j=1nhij2=hiik=1nhikhkj=hij\sum_{i=1}^n h_{ii} = 2,即tr(H) = 2\\ \sum_{j=1}^n h_{ij}^2 = h_{ii}\\ \sum_{k=1}^n h_{ik}h_{kj} = h_{ij}

以上性质在多元中,联系帽子矩阵HH可方便理解

区间预测

新值预测

y^0=j=1nh0jyjN(β0+β1x0,j=0nh0j2×σ2)=N(β0+β1x0,h00×σ2)y0y^0N(0,(1+h00)σ2)t=y0y^0(1+h00)σ2t(n2)\hat y_0 = \sum_{j=1}^n h_{0j}y_j \sim N(\beta_0 + \beta_1x_0,\sum_{j =0}^n h_{0j}^2 \times\sigma^2) = N(\beta_0 + \beta_1x_0,h_{00}\times\sigma^2)\\ y_0 - \hat y_0 \sim N(0,(1+h_{00})\sigma^2)\\ t =\frac{y_0 - \hat y_0}{\sqrt{(1+h_{00})\sigma^2}}\sim t(n-2)

y0y_0置信水平为1α1-\alpha预测区间y^0±tα/2×(1+h00)σ\hat y_0 \pm t_{\alpha/2}\times \sqrt{(1+h_{00})}\sigmah00h_{00}称为新值x0x_0的杠杆值

h00=1n+(x0xˉ)2Lxxh_{00} = \frac{1}{n}+\frac{(x_0-\bar x)^2}{L_{xx}}

样本量越大,LxxL_{xx}越大,x0x_0越靠近xˉ\bar x,则h00h_{00}越小,区间长度越短,预测精度越高

新值平均值的预测

因为E(y^0)E(\hat y_0)为常量,所以方差为0

y0E(y^0)N(0,h00×σ2)t=y0y^0h00×σ2t(n2)y_0 - E(\hat y_0) \sim N(0,h_{00}\times\sigma^2)\\ t =\frac{y_0 - \hat y_0}{\sqrt{h_{00}\times \sigma^2}}\sim t(n-2)

多元线性回归

矩阵表示

Y=Xβ+εE(ε)=0Var(ε)=σ2InY = X\beta + \varepsilon\\ E(\varepsilon) = 0\\ Var(\varepsilon) = \sigma^2 I_n

误差随机项ε\varepsilonGauss-Markov条件

E(ε)=0Var(ε)=σ2InE(\varepsilon) = 0\\ Var(\varepsilon) = \sigma^2I_n

随机误差项满足正态分布假设,矩阵表示形式为εN(0,σ2In)\varepsilon\sim N(0,\sigma^2I_n),此时YN(Xβ,σ2In)Y\sim N(X\beta,\sigma^2I_n)

参数估计及其性质

目标函数Q(β^)Q(\hat \beta)最小

Q(β^)=(YXβ)T(YXβ)最小得到β^=(XTX)1XTYQ(\hat \beta) = (Y - X\beta)^T(Y-X\beta)\\最小得到 \\\hat \beta =(X^TX)^{-1}X^TY

拟合值和残差的矩阵表示

引入帽子矩阵(投影矩阵)H=X(XTX)1XTH=X(X^TX)^{-1}X^T的概念,其各元素为hijh_{ij},即为一元回归中的杠杆值

Y^=Xβ^=X(XTX)1XTYHYe=YY^=(IH)Y\hat Y = X \hat \beta = X(X^TX)^{-1}X^TY \doteq HY \\ e = Y - \hat Y = (I-H)Y

其中HH是只和XX相关的量

帽子矩阵HH的性质

  • HH为对称幂等阵

  • tr(H)=j=1nhjj=p+1tr(H) =\sum_{j=1}^nhjj= p+1

  • rk(H)=tr(H)=p+1rk(H) = tr(H) = p+1

  • IHI-H为对称幂等阵

  • rk(IH)=np1rk(I-H) = n-p-1

实对称幂等矩阵的特征根非0即1

方差的极大似然估计

极大似然估计量是有偏的估计

σ^2=1n(YXβ)T(YXβ)=1neTe\hat \sigma^2 = \frac {1}{n}(Y - X\beta)^T(Y-X\beta) = \frac{1}{n}e^Te

无偏估计为

σ^2=1np1eTe=1np1YT(InH)Y\hat \sigma^2 = \frac{1}{n-p-1}e^Te = \frac{1}{n-p-1}Y^T(I_n-H)Y

因为

E(eTe)=E(i=1nei2)=i=1nE(ei2)=i=1nVar(ei2)=(np1)σ2E(e^Te) = E(\sum_{i=1}^ne_i^2) = \sum_{i=1}^nE(e_i^2) = \sum_{i=1}^nVar(e_i^2)=(n-p-1)\sigma^2

估计量的方差矩阵

Var(β^)=Cov(β^,β^)=σ2(XTX)1Var(\hat \beta) = Cov(\hat \beta,\hat\beta) = \sigma^2(X^TX)^{-1}

通常(XTX)1(X^TX)^{-1}为非对角矩阵,即β^\hat \beta各分量间具有相关性

残差及其性质

与一元模型一致

i=jCov(ei,ej)=(1hii)σ2ijCov(ei,ej)=hiiσ2当i=j时\\ Cov(e_i,e_j)=(1-h_{ii})\sigma^2 \\ 当i \ne j时\\ Cov(e_i,e_j)=-h_{ii}\sigma^2
  • Cov(e,Y^)=Cov((InH)Y,HY)=0Cov(e,\hat Y) = Cov((I_n-H)Y,HY)=0

  • Cov(e,y^o)=Cov((InH)Y,xo(XTX)1XTY)=0Cov(e,\hat y_o) =Cov((I_n-H)Y,x_o(X^TX)^{-1}X^TY)=0

  • Cov(e,β^)=Cov((InH)Y,(XTX)1XTY)=0Cov(e,\hat\beta) =Cov((I_n-H)Y,(X^TX)^{-1}X^TY)=0

  • XTe=0X^Te=0

X正态假设下的分布

  • 观测Y

    YN(Xβ,σ2In)Y \sim N(X\beta,\sigma^2I_n)
  • 参数估计值

    β^N(β,σ2(XTX)1)\hat \beta \sim N(\beta,\sigma^2 (X^TX)^{-1})
  • 预测值Y^\hat Y

    Y^=HYN(Xβ,σ2H)\hat Y = HY\sim N(X\beta,\sigma^2H)
  • 预测单值y^0\hat y_0

    y^0=x0T(XTX)XTYN(x0Tβ,σ2x0T(XTX)1x0)\hat y_0 = x_0^T(X^TX)X^TY\sim N(x_0^T\beta,\sigma^2x_0^T(X^TX)^{-1}x_0)
  • 残差向量ee

    e=(InH)YN(0,σ2(InH))e = (I_n-H)Y \sim N(0,\sigma^2(I_n-H))
  • SSE/σ2SSE/\sigma^2

    (np1)σ^2σ2=SSEσ2=YT(InH)Yσ2χ2(np1)\frac{(n-p-1)\hat\sigma^2}{\sigma^2}= \frac{SSE}{\sigma^2} = \frac{Y^T(I_n-H)Y}{\sigma^2} \sim \chi^2(n-p-1)
  • σ^2\hat \sigma^2 β^\hat \beta独立

回归方程的显著性检验

F检验统计量

右侧检验,越大越拒绝,认为模型有效

F=SSR/pSSE/(np1)F = \frac{SSR/p}{SSE/(n-p-1)}
  • SSR

    YT(H1n1n1nT)YY^T(H-\frac{1}{n}\mathbf{1}_n\mathbf{1}_n^T)Y

    其中Rank(H1n1n1nT)=p+11=pRank(H-\frac{1}{n}\mathbf{1}_n\mathbf{1}_n^T)=p+1-1=p

  • SSE

    YT(InH)YY^T(I_n-H)Y

    其中Rank(InH)=np1Rank(I_n-H)=n-p-1

  • SST

    YT(In1n1n1nT)YY^T(I_n-\frac{1}{n}\mathbf{1}_n\mathbf{1}_n^T)Y

其中Rank(In1n1n1nT)=n1Rank(I_n-\frac{1}{n}\mathbf{1}_n\mathbf{1}_n^T)=n-1

t检验

参数估计值β^N(β,σ2(XTX)1)\hat\beta\sim N(\beta,\sigma^2(X^TX)^{-1})

原假设下

β^jN(0,σ2cjj)\hat\beta_j \sim N(0,\sigma^2c_{jj})

其中cjjc_{jj}表示(XTX)1(X^TX)^{-1}j+1j+1个对角线上的元素

t统计量

tj=β^jcjjσt(np1)t_j = \frac{\hat \beta_j}{\sqrt{c_{jj}}\sigma} \sim t(n-p-1)

拟合优度R2R^2

R2R^2表示因变量的变异中,自变量可以解释的比例

R2=SSRSSTR^2 = \frac{SSR}{SST}

样本复相关系数

R=R2R = \sqrt{R^2}

自由度调整后的R2R^2

Ra2=1n1np1(1R2)R_a^2 = 1-\frac{n-1}{n-p-1}(1-R^2)

区间预测

新值预测

构造tt统计量

t=y0y^01+x0T(XTX)1x0Tσ^t(np1)t = \frac{y_0-\hat y_0}{\sqrt{1+x_0^T(X^TX)^{-1}x_0^T}\hat\sigma}\sim t(n-p-1)

y0y_0置信水平为1α1-\alpha预测区间y^0±tα/2(np1)×1+x0T(XTX)1x0Tσ^\hat y_0 \pm t_{\alpha/2}(n-p-1)\times \sqrt{1+x_0^T(X^TX)^{-1}x_0^T}\hat\sigma

新值平均值预测

t=y^0E(y0)x0T(XTX)1x0Tσ^t(np1)t = \frac{\hat y_0-E(y_0)}{\sqrt{x_0^T(X^TX)^{-1}x_0^T}\hat\sigma}\sim t(n-p-1)

y0y_0置信水平为1α1-\alpha预测区间y^0±tα/2(np1)×x0T(XTX)1x0Tσ^\hat y_0 \pm t_{\alpha/2}(n-p-1)\times \sqrt{x_0^T(X^TX)^{-1}x_0^T}\hat\sigma

中心化的影响

  • XX中心化后,斜率的估计量不变,截距项的估计值变为yˉ\bar y

  • XXYY中心化,斜率的估计量不变,截距项的估计值变为0

  • 事实上,任何形式的坐标平移都不影响斜率项的估计值

回归诊断

残差及残差图

残差值向量

e=YY^=YHY=(IH)Ye = Y - \hat{Y} = Y - HY = (I-H)Y

学生化残差

将残差进行标准化,$Var(e_i) = (1-h_{ii})\sigma^2$

ri=eivar(ei)^=eiσ^1hiir_i = \frac{e_i}{\sqrt{\hat{var(e_i)}}} = \frac{e_i}{\hat{\sigma}\sqrt{1-h_{ii}}}

即使$\varepsilon \sim N(0,1)$,$r_i$的分布依旧比较复杂,且诸$r_i$间彼此不独立

E(ri)=0Var(ei)=1ρ(ri.rj)=hij1hii1hjjE(r_i)=0\\ Var(e_i)=1\\ \rho(r_i.r_j)=\frac{-h_{ij}}{\sqrt{1-h_{ii}}\sqrt{1-h_{jj}}}

但是在实际应用中,还是近似将$r_i$认为为服从标准正态分布

残差图

以某种残差为纵坐标,某一合适的量为横坐标的散点图

异常点和强影响点

异方差性及其处理

自相关性及其处理

多重共线性及其处理

最后更新于