1 Contrastes para las \(\beta_i\) usando la distribución t-student

1.1 Teoría

Queremos resolver los contrastes:

\[ H_0: \beta_i = 0 \\ H_1: \beta_i \neq 0 \]

para el modelo \(y_i = \beta_0 + \beta_1 x_{1i} + \cdots + \beta_k x_{ki} + u_i\). Hemos visto que

\[ \frac{\hat \beta_i - \beta_i}{se(\hat \beta_i)} \rightarrow t_{n-k-1} \]

Por tanto, si \(H_0\) es cierta:

\[ t_0 = \frac{\hat \beta_i}{se(\hat \beta_i)} \rightarrow t_{n-k-1} \]

Sea \(t_{n-k-1;\alpha/2}\) el valor de una t-student con (n-k-1) grados de libertad tal que

\[ P(t_{n-k-1} \geq t_{n-k-1;\alpha/2}) = \alpha/2 \]

  • si \(t_0 \geq t_{n-k-1;\alpha/2}\): se rechaza \(H_0\)
  • si \(t_0 \leq t_{n-k-1;\alpha/2}\): no se rechaza \(H_0\)

Se define el pvalor como:

\[ pvalor = 2 P(t_{n-k-1} \geq |t_0|) \]

Por tanto

  • si \(pvalor \leq \alpha\): se rechaza \(H_0\)
  • si \(pvalor \geq \alpha\): no se rechaza \(H_0\)

1.2 Ejemplo

## 
## Call:
## lm(formula = Species ~ Area + Elevation + Nearest + Scruz + Adjacent, 
##     data = d)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -111.679  -34.898   -7.862   33.460  182.584 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  7.068221  19.154198   0.369 0.715351    
## Area        -0.023938   0.022422  -1.068 0.296318    
## Elevation    0.319465   0.053663   5.953 3.82e-06 ***
## Nearest      0.009144   1.054136   0.009 0.993151    
## Scruz       -0.240524   0.215402  -1.117 0.275208    
## Adjacent    -0.074805   0.017700  -4.226 0.000297 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 60.98 on 24 degrees of freedom
## Multiple R-squared:  0.7658, Adjusted R-squared:  0.7171 
## F-statistic:  15.7 on 5 and 24 DF,  p-value: 6.838e-07

Veamos de donde salen los valores de la tabla anterior:

  • Estimate:
##  (Intercept)         Area    Elevation      Nearest        Scruz 
##  7.068220709 -0.023938338  0.319464761  0.009143961 -0.240524230 
##     Adjacent 
## -0.074804832
  • Std. Error:
## (Intercept)        Area   Elevation     Nearest       Scruz    Adjacent 
## 19.15419782  0.02242235  0.05366280  1.05413595  0.21540225  0.01770019
  • t value:
##  (Intercept)         Area    Elevation      Nearest        Scruz 
##  0.369016796 -1.067610554  5.953187968  0.008674366 -1.116628222 
##     Adjacent 
## -4.226216850
  • Pr(>|t|) (es decir, p-valores):
##  (Intercept)         Area    Elevation      Nearest        Scruz 
## 7.153508e-01 2.963180e-01 3.823409e-06 9.931506e-01 2.752082e-01 
##     Adjacent 
## 2.970655e-04
  • Si juntamos todo en una tabla:
##                   beta_e     beta_se      t_value     pvalores
## (Intercept)  7.068220709 19.15419782  0.369016796 7.153508e-01
## Area        -0.023938338  0.02242235 -1.067610554 2.963180e-01
## Elevation    0.319464761  0.05366280  5.953187968 3.823409e-06
## Nearest      0.009143961  1.05413595  0.008674366 9.931506e-01
## Scruz       -0.240524230  0.21540225 -1.116628222 2.752082e-01
## Adjacent    -0.074804832  0.01770019 -4.226216850 2.970655e-04

2 Relación entre intervalos de confianza y contrastes

En el caso de contrastes bilaterales:

\[ H_0: \beta_i = 0 \\ H_1: \beta_i \neq 0 \]

Y con intervalo de confianza:

\[ \beta_i \in (a_i, b_i) \]

  • Si \(0 \in (a_i, b_i) \Rightarrow\) no se rechaza \(H_0\).
  • Si \(0 \notin (a_i, b_i) \Rightarrow\) se rechaza \(H_0\).

En el caso del ejemplo, si miramos pvalores e intervalos:

##                   2.5 %      97.5 %
## (Intercept) -32.4641006 46.60054205
## Area         -0.0702158  0.02233912
## Elevation     0.2087102  0.43021935
## Nearest      -2.1664857  2.18477363
## Scruz        -0.6850926  0.20404416
## Adjacent     -0.1113362 -0.03827344
## 
## Call:
## lm(formula = Species ~ Area + Elevation + Nearest + Scruz + Adjacent, 
##     data = d)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -111.679  -34.898   -7.862   33.460  182.584 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  7.068221  19.154198   0.369 0.715351    
## Area        -0.023938   0.022422  -1.068 0.296318    
## Elevation    0.319465   0.053663   5.953 3.82e-06 ***
## Nearest      0.009144   1.054136   0.009 0.993151    
## Scruz       -0.240524   0.215402  -1.117 0.275208    
## Adjacent    -0.074805   0.017700  -4.226 0.000297 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 60.98 on 24 degrees of freedom
## Multiple R-squared:  0.7658, Adjusted R-squared:  0.7171 
## F-statistic:  15.7 on 5 and 24 DF,  p-value: 6.838e-07

Por ejemplo, \(\beta_{Area} \in (-0.0702158, 0.02233912)\) que contiene el cero. Por otro lado, pvalor = \(0.296318 < 0.05\).

3 Contraste para \(\sigma^2\)

El contraste es:

\[ H_0 : \sigma^2 = \sigma^2_0 \\ H_1 : \sigma^2 \neq \sigma^2_0 \]

El estadístico del contraste que vamos a utilizar es:

\[ \frac{(n-k-1)\hat s_R^2}{\sigma^2} \rightarrow \chi^2_{n-k-1} \]

Por tanto, si la hipótesis nula es cierta,

\[ \chi^2_0 = \frac{(n-k-1)\hat s_R^2}{\sigma^2_0} \rightarrow \chi^2_{n-k-1} \]

Como ejemplo, vamos a contrastar

\[ H_0 : \sigma^2 = 65^2 \\ H_1 : \sigma^2 \neq 65^2 \]

## [1] 21.11985
## [1] 12.40115 39.36408

Por tanto no se rechaza la hipótesis nula. Elm ismo resultado se obtiene mirando el intervalo de confianza.

4 Contraste de regresión múltiple

4.1 La distribución F

Sean una \(\chi^2_m\) y una \(\chi^2_n\), ambas independientes. La distribución F se define como

\[ \frac{\chi^2_m / m}{\chi^2_n / n} \sim F_{m,n} \]

4.2 Descomposición de la variabilidad

Tenemos el modelo

\[ y_i = \hat \beta_0 + \hat \beta_1 x_{1i} + \cdots + \hat \beta_k x_{ki} + e_i = \hat y_i + e_i \]

Restando la media \(\bar y = \sum y_i / n\):

\[ y_i - \bar y = \hat y_i - \bar y + e_i \]

Elevando al cuadrado y sumando se tiene:

\[ \sum (y_i - \bar y)^2 = \sum (\hat y_i - \bar y)^2 + \sum e_i^2 \] ya que \(\sum (\hat y_i - \bar y) e_i = 0\). Se denominan:

  • Variabilitad total: \(\boxed{VT = \sum (y_i - \bar y)^2} = (n-1)\hat s_y^2\)
  • Variabilidad explicada: \(\boxed{VE = \sum (\hat y_i - \bar y)^2}\)
  • Variabilidad no explicada o residual: \(\boxed{VNE = \sum e_i^2} = (n-k-1)\hat s_R^2\)

4.3 Contraste

Es el contraste más importante en regresión múltiple, ya que establece si alguno de los regresores influye en la respuesta. Es decir, en el modelo \(y_i = \beta_0 + \beta_1 x_{1i} + \cdots + \beta_k x_{ki} + u_i\) se constrasta si

\[ H_0 : \beta_1 = \beta_2 = \cdots = \beta_k = 0 \\ H_1 : \text{Algún } \beta_i \neq 0 \]

Para resolver este contraste, se puede demostrar que:

  • Si \(\beta_1 = \beta_2 = \cdots = \beta_k = 0 \Rightarrow \boxed{VE/\sigma^2 \sim \chi^2_k}\)
  • \(\boxed{VNE/\sigma^2 \sim \chi^2_{n-k-1}}\)
  • VE y VNE son independientes.

Por lo tanto es razonable utilizar el estadístico:

\[ \frac{\frac{VE/\sigma^2}{k}}{\frac{VNE/\sigma^2}{n-k-1}} \sim F_{k, n-k-1} \Rightarrow F_0 = \frac{VE/k}{VNE/(n-k-1)} \sim F_{k, n-k-1} \]

Se rechazará la hipótesis nula para valores grandes del estadístico:

  • si \(F_0 > F_\alpha\): se rechaza \(H_0\)
  • si \(F_0 \leq F_\alpha\): no se rechaza \(H_0\)

4.4 Ejemplo

Queremos contrastar si \(\beta_{Area} = \beta_{Elevation} = \beta_{Nearest} = \beta_{Scruz} = \beta_{Adjacent}= 0\) en el modelo Species ~ Area + Elevation + Nearest + Scruz + Adjacent, es decir, si hay relación lineal entre el número de especies y estos regresores.

## [1] 381081.4
## [1] 89231.37
## [1] 291850
## [1] 15.69941
## [1] 0.2208894
## [1] 6.837893e-07
  • En R:
## 
## Call:
## lm(formula = Species ~ Area + Elevation + Nearest + Scruz + Adjacent, 
##     data = d)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -111.679  -34.898   -7.862   33.460  182.584 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  7.068221  19.154198   0.369 0.715351    
## Area        -0.023938   0.022422  -1.068 0.296318    
## Elevation    0.319465   0.053663   5.953 3.82e-06 ***
## Nearest      0.009144   1.054136   0.009 0.993151    
## Scruz       -0.240524   0.215402  -1.117 0.275208    
## Adjacent    -0.074805   0.017700  -4.226 0.000297 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 60.98 on 24 degrees of freedom
## Multiple R-squared:  0.7658, Adjusted R-squared:  0.7171 
## F-statistic:  15.7 on 5 and 24 DF,  p-value: 6.838e-07

5 Contraste para un grupo de coeficientes

Consideremos el modelo de regresión con k regresores:

\[ y = X \beta + u, \ dim(\beta) = k \times 1 \]

Y consideremos otro modelo de regresión en el que se utilizan m < k regresores:

\[ y = X' \beta' + u', \ dim(\beta') = m \times 1 \]

Sea VNE(k) la variabilidad no explicada del primer modelo, y VNE(m) la variabilidad no explicada del segundo modelo. Se puede demostrar que:

\[ F_0 = \frac{(VNE(m)-VNE(k))/(k-m)}{VNE(k)/(n-k-1)} \sim F_{k-m, n-k-1} \]

Con este estadístico podemos resolver el contraste

\[ H_0 : \text{Los modelos son iguales} \\ H_1 : \text{Los modelos NO son iguales} \]

Si el estadístico toma valores pequeños quiere decir que la varianza residual es parecida en ambos modelos, luego se considera que los modelos son equivalentes.

5.1 Ejemplo: contraste para un regresor

Vamos a analizar si el regresor Area puede eliminarse de la lista. El contraste que resolvemos es \(H_0 : \beta_{Area} = 0\) en el modelo Species ~ Area + Elevation + Nearest + Scruz + Adjacent. Para ello lo comparamos con el modelo Species ~ Elevation + Nearest + Scruz + Adjacent. Si los modelos son equivalentes quiere decir que \(\beta_{Area} = 0\):

## [1] 93469.08
## [1] 1.139792
## [1] 0.296318

Luego no se puede rechazar la hipótesis nula (los modelos son iguales), luego el regresor Area se puede eliminar de la lista. Se obtiene el mismo resultado que con el contraste de la t-student.

  • Con R:
## Analysis of Variance Table
## 
## Model 1: Species ~ Elevation + Nearest + Scruz + Adjacent
## Model 2: Species ~ Area + Elevation + Nearest + Scruz + Adjacent
##   Res.Df   RSS Df Sum of Sq      F Pr(>F)
## 1     25 93469                           
## 2     24 89231  1    4237.7 1.1398 0.2963

Es muy importante tener en cuenta que la hipótesis nula que se está analizando depende del modelo utilizado. Es decir, si analizamos \(\beta_{Area} = 0\) en el modelo Species ~ Area:

## 
## Call:
## lm(formula = Species ~ Area, data = d)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -99.495 -53.431 -29.045   3.423 306.137 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 63.78286   17.52442   3.640 0.001094 ** 
## Area         0.08196    0.01971   4.158 0.000275 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 91.73 on 28 degrees of freedom
## Multiple R-squared:  0.3817, Adjusted R-squared:  0.3596 
## F-statistic: 17.29 on 1 and 28 DF,  p-value: 0.0002748

tenemos que el área de la isla si influye en el número de especies. Sin embargo, cuando consideramos el modelo Species ~ Area + Elevation + Nearest + Scruz + Adjacent, el Area no es significativo porque su efecto se suma al de Elevation, Nearest,…

5.2 Ejemplo: el contraste de regresión múltiple

El contraste de regresión múltiple (\(H_0 : \beta_{Area} = \beta_{Elevation} = \cdots = \beta_{Adjacent} = 0\)) también se puede resolver utilizando este estadístico. Los dos modelos a comparar son: Species ~ 1 + Area + Elevation + Nearest + Scruz + Adjacent y Species ~ 1. El 1 hace referencia al \(\beta_0\), y se estima por defecto si no se indica explicitamente:

Por tanto

## Analysis of Variance Table
## 
## Model 1: Species ~ 1
## Model 2: Species ~ Area + Elevation + Nearest + Scruz + Adjacent
##   Res.Df    RSS Df Sum of Sq      F    Pr(>F)    
## 1     29 381081                                  
## 2     24  89231  5    291850 15.699 6.838e-07 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

5.3 Ejemplo: contraste sobre una pareja de regresores

El contraste que resolvemos es \(H_0 : \beta_{Area} = \beta_{Adjacent} = 0\) en el modelo Species ~ Area + Elevation + Nearest + Scruz + Adjacent. Para ello lo comparamos con el modelo:

## [1] 158291.6
## [1] 9.287352
## [1] 0.001029711

Luego se rechaza la hipótesis nula.

  • Con R:
## Analysis of Variance Table
## 
## Model 1: Species ~ Elevation + Nearest + Scruz
## Model 2: Species ~ Area + Elevation + Nearest + Scruz + Adjacent
##   Res.Df    RSS Df Sum of Sq      F  Pr(>F)   
## 1     26 158292                               
## 2     24  89231  2     69060 9.2874 0.00103 **
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

5.4 Ejemplo: contraste de igualdad de regresores

El contraste que resolvemos es \(H_0 : \beta_{Area} = \beta_{Adjacent}\) en el modelo Species ~ Area + Elevation + Nearest + Scruz + Adjacent. Hacemos la comparación con el modelo:

## [1] 109591.1
## [1] 5.476035
## [1] 0.02792556
  • En R:
## Analysis of Variance Table
## 
## Model 1: Species ~ I(Area + Adjacent) + Elevation + Nearest + Scruz
## Model 2: Species ~ Area + Elevation + Nearest + Scruz + Adjacent
##   Res.Df    RSS Df Sum of Sq     F  Pr(>F)  
## 1     25 109591                             
## 2     24  89231  1     20360 5.476 0.02793 *
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1