1 Modelo generador de datos
2 Estimadores puntuales de los parámetros del modelo
3 Distribución en el muestreo de los estimadores puntuales

1 Modelo generador de datos

d = read.csv("datos/kidiq.csv")
d$mom_hs = factor(d$mom_hs, labels = c("no", "si"))

Para el modelo

m = lm(kid_score ~ mom_hs, data = d)
summary(m)

## 
## Call:
## lm(formula = kid_score ~ mom_hs, data = d)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -57.55 -13.32   2.68  14.68  58.45 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   77.548      2.059  37.670  < 2e-16 ***
## mom_hssi      11.771      2.322   5.069 5.96e-07 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 19.85 on 432 degrees of freedom
## Multiple R-squared:  0.05613,    Adjusted R-squared:  0.05394 
## F-statistic: 25.69 on 1 and 432 DF,  p-value: 5.957e-07

se tiene que:

la puntuación media de los chicos cuya madre NO ha terminado secundaria es 77.55
la puntuación media de los chicos cuya madre SI ha terminado secundaria es 77.55 + 11.77 = 89.32

Por tanto, la puntuación de los segundos es superior a la de los primeros. Pero este resultado se ha obtenido con los datos de 434 madres y sus hijos. ¿Es generalizable? ¿Si repetimos los cálculos con otras madres e hijos obtendremos las mismas conclusiones? ¿Se puede afirmar que si una madre termina secundaria influye positivamente en la capacidad cognitiva de sus hijos?

Para resolver este problema se hace lo siguiente:

se considera que el modelo que representa, de manera GENERAL, la relación entre puntuación del test y haber acabado secundaria es:

\[ kid\_score_i = \beta_0 + \beta_1 mom\_hs_i + U_i, \quad U_i \sim N(0,\sigma) \]

\(U_i\) es una variable aleatoria; \(\beta_0\) y \(\beta_1\) son parámetros desconodidos.
se considera que los datos que tenemos, los 434 datos en este caso, han sido generados por el modelo anterior. Son datos PARTICULARES.
estamos interesados en los parámetros del modelo generador de los datos, ya que es el que indica conclusiones generales. Pero dichos parámetros son desconocidos y no se pueden conocer. El objetivo es inferir propiedades de los parámetros generales a partir de los datos particulares.

2 Estimadores puntuales de los parámetros del modelo

El modelo de la población tiene tres parámetros: \(\beta_0\), \(\beta_1\) y \(\sigma\). Lo primero que haremos es estimar un valor para dichos parámetros.

Se denomina estimador de un parámetro a cualquier expresión que asigna un valor a dicho parámetro. Y se denomina estimación al valor asignado.

Por ejemplo, podríamos utilizar los siguientes estimadores (se indica poniendo el símbolo \(\hat \square\)):

\[ \hat \beta_1 = suma(kid\_score_i), \ \hat \beta_0 = media(kid\_score_i), \ \hat \sigma = Var(kid\_score_i) \]

lo que daría lugar a las siguientes estimaciones:

# para beta_0
sum(d$kid_score)

## [1] 37670

# para beta_1
mean(d$kid_score)

## [1] 86.79724

# para sigma
var(d$kid_score)

## [1] 416.5962

Sin embargo, unos estimadores tienen mejores propiedades que otros. Nosotros vamos a utilizar como estimadores los valores calculados con mínimos cuadrados:

\[ \begin{bmatrix} \hat \beta_0 \\ \hat \beta_1 \end{bmatrix} = (X^T X)^{-1} (X^T y) \]

La estimación es:

coefficients(m)

## (Intercept)    mom_hssi 
##    77.54839    11.77126

El estimador de \(\sigma\) se define como (no es un resultado de mínimos cuadrados):

\[ \hat \sigma = \sqrt{ \frac{\sum e_i^2}{n-k-1} } \]

donde \(k\) es el número de regresores, 1 en este caso.

La estimación tomará el valor:

sqrt( sum(resid(m)^2)/(434-2) )

## [1] 19.85253

3 Distribución en el muestreo de los estimadores puntuales

El hecho de considerar que nuestros datos han sido generados por un modelo con variables aleatorias hace que los estimadores sean variables aleatorias: si consideramos otra muestra diferente, los valores obtenidos serán diferentes, y antes de seleccionar la muestra no sabemos que valores vamos a obtener. En este apartado vamos a obtener la distribución de los estimadores.

3.1 Distribución de los datos

Como hemos visto en el apartado anterior, el modelo generador de los datos es:

\[ Y_i = \beta_0 + \beta_1 x_{1i} + \cdots + \beta_k x_{ki} + U_i, \quad U_i \sim N(0,\sigma), \quad i = 1,\cdots,n \]

En forma matricial

\[ Y = X \beta + U, \quad U \sim N(0,\sigma \mathrm{I}) \]

Como \(U \sim Normal\), debido a las propiedades de la distribución normal, \(Y \sim Normal\). Concretamente:

\[ Y \sim N(X \beta, \sigma \mathrm{I}) \]

ya que:

\[ E[Y] = E[ X\beta + U] = X \beta \]

\[ Var[Y] = Var[ X\beta + U] = \sigma^2 I \]

3.2 Distribución del estimador de \(\beta\)

3.2.1 Con matrices de datos

La ecuación de los estimadores es

\[ \hat \beta = (X^T X)^{-1} (X^T y) \]

Si consideramos variables aleatorias en lugar de datos:

\[ \hat \beta = (X^T X)^{-1} (X^T Y) \] obtenemos la distribución de los estimadores:

\[ \hat \beta \sim N(\beta, \sigma^2 (X^T X)^{-1}) \]

ya que

\[Y \sim Normal \Rightarrow \hat \beta \sim Normal\]

\[ E[\hat \beta] = E[(X^TX)^{-1}X^T Y] = (X^TX)^{-1}X^T E[Y] = (X^TX)^{-1}X^T X\beta = \beta \]

\[ Var[\hat \beta] = Var[(X^TX)^{-1}X^T Y] = (X^TX)^{-1}X^T Var[Y] ((X^TX)^{-1}X^T)^T = \sigma^2 (X^TX)^{-1} \]

3.2.2 Con matrices de covarianzas

Si en lugar de utilizar las matrices \((X^TX)^{-1}\) y \((X^T y)\) utilizamos matrices de varianzas y convarianzas, los estimadores son:

\[ \hat \beta_a = S_{XX}^{-1} S_{Xy} = \left( \frac{1}{n-1}X_a^T X_a \right)^{-1} \left( \frac{1}{n-1} X_a^T Y_a \right) = \left( X_a^T X_a \right)^{-1} \left( X_a^T Y_a \right) \]

donde \(\hat \beta_a = [\hat \beta_1 \ \hat \beta_2 \ \cdots \ \hat \beta_k]^T\). Por tanto hay que obtener la distribución de \(Y_a\). El modelo generador de datos es:

\[ Y_i = \beta_0 + \beta_1 x_{1i} + \beta_2 x_{2i} + \cdots + \beta_k x_{ki} + U_i, \ i = 1,2,\cdots,n \]

Teniendo en cuenta que:

\[ \bar Y = \beta_0 + \beta_1 \bar x_{1} + \beta_2 \bar x_{2} + \cdots + \beta_k \bar x_{k} \]

y restando ambas ecuaciones se obtiene:

\[ Y_i - \bar Y = \beta_1 (x_{1i} - \bar x_{1}) + \beta_2 (x_{2i} - \bar x_{2}) + \cdots + \beta_k (x_{ki} - \bar x_{k}) + U_i, \ i = 1,2,\cdots,n \]

Estas n ecuaciones se pueden expresar en forma matricial de la misma forma que hicimos antes, obteniendo:

\[ Y_a = X_a \beta_a + U, \quad U \sim N(0,\sigma I) \]

Por tanto,

\[ Y_a \sim N \left( X_a \beta_a, \sigma^2I \right) \]

Ahora se puede demostrar que

\[ \hat \beta_a \sim N \left( \beta_a, \frac{\sigma^2}{n-1} S_{XX}^{-1} \right) \]

ya que

\[Y_a \sim Normal \Rightarrow \hat \beta_a \sim Normal\]

\[ E[\hat \beta_a] = E[(X_a^T X_a)^{-1}X_a^T Y_a] = (X_a^T X_a)^{-1}X_a^T E[Y_a] = (X_a^T X_a)^{-1}X_a^T X_a \beta_a = \beta_a \]

\[ Var[\hat \beta_a] = Var[(X_a^T X_a)^{-1}X_a^T Y_a] = (X_a^T X_a)^{-1}X_a^T Var[Y_a] ((X_a^T X_a)^{-1}X_a^T)^T = \sigma^2 (X_a^T X_a)^{-1} \]

Finalmente:

\[ S_{XX} = \frac{1}{n-1}X_a^T X_a \Rightarrow \left( X_a^T X_a \right)^{-1} = \frac{1}{n-1} S_{XX}^{-1} \]

Faltaría el estimador de \(\beta_0\) que se obtiene con la ecuación

\[ \hat \beta_0 = \bar Y - \bar x^T \hat \beta_a \]

dónde \(\bar x = [\bar x_1 \ \bar x_2 \ \cdots \ \bar x_n]^T\). Se puede demostrar que

\[ \hat \beta_0 \sim N \left( \beta_0, \sigma^2 \left( \frac{1}{n} + \frac{1}{n-1} \bar x^T S_{XX}^{-1} \bar x \right) \right) \]

ya que:

\[ \bar Y \sim N \left( \beta_0 + \bar x^T \beta_a, \frac{\sigma^2}{n} \right) \]

3.3 Distribución del estimador de \(\sigma^2\)

El modelo tiene un parámetro más, la varianza de los errores, \(\sigma^2\). Este parámetro también hay que estimarlo. Se puede demostrar que

\[ \frac{\sum e_i^2}{\sigma^2} \rightarrow \chi^2_{n-k-1} \]

donde n es el número de observaciones y k es el número de regresores. Por ello se propone el siguiente estimador

\[ \hat \sigma^2 = \frac{\sum e_i^2}{n-k-1} \]

ya que es un estimador insesgado de \(\sigma^2\). Efectivamente

\[ E[\hat \sigma^2] = E \left[ \frac{\sum e_i^2}{n-k-1} \right] = \sigma^2 \]

ya que \(E[\chi^2_n] = n\). Al término \(\sum e_i^2/(n-k-1)\) también se lo conoce como varianza residual y se representa por \(\hat s_R^2\).

\[ \hat s_R^2 = \frac{\sum e_i^2}{n-k-1} \]

A la raiz cuadrada se le conoce como residual standard error. El término (n-k-1) son los grados de libertad. La distribución en el muestreo de la varianza residual es

\[ \frac{\sum e_i^2}{\sigma^2} \rightarrow \chi^2_{n-k-1} \Rightarrow \frac{(n-k-1)\hat s_R^2}{\sigma^2} \rightarrow \chi^2_{n-k-1} \]

Estimadores y su distribución