1 Qué es statistical learning?

Supongamos que somos consultores contratados por un cliente que quiere analizar como la publicidad mejora las ventas de un producto determinado.

datos = read.csv("Advertising.csv")
str(datos)

## 'data.frame':    200 obs. of  5 variables:
##  $ X        : int  1 2 3 4 5 6 7 8 9 10 ...
##  $ TV       : num  230.1 44.5 17.2 151.5 180.8 ...
##  $ radio    : num  37.8 39.3 45.9 41.3 10.8 48.9 32.8 19.6 2.1 2.6 ...
##  $ newspaper: num  69.2 45.1 69.3 58.5 58.4 75 23.5 11.6 1 21.2 ...
##  $ sales    : num  22.1 10.4 9.3 18.5 12.9 7.2 11.8 13.2 4.8 10.6 ...

donde:

sales: ventas del producto en 200 diferentes mercados (en miles de unidades).
TV: presupuesto invertido en TV (en miles de dolares).
radio: presupuesto invertido en radio (en miles de dolares).
newspaper: presupuesto invertido en newspaper (en miles de dolares).

(datos tomados de http://www-bcf.usc.edu/~gareth/ISL/data.html)

par(mfrow=c(1,3))
plot(datos$TV, datos$sales)
plot(datos$radio, datos$sales)
plot(datos$newspaper, datos$sales)

Queremos encontrar la relación entre publicidad y ventas. Proponemos:

\(Y = f(X) + \epsilon\)

Y: variable respuesta
\(X = (X_1,X_2,\ldots,X_p)\): regresores
f: función que nos da la relación entre Y - X
\(\epsilon\): término de error. Se modela como una variable aleatoria independiente de \(X\) y con media cero.

Por ejemplo:

plot(datos$TV, datos$sales)

m1 = lm(sales ~ TV, data = datos)
print(m1)

## 
## Call:
## lm(formula = sales ~ TV, data = datos)
## 
## Coefficients:
## (Intercept)           TV  
##     7.03259      0.04754

plot(datos$TV, datos$sales)
abline(m1, col = "red", lwd = 1)

Como vemos:

Y = sales
X = TV
f(X) = 7.0325 + 0.0475 * X
\(\epsilon\) : la diferencia entre la recta y los puntos

En esencia, statistical learning hace referencia al conjunto de herramientas para estimar \(f\).

1.1 Por qué estimar f?

Hay dos razones principales por las que estamos interesados en estimar f:

1.1.1 Predicción

Como los errores tienen media, vamos a predecir Y mediante:

\(\hat Y = \hat f(X)\)

donde \(\hat f\) refresenta la estimación de \(f\).

La precisión de \(\hat Y\) depende de dos factores:

Como de buena es la estimación \(\hat f\) de \(f\). Se conoce como error reducible, porque cuanto mejor sea la estimación de f, mejor es la estimación de Y.
Incluso si \(\hat f(X) = f(X)\) (estimación perfecta), todavía tenemos error \(Y - \hat Y = [f(X) - \epsilon] - f(X) = \epsilon\). Se conoce como error irreducible, porque el error es inherente al modelo, no se puede actuar sobre este error.

El objetivo de la asignatura es estimar f de manera que minimicemos el error reducible.

1.1.2 Inferencia

Queremos entender la relación entre Y y X. En el ejemplo analizado:

Que medio contribuye a las ventas?
Cual es el que más contribuye?

1.2 Como estimamos f?

Dados unos datos, \((Y,X)\), queremos determinar la relación entre Y y X. Para ello usamos un modelo matemático del tipo:

\(Y = f(X) + \epsilon\)

1.2.1 Métodos paramétricos

La función \(f(X)\) depende de una serie de parámetros. En el ejemplo anterior:

\(Ventas = \beta_0 + \beta_1 * TV + \epsilon\)

Este modelo depende de los parámetros \(\beta_0, \beta_1\). El objetivo es determinar estos parámetros.

1.2.2 Métodos no paramétricos

Por ejemplo, árboles de regresión.

01-Introducción

Javier Cara