2 Training set vs Test set

Dividimos los datos en dos partes, una para entrenar el modelo y otra para calcular el error de predicción con datos diferentes de los utilizados para entrenar:

3 Boosting

  • Se puede utilizar para otros modelos además de los árboles.
  • El modelo verifica que: \(y = \hat f(x) + r\).
  • Empezar el algoritmo tomando \(\hat f_0(x)=0\) y \(r_0 = y\).
  • For b = 1, …, B
    • Estimar el modelo correspondiente \(r_{b-1} = \hat f_b(x) + r_b\) (arbol de regresión en este caso).
    • Actualizar el modelo: \(\hat f_{b}(x) = \hat f_{b-1}(x) + \lambda \hat f_b(x)\)
    • Actualizar los residuos: \(r_b = r_{b-1} - \lambda r_b(x)\)
  • El resultado es el modelo boosted será, por tanto:

\[ \hat f(x) = \sum _{b=1}^{B} \lambda \hat f_b(x), \quad r_b \rightarrow 0 \] - El parámetro \(\lambda\) controla la velociad del proceso.

## Loaded gbm 2.1.5
  • interaction.depth = 4: Como mucho, cada árbol tendrá cuadro niveles (5 nodos terminales).

4 Importancia de variables

##                 var    rel.inf
## peso           peso 31.3580874
## cc               cc 30.3814004
## cv               cv 19.3792893
## ano             ano 11.4855761
## acel           acel  5.9314782
## origen       origen  0.8644751
## cilindros cilindros  0.5996935