2 Training set vs Test set

Dividimos los datos en dos partes, una para entrenar el modelo y otra para calcular el error de predicción con datos diferentes de los utilizados para entrenar:

3 Random Forest

  • Se remuestrea con reemplazamiento B veces.
  • Se estima un arbol para cada muestra, \(f_b(x)\). Pero cada vez que se divide un nodo en cada arbol, se seleccionan aleatoriamente m regresores de los p disponibles. Por defecto, R considera \(p/3\). En el caso de que m = p se denomina BAGGING.
  • Se calcula la predicción proporcionada por cada árbol, \(\hat f_b(x)\).
  • Se promedian las predicciones.

\[ \hat f_{RF} = \frac{1}{B}\sum_{b=1}^B \hat f_b(x) \]

  • La gran ventaja de random forest frente a bagging es que funciona muy bien con datos que tienen variables correlacionadas.

4 Importancia de variables

##            %IncMSE IncNodePurity
## cc        23.34714   1144.091032
## cv        13.81813    350.400180
## peso      22.20863    816.553365
## acel       7.52297     36.763574
## ano       40.21519    175.723637
## origen     3.94728      6.947013
## cilindros 10.31921    211.574000
  • %IncMSE: descenso de la calidad de las predicciones realizadas en los datos out of samples cuando los valores de una variable dada se permutan aleatoriamente (sería como quitarla del modelo).

  • IncNodePurity: suma del descenso acumulado del RSS al partir por dicha variable.