1 Lectura de datos

library(tree)
d = read.table('datos/coches.txt',header=T)
d = na.omit(d)
d$origen = factor(d$origen, labels = c("USA","Europa","Japon"))

2 Training set vs Test set

Dividimos los datos en dos partes, una para entrenar el modelo y otra para calcular el error de predicción con datos diferentes de los utilizados para entrenar:

set.seed(321)
ndat = nrow(d)
pos_train = sample(1:ndat,ndat/2) # la mitad de los datos para entranamiento
datos_train = d[pos_train,] # trainning set
datos_test = d[-pos_train,] # test set

3 Random Forest

Se remuestrea con reemplazamiento B veces.
Se estima un arbol para cada muestra, \(f_b(x)\). Pero cada vez que se divide un nodo en cada arbol, se seleccionan aleatoriamente m regresores de los p disponibles. Por defecto, R considera \(p/3\). En el caso de que m = p se denomina BAGGING.
Se calcula la predicción proporcionada por cada árbol, \(\hat f_b(x)\).
Se promedian las predicciones.

\[ \hat f_{RF} = \frac{1}{B}\sum_{b=1}^B \hat f_b(x) \]

La gran ventaja de random forest frente a bagging es que funciona muy bien con datos que tienen variables correlacionadas.

3.1 mtry = 7 (BAGGING)

library(randomForest)

## randomForest 4.6-14

## Type rfNews() to see new features/changes/bug fixes.

# numero total de regresores: 7
rf1 = randomForest(consumo ~ ., data = datos_train, mtry = 7, ntree = 500)

Error del modelo:

yp_train_rf1 <- predict(rf1, newdata = datos_train)
y_train = datos_train$consumo 
# error cuadratico medio en los datos de training
( MSE_train_rf1 = mean((y_train - yp_train_rf1)^2) )

## [1] 0.3210797

Error de predicción:

# prediccion del consumo con los datos test
yp_test_rf1 = predict(rf1, newdata = datos_test)

# error del test set
y_test = datos_test$consumo
(MSE_test_rf1 = mean((y_test - yp_test_rf1)^2))

## [1] 2.185575

3.2 mtry = 3

rf2 = randomForest(consumo ~ ., data = datos_train, mtry = 3, ntree = 500)

Error del modelo:

yp_train_rf2 <- predict(rf2, newdata = datos_train)
# error cuadratico medio en los datos de training
( MSE_train_rf2 = mean((y_train - yp_train_rf2)^2) )

## [1] 0.3634849

Error de predicción:

# prediccion del consumo con los datos test
yp_test_rf2 = predict(rf2, newdata = datos_test)
# error del test set
(MSE_test_rf2 = mean((y_test - yp_test_rf2)^2))

## [1] 2.19534

3.3 mtry = 5

rf3 = randomForest(consumo ~ ., data = datos_train, mtry = 5, ntree = 500)

Error del modelo:

yp_train_rf3 <- predict(rf3, newdata = datos_train)
# error cuadratico medio en los datos de training
( MSE_train_rf3 = mean((y_train - yp_train_rf3)^2) )

## [1] 0.3326407

Error de predicción:

# prediccion del consumo con los datos test
yp_test_rf3 = predict(rf3, newdata = datos_test)

# error del test set
(MSE_test_rf3 = mean((y_test - yp_test_rf3)^2))

## [1] 2.159857

4 Importancia de variables

rf4 = randomForest(consumo ~ ., data = datos_train, mtry = 5, ntree = 500, importance = T)

importance(rf4)

##            %IncMSE IncNodePurity
## cc        23.34714   1144.091032
## cv        13.81813    350.400180
## peso      22.20863    816.553365
## acel       7.52297     36.763574
## ano       40.21519    175.723637
## origen     3.94728      6.947013
## cilindros 10.31921    211.574000

%IncMSE: descenso de la calidad de las predicciones realizadas en los datos out of samples cuando los valores de una variable dada se permutan aleatoriamente (sería como quitarla del modelo).
IncNodePurity: suma del descenso acumulado del RSS al partir por dicha variable.

varImpPlot(rf4)

Random Forests

29 octubre 2019

1 Lectura de datos

2 Training set vs Test set

3 Random Forest

3.1 mtry = 7 (BAGGING)

3.2 mtry = 3

3.3 mtry = 5

4 Importancia de variables