C Estadísticos
C.1 Estadístico F del método de selección Forward
El estadístico \(F\) utilizado en la metodología forward para la selección de variables de un modelo de regresión lineal múltiple es:
\[\begin{equation} F = \displaystyle\frac{(SCR_{\text{modelo previo}} - SCR_{\text{modelo propuesto}})/k}{SCR_{\text{modelo completo}}/(n-p)} \sim F_{k, n-p} \tag{C.1} \end{equation}\]donde:
- \(SCR_{\text{modelo incial}}\): es la suma cuadrática de los errores del modelo inicial (con un parámetro menos que el modelo propuesto).
- \(SCR_{\text{modelo propuesto}}\): es la suma cuadrática de los errores del modelo con el nuevo predictor incluido.
- \(SCR_{\text{modelo completo}}\): es la suma cuadrática de los errores del modelo con todos los predictores seleccionados.
- \(k\): es la cantidad de predictores añadidos de un modelo a otro; en este caso corresponde siempre al valor de 1.
- \(n\): cantidad de observaciones.
- \(p\): cantidad de parámetros del modelo completo (betas).
- La distribución \(F\) con \(n_1\) y \(n_2\) grados de libertad tiene la siguiente función de densidad:
Considerando la base de datos Ingreso y el modelo generado en el ejemplo 3.5:
\[ Y_{\text{Logro}} = \beta_0 + \beta_1X_{\text{LEN}} + \beta_2X_{\text{NEM}} + \beta_3I_{\text{Sexo=Mujer}} + \epsilon, \text{ } \epsilon \sim N(0,\sigma^2I) \]
El modelo ajustado es
## Analysis of Variance Table
##
## Response: Logro
## Df Sum Sq Mean Sq F value Pr(>F)
## LEN 1 1.26194 1.26194 99.0403 < 2.2e-16 ***
## NEM 1 0.21880 0.21880 17.1721 5.076e-05 ***
## Sexo 1 0.03348 0.03348 2.6277 0.1066
## Residuals 196 2.49736 0.01274
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
La tabla anova da cuenta del estadístico \(F\) asociado a cada covariable a medida que ingresa en el modelo (en orden descendente). El estadístico asociado a cada covariable se calcula manualmente de la siguiente manera.
modelo_nulo = lm(Logro ~ 1, data = datos)
modelo_propuesto0 = lm(Logro ~ LEN, data = datos)
modelo_propuesto1 = lm(Logro ~ LEN + NEM, data = datos)
modelo_propuesto2 = lm(Logro ~ LEN + NEM + Sexo, data = datos) # Modelo completo
# Estadístico F para la covariable LEN
SCR_modeloprevio = sum(residuals(modelo_nulo)^2)
SCR_modelopropuesto = sum(residuals(modelo_propuesto0)^2)
k = 1
n = dim(datos)[1]
p = length(modelo_propuesto2$coefficients) # Cantidad de parámetros del modelo completo
SCR_modelocompleto = sum(residuals(modelo_propuesto2)^2)
F_LEN = ((SCR_modeloprevio - SCR_modelopropuesto)/k)/(SCR_modelocompleto/(n - p))
F_LEN
## [1] 99.04031
# Estadístico F para la covariable NEM
SCR_modeloprevio = sum(residuals(modelo_propuesto0)^2)
SCR_modelopropuesto = sum(residuals(modelo_propuesto1)^2)
F_NEM = ((SCR_modeloprevio - SCR_modelopropuesto)/k)/(SCR_modelocompleto/(n - p))
F_NEM
## [1] 17.17213
# Estadístico F para la covariable Sexo
SCR_modeloprevio = sum(residuals(modelo_propuesto1)^2)
SCR_modelopropuesto = sum(residuals(modelo_propuesto2)^2)
F_Sexo = ((SCR_modeloprevio - SCR_modelopropuesto)/k)/(SCR_modelocompleto/(n - p))
F_Sexo
## [1] 2.627705
Cada uno de estos estadísticos distribuye \(F_{1,196}\). El criterio de rechazo es:
\[ F \geq F_{k, n-p}^{1-\alpha} \]
El valor-p de cada estadístico es:
## [1] 0
## [1] 5.07611e-05
## [1] 0.1066211
Estos resultados son los mismos a los visualizados en la salida del comando anova()
.