C Estadísticos

C.1 Estadístico F del método de selección Forward

El estadístico \(F\) utilizado en la metodología forward para la selección de variables de un modelo de regresión lineal múltiple es:

\[\begin{equation} F = \displaystyle\frac{(SCR_{\text{modelo previo}} - SCR_{\text{modelo propuesto}})/k}{SCR_{\text{modelo completo}}/(n-p)} \sim F_{k, n-p} \tag{C.1} \end{equation}\]

donde:

  • \(SCR_{\text{modelo incial}}\): es la suma cuadrática de los errores del modelo inicial (con un parámetro menos que el modelo propuesto).
  • \(SCR_{\text{modelo propuesto}}\): es la suma cuadrática de los errores del modelo con el nuevo predictor incluido.
  • \(SCR_{\text{modelo completo}}\): es la suma cuadrática de los errores del modelo con todos los predictores seleccionados.
  • \(k\): es la cantidad de predictores añadidos de un modelo a otro; en este caso corresponde siempre al valor de 1.
  • \(n\): cantidad de observaciones.
  • \(p\): cantidad de parámetros del modelo completo (betas).
  • La distribución \(F\) con \(n_1\) y \(n_2\) grados de libertad tiene la siguiente función de densidad:
\[\begin{equation} f(x) = \frac{\Gamma(n_1/2+n_2/2)}{\Gamma(n_1/2)\Gamma(n_2/2)}\left(\frac{n_1}{n_2}\right)^{n_1/2}x^{n_1/2-1}\left(1+\frac{n_1x}{n_2}\right)^{-(n_1 + n_2)/2}, \text{ }x>0 \tag{C.2} \end{equation}\]

Considerando la base de datos Ingreso y el modelo generado en el ejemplo 3.5:

\[ Y_{\text{Logro}} = \beta_0 + \beta_1X_{\text{LEN}} + \beta_2X_{\text{NEM}} + \beta_3I_{\text{Sexo=Mujer}} + \epsilon, \text{ } \epsilon \sim N(0,\sigma^2I) \]

El modelo ajustado es

modelo = lm(Logro ~ LEN + NEM + Sexo, data = datos)
anova(modelo)
## Analysis of Variance Table
## 
## Response: Logro
##            Df  Sum Sq Mean Sq F value    Pr(>F)    
## LEN         1 1.26194 1.26194 99.0403 < 2.2e-16 ***
## NEM         1 0.21880 0.21880 17.1721 5.076e-05 ***
## Sexo        1 0.03348 0.03348  2.6277    0.1066    
## Residuals 196 2.49736 0.01274                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

La tabla anova da cuenta del estadístico \(F\) asociado a cada covariable a medida que ingresa en el modelo (en orden descendente). El estadístico asociado a cada covariable se calcula manualmente de la siguiente manera.

modelo_nulo = lm(Logro ~ 1, data = datos)
modelo_propuesto0 = lm(Logro ~ LEN, data = datos)
modelo_propuesto1 = lm(Logro ~ LEN + NEM, data = datos)
modelo_propuesto2  = lm(Logro ~ LEN + NEM + Sexo, data = datos) # Modelo completo

# Estadístico F para la covariable LEN
SCR_modeloprevio = sum(residuals(modelo_nulo)^2)
SCR_modelopropuesto = sum(residuals(modelo_propuesto0)^2)
k = 1
n = dim(datos)[1]
p = length(modelo_propuesto2$coefficients) # Cantidad de parámetros del modelo completo
SCR_modelocompleto = sum(residuals(modelo_propuesto2)^2)
F_LEN = ((SCR_modeloprevio - SCR_modelopropuesto)/k)/(SCR_modelocompleto/(n - p))
F_LEN
## [1] 99.04031
# Estadístico F para la covariable NEM
SCR_modeloprevio = sum(residuals(modelo_propuesto0)^2)
SCR_modelopropuesto = sum(residuals(modelo_propuesto1)^2)
F_NEM = ((SCR_modeloprevio - SCR_modelopropuesto)/k)/(SCR_modelocompleto/(n - p))
F_NEM
## [1] 17.17213
# Estadístico F para la covariable Sexo
SCR_modeloprevio = sum(residuals(modelo_propuesto1)^2)
SCR_modelopropuesto = sum(residuals(modelo_propuesto2)^2)
F_Sexo = ((SCR_modeloprevio - SCR_modelopropuesto)/k)/(SCR_modelocompleto/(n - p))
F_Sexo
## [1] 2.627705

Cada uno de estos estadísticos distribuye \(F_{1,196}\). El criterio de rechazo es:

\[ F \geq F_{k, n-p}^{1-\alpha} \]

El valor-p de cada estadístico es:

1-pf(F_LEN,1,196)
## [1] 0
1-pf(F_NEM,1,196)
## [1] 5.07611e-05
1-pf(F_Sexo,1,196)
## [1] 0.1066211

Estos resultados son los mismos a los visualizados en la salida del comando anova().