B Métricas

B.1 \(R^2\) y \(R^2\) ajustado no decreciente

El coeficiente de determinación no decrece al añadir covariables al modelo de regresión lineal múltiple, es decir, la Suma Cuadrática de Errores no incrementa al aumentar la cantidad de covariables en el modelo.

En primer lugar, considere la propiedad \(e^tX = 0\), donde, \(e\) es la matriz de residuos y \(X\) es la matriz de diseño de un modelo de regresión lineal múltiple ajustado. La demostración de esta propiedad es la siguiente:

\[\begin{equation} \begin{split} e^tX &= (Y - \widehat{Y})^tX\\ &= (Y - X\widehat{\beta})^tX\\ &= (Y - X(X^tX)^{-1}X^tY)^tX\\ &= (Y^t - Y^tX(X^tX)^{-1}X^t)X\\ &= Y^tX - Y^tX(X^tX)^{-1}X^tX\\ &= Y^tX - Y^tXI\\ &= Y^tX - Y^tX\\ &= 0\\ \end{split} \tag{B.1} \end{equation}\]

Esto implica, que la suma de la multiplicación de los residuos de un modelo ajustado por cualquier columna de la matriz de diseño es igual a cero. Ahora, considere dos modelos de regresión lineal múltiple.

\[\begin{equation} \begin{split} \text{Modelo 1: } Y &= X_0\widehat{\beta} + a\\ \text{Modelo 2: } Y &= X_0\widehat{\beta}_0 + X_1\widehat{\beta}_1 + b,\\ \end{split} \tag{B.2} \end{equation}\]

donde, \(X_0\) y \(X_1\) son matrices de diseño, \(\widehat{\beta}\), \(\widehat{\beta}_0\) y \(\widehat{\beta}_1\) son las matrices de los EMC de parámetros y, \(a\) y \(b\) son las matrices de los residuos de cada modelo ajustado. Como se observa, el segundo modelo tiene una segunda matriz de covariables, por lo cual, el valor del \(R^2\) de este modelo no puede ser menor al del primero. Para demostrar esto, considere la igualdad entre los modelos (B.2).

\[\begin{equation} \begin{split} X_0\beta + a &= X_0\beta_0 + X_1\beta_1 + b\\ b^tX_0\beta + b^ta &= b^tX_0\beta_0 + b^tX_1\beta_1 + b^tb\\ \end{split} \tag{B.3} \end{equation}\]

Luego, por el resultado obtenido en la ecuación (B.1), se tiene que

\[\begin{equation} \begin{split} 0 + b^ta &= 0 + 0 + b^tb\\ b^ta &=b^tb\\ \end{split} \tag{B.4} \end{equation}\]

Considerando la suma cuadrática de las diferencias residuales entre ambos modelos y, utilizando el resultado obtenido en (B.4) se tiene que

\[\begin{equation} \begin{split} 0 &\leq (a-b)^t(a-b)\\ &= (a^t-b^t)(a-b)\\ &= a^ta - a^tb - b^ta + b^tb\\ &= a^ta - a^tb - b^ta + b^ta\\ &= a^ta - a^tb\\ &= a^ta - b^tb\\ b^tb &\leq a^ta\\ \text{SCE}_{\text{Modelo 2}} &\leq \text{SCE}_{\text{Modelo 1}}\\ \text{SCT} - \text{SCE}_{\text{Modelo 2}} &\geq \text{SCT} - \text{SCE}_{\text{Modelo 1}}\\ \frac{\text{SCReg}_{\text{Modelo 2}}}{\text{SCT}} &\geq \frac{\text{SCReg}_{\text{Modelo 1}}}{\text{SCT}}\\ R^2_{\text{Modelo 2}} &\geq R^2_{\text{Modelo 1}}\\ \end{split} \tag{B.5} \end{equation}\]

Esta conclusión es la misma para el \(R^2\) ajustado (\(\bar{R}^2\)), para ello, observe el siguiente desarrollo a partir de la ecuación (B.5).

\[\begin{equation} \begin{split} R^2_{\text{Modelo 2}} &\geq R^2_{\text{Modelo 1}}\\ 1 - R^2_{\text{Modelo 2}} &\leq 1 - R^2_{\text{Modelo 1}}\\ \left( \frac{n-1}{n-k-1} \right) (1 - R^2_{\text{Modelo 2}}) &\leq \left( \frac{n-1}{n-k-1} \right) (1 - R^2_{\text{Modelo 1}}), \ n > k+1\\ 1 - \left( \frac{n-1}{n-k-1} \right) (1 - R^2_{\text{Modelo 2}}) &\geq 1 - \left( \frac{n-1}{n-k-1} \right) (1 - R^2_{\text{Modelo 1}})\\ \bar{R}^2_{\text{Modelo 2}} &\geq \bar{R}^2_{\text{Modelo 1}}\\ \end{split} \tag{B.6} \end{equation}\]

Un punto interesante, es que a diferencia del \(R^2\), el \(\bar{R}^2\) puede tomar valores negativos, para ello observe el siguiente desarrollo a partir de los posibles valores de \(R^2\).

\[\begin{gather*} 0 \leq R^2 \leq 1\\ 0 \leq 1 - R^2 \leq 1\\ 0 \leq \left( \frac{n-1}{n-k-1} \right) (1 - R^2) \leq \left( \frac{n-1}{n-k-1} \right), \ n > k+1\\ 1 - \left( \frac{n-1}{n-k-1} \right) \leq 1 - \left( \frac{n-1}{n-k-1} \right) (1 - R^2) \leq 1\\ 1 - \left( \frac{n-1}{n-k-1} \right) \leq \bar{R}^2 \leq 1\\ \tag{B.7} \end{gather*}\]

El miembro izquierdo de la desigualdad es negativo cuando \(n > k+1\) (la cantidad parámetros del modelo), lo cual, implica que \(1-(n-1)/(n-k-1) < 0\). Por lo tanto, el \(\bar{R}^2\) puede llegar a tomar valores negativos.

Por otro lado, cuando \(n < k+1\) ocurre que no es posible estimar los parámetros del modelo, y por ende, no es posible calcular nada referente a este (incluyendo las métricas). Para estudiar esta situación es necesario estudiar el rango de una matriz:

  • El rango de una matriz \(A\) denotado por \(\text{rank}(A)\) es la cantidad de columnas linealmente independientes de la matriz. Para una matriz producto se tiene que

    \[\text{rank}(AB) \leq \min(\text{rank}(A), \text{rank}(B)).\]

    Aplicando esto a la expresión para determinar \(\widehat{\beta} = X(X^tX)^{-1}X^tY\), en particular a la matriz \(X^tX\), se tiene que

    \[\text{rank}(X^tX) \leq \min(\text{rank}(X^t), \text{rank}(X)).\]

    Dado que \(\text{rank}(X) = \text{rank}(X^t)\), se tiene que \(\text{rank}(X^tX) \leq \text{rank}(X)\). Como la matriz \(X\) tiene dimensión \(n \times k+1\), el rango de \(X\) está delimitado, es decir, \(\text{rank}(X) = \min(n,k+1)\). Por lo tanto, si \(n < k+1\), entonces \(\text{rank}(X) = n\) y \(\text{rank}(X^tX) \leq n\).

  • Se sabe que la matriz \(X^tX\) tiene dimensión \(k+1 \times k+1\). Para poder calcular \((X^tX)^{-1}\), debe tener rango completo, es decir \(\text{rank}(X^tX) = k+1\) (el rango debe ser igual a la dimensión). Sin embargo, del punto anterior se tiene que \(\text{rank}(X^tX) \leq n\), y sabemos que \(n < k+1\), entonces \(\text{rank}(X^tX) < k+1\) y por ende, no es posible calcular \((X^tX)^{-1}\).

Finalmente, cuando \(n=k+1\) es posible estimar los parámetros del modelo mediante los EMC (A.18), ya que la matriz \((X^tX)^{-1}\) es invertible, sin embargo, no es posible determinar la varianza de los estimadores. Una extensión de lo presentado en la sección \(\ref{EMC-RLM-CUERPO}\) es que, la distribución de lo estimadores de mínimos cuadrados es

\[ \widehat{\beta} \sim N(\beta, (X^tX)^{-1}\sigma^2) \] Luego, para calcular la varianza de los estimadores, se estima \(\sigma^2\) por

\[ \widehat{\sigma}^2 = \frac{\text{SCE}}{n-k-1} \] Se observa, que el denominador de la expresión es 0, por lo cual, la varianza de los estimadores no puede ser calculada, impidiendo ir más allá de la estimación de los coeficientes.