D Funciones
D.1 Esquema de la función indicatriz
Al trabajar con variables cualitativas, existen distintas maneras de esquematizar este tipo de variable en la matriz de diseño. Considerando una muestra de dos observaciones, para la cual se labora un modelo de regresión lineal con una sola variable independiente cualitativa de dos categorías, entonces, la matriz de diseño \(X\), tentativamente, sería de la siguiente forma.
\[\begin{equation} X = \begin{pmatrix} 1 & 1 & 0 \\ 1 & 0 & 1 \\ \end{pmatrix}, \tag{D.1} \end{equation}\]donde, la primera columna está asociada a \(\beta_0\), y la segunda y tercera están asociadas a las categorías de la variable cualitativa. La segunda columna toma el valor de 1 cuando la observación está asociada a una determinada categoría y 0 si está asociada a otra. Lo mismo ocurre para la tercera columna (que es para referirse a la otra categoría de la variable). Esta forma de ordenar las columnas para los distintos valores de la variable se denomina función indicatriz, que se especifica de la siguiente manera:
\[\begin{equation} I(x) = \left\lbrace\begin{matrix} 1 & \text{si } x \in \text{categoría} \\ 0 & \text{si } x \notin \text{categoría} \\ \end{matrix} \right. \tag{D.2} \end{equation}\]Luego, el modelo ajustado (incorrecto) sería el siguiente.
\[\begin{equation} \widehat{Y} = \widehat{\beta}_0 + \widehat{\beta}_1I_{\text{Variable = Categoría 1}} + \widehat{\beta}_2I_{\text{Variable = Categoría 2}} \tag{D.3} \end{equation}\]La matriz (D.1) tiene columnas linealmente dependientes, es decir, al menos una de ellas puede ser expresada como combinación lineal de las otras. En este caso, y a modo de ejemplo, es fácil ver qué
\[\begin{equation} C_1 = C_2 + C_3, \tag{D.4} \end{equation}\]donde \(C_i\) indica la columna de la matriz. Esto implica, que no es posible calcular los EMC expresados en la ecuación (A.18), ya que, la matriz \((X^tX)\) no es invertible al darse este fenómeno de dependencia, y por ende, el modelo ajustado (D.3) es incorrecto.
Para corregir esto, una de las soluciones más intuitivas es plantear una nueva matriz de diseño eliminando una de las columnas involucradas en la ecuación (D.4). Así, ninguna de las columnas de la matriz \(X\) podría ser expresada como combinación lineal de las otras, sin embargo, ¿que sucede con el parámetro asociado a la columna que se elimina?
Como se explica en la sección 3.3.2, la variable que no se observa en el modelo es la denominada categoría de referencia, que en otras palabras, es la columna que se ha eliminado de la matriz de diseño para poder calcular los EMC. Ahora, el beta asociado a la categoría (columna) que se elimina de la matriz de diseño será “absorbido” por el intercepto, es decir, \(\beta_0\). Para estudiar esto, considere dos matrices de diseño, \(X_1\) y \(X_2\), en la primera se ha eliminado la segunda columna, y en la segunda se ha eliminado la primera columna (la asociada al intercepto).
\[\begin{equation} \begin{matrix} X_1 = \begin{pmatrix} 1 & 0 \\ 1 & 1 \\ \end{pmatrix}, & X_2 = \begin{pmatrix} 1 & 0 \\ 0 & 1 \\ \end{pmatrix} \end{matrix} \tag{D.5} \end{equation}\]Las ecuaciones (D.6) y (D.7) corresponde a las ecuación de regresión poblacional para matriz de diseño. El superíndice sobre los residuos indica a qué modelo pertenecen.
\[\begin{equation} Y = X_1\beta + \epsilon^1 \tag{D.6} \end{equation}\] \[\begin{equation} Y = X_2\beta + \epsilon^2 \tag{D.7} \end{equation}\]Las ecuaciones (D.8) y (D.9) corresponde a la forma lineal de las ecuaciones anteriores. El subíndice 1 bajo la función indicatriz indica que la variable cualitativa está asociada a la primera categoría, y el subíndice 2 indica que está asociada a la segunda categoría.
\[\begin{equation} Y_i = \beta_0 + \beta_1I_1 + \epsilon_i^1 \tag{D.8} \end{equation}\] \[\begin{equation} Y_i = \beta_1I_1 + \beta_2I_2 + \epsilon_i^2 \tag{D.9} \end{equation}\]Las ecuaciones (D.10) corresponden a las ecuaciones (D.11) ajustadas al reemplazar los EMC en las ecuaciones anteriores. Cabe mencionar, que si bien el parámetro \(\beta_1\) está presente en ambas ecuaciones, el EMC será distinto en cada modelo, es por ello, que lo diferenciamos con comilla, además, los residuos serán diferenciados de la misma forma los errores.
\[\begin{equation} Y_i = \widehat{\beta}_0 + \widehat{\beta}_1I_1 + e_i^1 \tag{D.10} \end{equation}\] \[\begin{equation} Y_i = \widehat{\beta}_1'I_1 + \widehat{\beta}_2'I_2 + e_i^2 \tag{D.11} \end{equation}\]Luego, igualando las ecuaciones (D.10) y (D.11) se tiene que
\[\begin{equation} \begin{split} \widehat{\beta}_0 + \widehat{\beta}_1I_1 + e_i^1 &= \widehat{\beta}_1'I_1 + \widehat{\beta}_2'I_2 + e_i^2\\ \sum_{i=1}^n\widehat{\beta}_0 + \sum_{i=1}^n\widehat{\beta}_1I_1 + \sum_{i=1}^ne_i^1 &= \sum_{i=1}^n\widehat{\beta}_1'I_1 + \sum_{i=1}^n\widehat{\beta}_2'I_2 + \sum_{i=1}^ne_i^2\\ \sum_{i=1}^n\widehat{\beta}_0 + \sum_{i=1}^n\widehat{\beta}_1I_1 &= \sum_{i=1}^n\widehat{\beta}_1'I_1 + \sum_{i=1}^n\widehat{\beta}_2'I_2\\ n\widehat{\beta}_0 + j\widehat{\beta}_1 &= j\widehat{\beta}_1' + (n-j)\widehat{\beta}_2'\\ n\widehat{\beta}_0 + j\widehat{\beta}_1 &= j\widehat{\beta}_1' + n\widehat{\beta}_2'-j\widehat{\beta}_2'\\ \end{split} \tag{D.12} \end{equation}\]donde, \(j\) es la cantidad de veces que la variable cualitativa toma el valor de la primera categoría, por ende, \(n-j\) es la cantidad de veces que la variable cualitativa toma el valor de la segunda categoría. Luego, igualando los elementos que acompañan a \(n\) y \(j\) respectivamente, se tiene las siguiente igualdades:
\[\begin{equation} \begin{split} \widehat{\beta}_0 &= \widehat{\beta}_2'\\ \end{split} \tag{D.13} \end{equation}\] \[\begin{equation} \begin{split} \widehat{\beta}_1 &= \widehat{\beta}_1' - \widehat{\beta}_2'\\ \widehat{\beta}_1 &= \widehat{\beta}_1' - \widehat{\beta}_0\\ \widehat{\beta}_1 + \widehat{\beta}_0 &= \widehat{\beta}_1'\\ \end{split} \tag{D.14} \end{equation}\]Considerando la ecuación (D.13) y, reemplazando (D.14), se tiene que \(\widehat{\beta}_2' + \widehat{\beta}_1 = \widehat{\beta}_1'\), por lo cual, el efecto propio de la primera categoría de la variable cualitativa (\(\widehat{\beta}_1'\)) es igual al valor del efecto propio de la segunda categoría más una diferencia, es decir, es el efecto de la primera categoría sobre la variable \(Y\) respecto a la categoría de referencia. Esta igualdad se puede expresar como el efecto superior o inferior (\(\widehat{\beta}_1\)) que tiene la primera categoría sobre el efecto directo de la segunda (\(\widehat{\beta}_2'\)).
A continuación, se muestra un ejemplo práctico para entender estas relaciones. La base de datos iris
tiene la siguiente descripción en la documentación de R: “Este famoso conjunto de datos de iris (de Fisher o Anderson) proporciona las medidas en centímetros de las variables longitud y ancho del sépalo y longitud y ancho de los pétalos, respectivamente, para 50 flores de cada una de las 3 especies de iris. Las especies son Iris setosa, versicolor y virginica.”.
Se filtran los tipos de especies para considerar solo dos, setosa
y versicolor
. Luego, se plantea un modelo que utiliza el intercepto y una categoría de referencia, es decir, se hace uso de una matriz de diseño del tipo (D.6). La salida del modelo refleja que la categoría de referencia (columna eliminada) corresponde a setosa
. Luego, el modelo ajustado es el siguiente.
datos = iris
datos = subset(datos, Species %in% c("setosa", "versicolor"))
lm(Sepal.Length ~ Species, data = datos)
##
## Call:
## lm(formula = Sepal.Length ~ Species, data = datos)
##
## Coefficients:
## (Intercept) Speciesversicolor
## 5.006 0.930
Se plantea un segundo modelo, que contiene el efecto de ambas categorías, dejando fuera el efecto del intercepto, es decir, se hace uso de una matriz de diseño del tipo (D.7). Se puede observar, que se tiene un valor directamente para una de la categorías (un efecto propio para cada una). Nota: ignorar el orden de los resultados en la salida de R.
\[\begin{equation} \widehat{Y}_{\text{Sepal.Length}} = \widehat{\beta}_1'I_{\text{Species = versicolor}} + \widehat{\beta}_2'I_{\text{Species = setosa}} \tag{D.16} \end{equation}\]##
## Call:
## lm(formula = Sepal.Length ~ -1 + Species, data = datos)
##
## Coefficients:
## Speciessetosa Speciesversicolor
## 5.006 5.936
La tabla D.1, muestra la asociación de estos valores según lo expresado en las ecuaciones (D.13) y (D.14). Se puede verificar que, el valor de \(\widehat{\beta}_1' = 5.936\) es igual a \(\widehat{\beta}_0 + \widehat{\beta}_1 = 5.006 + 0.930\) y, que el valor de \(\widehat{\beta}_0 = 5.006\) es igual a \(\widehat{\beta}_2' = 5.006\). En resumen, se tienen las siguientes interpretaciones de los parámetros estimados.
- Observando el modelo (D.15):
- \(\widehat{\beta}_0\): Ya se mostró que este valor absorbe el efecto asociado a la categoría de referencia (\(\widehat{\beta}_2'\)), por lo cual, su interpretación es la siguiente. Cuando la especie de la planta no es versicolor (es decir, setosa), entonces, el valor promedio del largo del sépalo es de 5.006 cm.
- \(\widehat{\beta}_1\): Es el efecto que tiene la categoría observada (\(\widehat{\beta}_1 = \widehat{\beta}_1' - \widehat{\beta}_2' = 0.903\)) sobre la categoría de referencia (\(\widehat{\beta}_1'\)), por lo cual su interpretación es la siguiente. Cuando la especie de planta es versicolor, entonces, el valor promedio del largo del sépalo es superior en 0.903 cm respecto a las plantas de especie setosa.
- Observando el modelo (D.16):
- \(\widehat{\beta}_1'\): Corresponde al efecto propio de la categoría, por lo cual, su interpretación la siguiente. Cuando la especie de planta es setosa, entonces, el valor promedio del largo del sépalo es de 5.006 cm.
- \(\widehat{\beta}_2'\): Corresponde al efecto propio de la categoría, por lo cual, su interpretación la siguiente. Cuando la especie de planta es versicolor, entonces, el valor promedio del largo del sépalo es de 5.936 cm.
Estimador | \(\widehat{\beta}_0\) | \(\widehat{\beta}_1\) | \(\widehat{\beta}_1'\) | \(\widehat{\beta}_2'\) |
Valor | 5.006 | 0.930 | 5.936 | 5.006 |
Como se puede apreciar, las interpretaciones de los parámetros estimados en el modelo (D.16) no requieren de una comparación con una de las categorías, ya que se midió el efecto por separado de cada una ellas.
Cabe mencionar, que la categoría de referencia que se elija no influye en las propiedades mencionadas, sin embargo, la forma en la que se esquematiza la función indicatriz puede ser distinta. En la ecuación (D.5), la matriz \(X_1\) es la forma en la que R trabaja por defecto para asignar categorías de referencia, mientras que la matriz \(X_2\) requiere ser implementada manualmente, tal como se mostró para el modelo (D.16); una opción distinta es la siguiente.
\[\begin{equation} X_3 = \begin{pmatrix} 1 & 1 \\ 1 & -1 \\ \end{pmatrix}, \tag{D.17} \end{equation}\]la cual, debería ser implementada manualmente en R.
Si bien existe libertad a la hora de elegir cómo trabajar la matriz de diseño, se debe tener en cuenta, que todas las matrices de diseño que evitan el problema de colinealidad implican estilos de interpretación distintos.