Unidad 1 Estimación puntual

El objetivo de la inferencia estadística casi siempre es sacar algún tipo de conclusión sobre uno o más parámetros (características de la población). Para hacer eso un investigador tiene que obtener datos muestrales de cada una de las poblaciones estudiadas. Las conclusiones pueden entonces basarse en los valores calculados de varias cantidades muestrales. Por ejemplo, sea \(\mu\) (un parámetro) la resistencia a la ruptura promedio verdadera de conexiones alámbricas utilizadas en la unión de obleas semiconductoras. Se podría tomar una muestra aleatoria de \(n = 10\) conexiones y determinar la resistencia a la ruptura de cada una y se tendrían las resistencias observadas \(x_1, x_2, \ldots, x_{10}\). La resistencia a la ruptura media muestral \(\bar{x}\) se utilizaría entonces para sacar una conclusión con respecto al valor de \(\mu\). Asimismo, si \(\sigma^2\) es la varianza de la distribución de la resistencia a la ruptura (varianza de la población, otro parámetro), el valor de la varianza muestral \(s^2\) se utiliza para inferir algo sobre \(\sigma^2\). (Devore, 2008, página 228)

Cuando se discuten los métodos y conceptos generales de inferencia, es conveniente disponer de un símbolo genérico para el parámetro de interés. Se utilizará la letra griega \(\theta\) para este propósito. El objetivo de la estimación puntual es seleccionar un solo número, con base en los datos muestrales, que represente un valor sensible de \(\theta\). Supóngase, por ejemplo, que el parámetro de interés es \(\mu\), la vida útil promedio verdadera de baterías de un tipo. Una muestra aleatoria de \(n = 3\) baterías podría dar las vidas útiles (horas) observadas \(x_1 = 5.0\), \(x_2 = 6.4\), \(x_3 = 5.9\). El valor calculado de la vida útil media muestral es \(\bar{x} = 5.77\) y es razonable considerar 5.77 como un valor muy factible de \(\mu\), la “mejor suposición” del valor de \(\mu\) basado en la información muestral disponible.

Supóngase que se desea estimar un parámetro de una población (p. ej., \(\mu\)) con una muestra aleatoria de tamaño \(n\). Recuérdese por el capítulo previo de que antes que los datos estén disponibles, las observaciones muestrales deben ser consideradas como variables aleatorias \(X_1, X_2, \ldots, X_n\). Se deduce que cualquier función de las \(X_i\), es decir, cualquier estadístico, tal como la media muestral \(\bar{X}\) o la desviación estándar muestral \(S\) también es una variable aleatoria. Lo mismo es cierto si los datos disponibles se componen de más de una muestra. Por ejemplo, se pueden representar las resistencias a la tensión de \(m\) especímenes de tipo 1 y de \(n\) especímenes de tipo 2 por \(X_1, \ldots, X_m\) y \(Y_1, \ldots, Y_n\), respectivamente. La diferencia entre las dos resistencias medias muestrales es \(\bar{X} - \bar{Y}\), el estadístico natural para inferir sobre \(\mu_1 - \mu_2\), la diferencia entre las resistencias medias de la población.

Definición 1.1 (Estimación puntual) Una estimación puntual de un parámetro \(\theta\) es un número único que puede ser considerado como un valor sensible de \(\theta\). Se obtiene una estimación puntual seleccionando un estadístico apropiado y calculando su valor con los datos muestrales dados. El estadístico seleccionado se llama estimador puntual de \(\theta\).

En el ejemplo de la batería que se acaba de dar, el estimador utilizado para obtener la estimación puntual de \(\mu\) fue \(\bar{X}\) y la estimación puntual de \(\mu\) fue 5.77. Si las tres vidas útiles hubieran sido \(x_1 = 5.6\), \(x_2 = 4.5\) y \(x_3 = 6.1\), el uso del estimador \(\bar{X}\) habría dado por resultado la estimación \(\bar{x} = (5.6 + 4.5 + 6.1)/3 = 5.40\). El símbolo \(\hat{\theta}\) (“teta testada”) se utiliza comúnmente para denotar tanto la estimación de \(\theta\) como la estimación puntual que resulta de una muestra dada. Por tanto, \(\hat{\mu} = \bar{X}\) se lee como “el estimador puntual de \(\mu\) es la media” muestral \(\overline{X}\). La proposición ``la estimación puntual de \(\mu\) es 5.77’’ se escribe concisamente como \(\hat{\mu} = 5.77\). Obsérvese que cuando se escribe \(\hat{\theta} = 72.5\), no hay ninguna indicación de cómo se obtuvo esta estimación puntual (qué estadístico se utilizó). Se recomienda reportar tanto el estimador como la estimación resultante.

Ejemplo 1.1 Un fabricante automotriz ha producido un nuevo tipo de defensa, la que se presume absorber impactos con menos daño que las defensas previas. El fabricante ha utilizado esta defensa en una secuencia de 25 choques controlados con un muro, cada uno a 10 mph, utilizando uno de sus modelos de carro compacto. Sea \(X =\) el número de choques que no provocaron daños visibles al automóvil. El parámetro que tiene que ser estimado es \(p =\) la proporción de todos los choques que no provocaron daños [alternativamente, \(p = P(\text{ningún daño en un choque})\)]. Si se observa que \(X\) es \(x = 15\), el estimador y estimación más razonables son

\[ \text{estimador } \hat{p} = \frac{X}{n} \]

\[ \text{estimación } \hat{x} = \frac{X}{n} = \frac{15}{25} = 0.60 \]

Si por cada parámetro de interés hubiera sólo un estimador puntual razonable, no habría mucho para la estimación puntual. En la mayoría de los problemas, sin embargo, habrá más de un estimador razonable.

1.1 Propiedades de los estimadores

1.1.1 Insesgadez

Supóngase que se tienen dos instrumentos de medición: uno ha sido calibrado con precisión, pero el otro sistemáticamente da lecturas más pequeñas que el valor verdadero que se está midiendo. Cuando cada uno de los instrumentos se utiliza repetidamente en el mismo objeto, debido al error de medición, las mediciones observadas no serán idénticas. Sin embargo, las mediciones producidas por el primer instrumento se distribuirán en torno al valor verdadero de tal modo que en promedio este instrumento mide lo que se propone medir, por lo que este instrumento se conoce como instrumento insesgado. El segundo instrumento proporciona observaciones que tienen un componente de error o sesgo sistemático.

Definición 1.2 (Estimador insesgado) Se dice que un estimador puntual \(\hat{\theta}\) es un estimador insesgado de \(\theta\) si \(E(\hat{\theta}) = \theta\) con todo valor posible de \(\theta\). Si \(\hat{\theta}\) no es insesgado, la diferencia \(E(\hat{\theta}) - \theta\) se conoce como el sesgo de \(\hat{\theta}\).

Es decir, \(\hat{\theta}\) es insesgado si su distribución de probabilidad (es decir, muestreo) siempre está “centrada” en el valor verdadero del parámetro. Supóngase que \(\hat{\theta}\) es un estimador insesgado; entonces si \(\theta = 100\), la distribución muestral \(\hat{\theta}\) está centrada en 100; si \(\theta = 27.5\), en ese caso la distribución muestral \(\hat{\theta}\) está centrada en 27.5, y así sucesivamente.

Parece como si fuera necesario conocer el valor de \(\theta\) (en cuyo caso la estimación es innecesaria) para ver si \(\hat{\theta}\) es insesgado. Éste casi nunca es el caso, puesto que insesgamiento es una propiedad general del estimador muestral, donde se centra, y generalmente no depende de cualquier valor de parámetro particular.

Ejemplo 1.2 Sean \(X_1, X_2, \ldots, X_n\) una muestra aleatoria de una distribución con media \(\mu\) y varianza \(\sigma^2\). Entonces el estimador

\[ \widehat\sigma^2 = S^2 = \frac{1}{n-1} \left[ \sum X_i^2 - \frac{(\sum X_i)^2}{n} \right] \]

es un estimador insesgado de \(\sigma^2\).

Para cualquier variable aleatoria \(Y\), \(V(Y) = E(Y^2) - [E(Y)]^2\), por lo tanto
\[ E(Y^2) = V(Y) + [E(Y)]^2 \]. Aplicando esto a

\[ S^2 = \frac{1}{n-1} \left[ \sum X_i^2 - \frac{(\sum X_i)^2}{n} \right] \]

se obtiene

\[ E(S^2) = \frac{1}{n-1} \left\{ \sum E(X_i^2) - \frac{1}{n} E\left[(\sum X_i)^2\right] \right\} \]

\[ = \frac{1}{n-1} \left\{ n\sigma^2 + n\mu^2 - \frac{1}{n} (n\sigma^2 + n^2\mu^2) \right\} \]

\[ = \frac{1}{n-1} \left\{ n\sigma^2 + n\mu^2 - \sigma^2 - n\mu^2 \right\} = \frac{1}{n-1} (n\sigma^2 - \sigma^2) = \sigma^2 \]

El estimador que utiliza el divisor \(n\) se expresa como \((n-1)S^2/n\), por lo tanto

\[ E\left[\frac{(n-1)S^2}{n}\right] = \frac{n-1}{n} E(S^2) = \frac{n-1}{n} \sigma^2 \]

Este estimador es por consiguiente sesgado. El sesgo es \(- \sigma^2 / n\). Como el sesgo es negativo, el estimador con divisor \(n\) subestima \(\sigma^2\) y por eso muchos estadísticos prefieren el divisor \(n-1\) (aunque cuando \(n\) es grande, el sesgo es pequeño y hay poca diferencia entre los dos).

Aun cuando \(S^2\) es insesgado para \(\sigma^2\), \(S\) es un estimador sesgado de \(\sigma\) (su sesgo depende de la distribución). Tampoco existe un estimador insesgado único para \(\mu\) de una distribución normal. Si hubiera un estimador insesgado único para \(\mu\), el problema de estimación se simplificaría utilizando dicho estimador. Desafortunadamente, este no es el caso.

Supóngase que \(\hat{\theta}_1\) y \(\hat{\theta}_2\) son dos estimadores de \(\theta\) insesgados. Entonces, aunque la distribución de cada estimador esté centrada en el valor verdadero de \(\theta\), las dispersiones de las distribuciones en torno al valor verdadero pueden ser diferentes.

Definición 1.3 (Principio de estimación insesgada con varianza mínima) Entre todos los estimadores de \(\theta\) insesgados, se selecciona el de varianza mínima. El \(\hat{\theta}\) resultante se llama estimador insesgado con varianza mínima (EIVM) de \(\theta\).

Ejercicio 1.1 Si \(X_1, X_2, \ldots, X_n\) representan una muestra aleatoria tomada de una distribución de Rayleigh con función de densidad de probabilidad

\[ f(x; \theta) = \frac{x}{\theta} e^{-x^2/(2\theta)}, \quad x > 0 \]

Se puede demostrar que \(E(X^2) = 2\theta\). Use este hecho para construir un estimador insesgado de \(\theta\) basado en \(\sum X_i^2\) (y use reglas de valor esperado para demostrar que es insesgado).
Calcule \(\hat{\theta}\) a partir de las siguientes \(n = 10\) observaciones de esfuerzo vibratorio de un aspa de turbina en condiciones específicas:

16.88	10.23	4.59	6.66	13.68
14.23	19.87	9.40	6.51	10.95

1.1.2 Eficiencia

La eficiencia compara la varianza de diferentes estimadores. Un estimador es más eficiente si tiene una dispersión menor alrededor del parámetro.

Definición 1.4 (Eficiencia relativa) Si tenemos dos estimadores insesgados, \(\hat{\theta}_1\) y \(\hat{\theta}_2\), la eficiencia relativa de \(\hat{\theta}_1\) respecto a \(\hat{\theta}_2\) se define como:

\[ ER(\hat{\theta}_1, \hat{\theta}_2) = \frac{Var(\hat{\theta}_2)}{Var(\hat{\theta}_1)} \]

Si \(ER > 1\), entonces \(\hat{\theta}_1\) es más eficiente que \(\hat{\theta}_2\).

En caso de que los estimadores no sean insesgados, se puede usar el Error Cuadrático Medio (ECM) para comparar su eficiencia:

Definición 1.5 (Eficiencia basada en ECM) Si \(\hat{\theta}_1\) y \(\hat{\theta}_2\) son dos estimadores de \(\theta\), la eficiencia relativa basada en el ECM se define como: \[ ER_{ECM}(\hat{\theta}_1, \hat{\theta}_2) = \frac{ECM(\hat{\theta}_2)}{ECM(\hat{\theta}_1)} \] Donde \(ECM(\hat{\theta}) = Var(\hat{\theta}) + [E(\hat{\theta}) - \theta]^2\).

Si \(ER_{ECM} > 1\), entonces \(\hat{\theta}_1\) es más eficiente que \(\hat{\theta}_2\).

Ejemplo 1.3 Sea \(X_1, X_2, \dots, X_n\) una muestra aleatoria simple de una población con distribución exponencial \(Exp(\lambda)\), donde \(E[X] = 1/\lambda\) y \(Var(X) = 1/\lambda^2\).

Consideremos dos estimadores para el parámetro \(\theta = 1/\lambda\):

\(\widehat{\theta}_1 = \bar{X}\)
\(\widehat{\theta}_2 = X_1\)

Ambos estimadores son insesgados para \(\theta\):

\(E[\hat{\theta}_1] = E[\bar{X}] = \theta\)
\(E[\hat{\theta}_2] = E[X_1] = \theta\)

Como el sesgo es cero, el \(ECM\) es igual a la varianza:

\(ECM(\widehat{\theta}_1) = Var(\bar{X}) = \frac{\theta^2}{n}\)
\(ECM(\widehat{\theta}_2) = Var(X_1) = \theta^2\)

Calculamos la eficiencia de \(\widehat{\theta}_1\) respecto a \(\widehat{\theta}_2\): \[ ER(\hat{\theta}_1, \hat{\theta}_2) = \frac{Var(\hat{\theta}_2)}{Var(\hat{\theta}_1)} = \frac{\theta^2}{\theta^2 / n} = n \]

La eficiencia relativa es \(n\). Esto significa que el estimador \(\bar{X}\) es \(n\) veces más eficiente que usar una sola observación. Por ejemplo, con una muestra de \(n=100\), el estimador de momentos es 100 veces más preciso (tiene un error cuadrático medio 100 veces menor).

1.1.3 Consistencia

La consistencia es una propiedad asintótica. Se refiere a cómo se comporta el estimador a medida que el tamaño de la muestra \(n\) aumenta indefinidamente.

Definición 1.6 (Estimador consistente) Se dice que un estimador \(\hat{\theta}_n\) es si converge en probabilidad al valor verdadero del parámetro \(\theta\). Matemáticamente, para cualquier \(\epsilon > 0\):

\[ \lim_{n \to \infty} P(|\hat{\theta}_n - \theta| > \epsilon) = 0 \]

O de manera equivalente: \[ \text{plim } \hat{\theta}_n = \theta \]

Una forma común de verificar la consistencia es a través del Error Cuadrático Medio (\(ECM\)) (condición suficiente). Si el sesgo y la varianza tienden a cero cuando \(n \to \infty\), el estimador es consistente:

\(\lim_{n \to \infty} E(\hat{\theta}_n) = \theta\) (Insesgadez asintótica)
\(\lim_{n \to \infty} Var(\hat{\theta}_n) = 0\)

Ejemplo 1.4 Sea \(X_1, X_2, \dots, X_n\) una muestra aleatoria de una población con media \(\mu\) y varianza \(\sigma^2 < \infty\). El estimador \(\bar{X}_n = \frac{1}{n} \sum X_i\) es consistente para \(\mu\) porque: \[ E(\bar{X}_n) = \mu \quad \text{y} \quad Var(\bar{X}_n) = \frac{\sigma^2}{n} \] Al aplicar el límite: \[ \lim_{n \to \infty} \frac{\sigma^2}{n} = 0 \] Por la Ley Débil de los Grandes Números, \(\bar{X}_n \xrightarrow{p} \mu\).

1.2 El error estándar

Además de reportar el valor de una estimación puntual, se debe dar alguna indicación de su precisión. La medición usual de precisión es el error estándar del estimador usado.

Definición 1.7 (Error estándar) El error estándar de un estimador \(\hat{\theta}\) es su desviación estándar \(\sigma_{\hat{\theta}} = \sqrt{V(\hat{\theta})}\). Si el error estándar implica parámetros desconocidos cuyos valores pueden ser estimados, la sustitución de estas estimaciones en \(\sigma_{\hat{\theta}}\) da el error estándar estimado (desviación estándar estimada) del estimador. El error estándar estimado puede ser denotado o por \(\hat{\sigma}_{\hat{\theta}}\) (el \(\wedge\) sobre \(\sigma\) recalca que \(\sigma_{\hat{\theta}}\) está siendo estimada) o por \(s_{\hat{\theta}}\).

Ejemplo 1.5 El error estándar de \(\widehat{p} = X/n\) es

\[ \sigma_{\widehat{p}} = \sqrt{V(X/n)} = \sqrt{\frac{V(X)}{n^2}} = \sqrt{\frac{npq}{n^2}} = \sqrt{\frac{pq}{n}} \]

Como \(p\) y \(q = 1 - p\) son desconocidas (¿de otro modo por qué estimar?), se sustituye \(\widehat{p} = x/n\) y \(\hat{q} = 1 - x/n\) en \(\sigma_{\widehat{p}}\) para obtener el error estándar estimado

\[ \widehat{\sigma}_{\hat{p}} = \sqrt{\frac{\hat{p}\hat{q}}{n}} \]

1.3 Métodos de estimación

La definición de insesgamiento no indica en general cómo se pueden obtener los estimadores insesgados. A continuación se discuten dos métodos “constructivos” para obtener estimadores puntuales: el método de momentos y el método de máxima verosimilitud. Por constructivo se quiere dar a entender que la definición general de cada tipo de estimador sugiere explícitamente cómo obtener el estimador en cualquier problema específico. Aun cuando se prefieren los estimadores de máxima verosimilitud a los de momento debido a ciertas propiedades de eficiencia, a menudo requieren significativamente más cálculo que los estimadores de momento. En ocasiones es el caso que estos métodos dan estimadores insesgados.

1.3.1 Método de momentos (EM)

La idea básica de este método es poder igualar ciertas características muestrales, tales como la media, a los valores esperados de la población correspondiente. Luego resolviendo estas ecuaciones con valores de parámetros conocidos se obtienen los estimadores.

Definición 1.8 Si \(X_1, \ldots, X_n\) constituyen una muestra aleatoria proveniente de una función masa de probabilidad o de una función de densidad de probabilidad \(f(x)\). Con \(k = 1, 2, 3, \ldots\) el k-ésimo momento de la población o el k-ésimo momento de la distribución \(f(x)\) es \(E(X^k)\). El k-ésimo momento muestral es \(\frac{1}{n} \sum_{i=1}^n X_i^k\).

Por consiguiente el primer momento de la población es \(E(X) = \mu\) y el primer momento muestral es \(\frac{1}{n} \sum X_i = \overline{X}\). Los segundos momentos de la población y muestral son \(E(X^2)\) y \(\frac{1}{n} \sum X_i^2\), respectivamente. Los momentos de la población serán funciones de cualquier parámetro desconocido \(\theta_1, \theta_2, \ldots\).

Definición 1.9 (Estimadores de momento) Si \(X_1, X_2, \ldots, X_n\) son una muestra aleatoria de una distribución con función masa de probabilidad o función de densidad de probabilidad \(f(x; \theta_1, \ldots, \theta_m)\), donde \(\theta_1, \ldots, \theta_m\) son parámetros cuyos valores son desconocidos. Entonces los estimadores de momento \(\hat{\theta}_1, \ldots, \hat{\theta}_m\) se obtienen igualando los primeros \(m\) momentos muestrales con los primeros \(m\) momentos de la población correspondientes y resolviendo para \(\theta_1, \ldots, \theta_m\).

Si, por ejemplo, \(m = 2\), \(E(X)\) y \(E(X^2)\) serán funciones de \(\theta_1\) y \(\theta_2\). Con \(E(X) = (1/n) \sum X_i = \overline{X}\) y \(E(X^2) = (1/n) \sum X_i^2\) se obtienen dos ecuaciones en \(\theta_1\) y \(\theta_2\). La solución define entonces los estimadores. Para estimar una media \(\mu\) poblacional, el método da \(\hat{\mu} = \overline{X}\), por lo tanto el estimador es la media muestral.

Ejemplo 1.6 Si \(X_1, X_2, \ldots, X_n\) representan una muestra aleatoria de tiempos de servicio de \(n\) clientes en una instalación, donde la distribución subyacente se supone exponencial con el parámetro \(\lambda\). Como sólo hay un parámetro que tiene que ser estimado, el estimador se obtiene igualando \(E(X) = \overline{X}\). Como \(E(X) = 1/\lambda\) con una distribución exponencial, ésta da \(1/\lambda = \overline{X}\) o \(\lambda = 1/\overline{X}\). El estimador de momento de \(\lambda\) es entonces \(\hat{\lambda} = 1/\overline{X}\).

Ejercicio 1.2 Sea \(X_1, X_2, \dots, X_n\) una muestra aleatoria simple de una población con distribución Bernoulli de parámetro \(p\), donde \(X_i \in \{0, 1\}\). Obtenga el estimador de momentos para \(p\).

Ejercicio 1.3 Sea \(X_1, X_2, \dots, X_n\) una muestra aleatoria de una distribución Uniforme \(U(0, \theta)\), cuya función de densidad es \(f(x) = \frac{1}{\theta}\) para \(0 \leq x \leq \theta\).

Ejercicio 1.4 Sea \(X_1, X_2, \dots, X_n\) una muestra aleatoria de una población con distribución exponencial cuya función de densidad es \(f(x; \theta) = \frac{1}{\theta} e^{-x/\theta}\) para \(x > 0\). Encuentre el estimador de momentos para \(\theta\).

Ejercicio 1.5 Sea \(X_1, X_2, \dots, X_n\) una muestra aleatoria simple de una población con distribución normal \(N(\mu, \sigma^2)\). Obtenga los estimadores de momentos para la media (\(\mu\)) y la varianza (\(\sigma^2\)).

1.3.2 Método de máxima verosimilitud (EMV)

El método de máxima verosimilitud lo introdujo por primera vez R. A. Fisher, genetista y estadístico en la década de 1920. La mayoría de los estadísticos recomiendan este método, por lo menos cuando el tamaño de muestra es grande, puesto que los estimadores resultantes tienen ciertas propiedades de eficiencia deseables (véase la proposición en la página 249).

Definición 1.10 (Método de máxima verosimilitud) Que \(X_1, X_2, \ldots, X_n\) tengan una función masa de probabilidad o una función de densidad de probabilidad

\[ f(x_1, x_2, \ldots, x_n; \theta_1, \ldots, \theta_m) \]

donde los parámetros \(\theta_1, \ldots, \theta_m\) tienen valores desconocidos. Cuando \(x_1, \ldots, x_n\) son los valores muestrales observados y la ecuación anterior se considera como una función de \(\theta_1, \ldots, \theta_m\), se llama . Las estimaciones de máxima verosimilitud (emv) \(\hat{\theta}_1, \ldots, \hat{\theta}_m\) son aquellos valores de las \(\theta_i\) que incrementan al máximo la función de verosimilitud, de modo que

\[ f(x_1, \ldots, x_n; \hat{\theta}_1, \ldots, \hat{\theta}_m) \geq f(x_1, \ldots, x_n; \theta_1, \ldots, \theta_m) \]

con todos los \(\theta_1, \ldots, \theta_m\).

Cuando se sustituyen las \(X_i\) en lugar de las \(x_i\), se obtienen los estimadores de máxima verosimilitud.

La función de verosimilitud dice qué tan probable es que la muestra observada sea una función de los posibles valores de parámetro. Al incrementarse al máximo la verosimilitud se obtienen los valores de parámetro con los que la muestra observada es más probable que haya sido generada, es decir, los valores de parámetro que ``más concuerdan’’ con los datos observados.

Ejemplo 1.7 Suponga que \(X_1, X_2, \ldots, X_n\) es una muestra aleatoria de una distribución exponencial con parámetro \(\lambda\). Debido a la independencia, la función de verosimilitud es un producto de las funciones de densidad de probabilidad individuales:

\[ f(x_1, \ldots, x_n; \lambda) = (\lambda e^{-\lambda x_1}) \cdots (\lambda e^{-\lambda x_n}) = \lambda^n e^{-\lambda \sum x_i} \]

El logaritmo de la verosimilitud es

\[ \ln[f(x_1, \ldots, x_n; \lambda)] = n \ln(\lambda) - \lambda \sum_{i=1}^{n} x_i \]

Si se iguala \(\frac{d}{d\lambda}[\ln(\text{verosimilitud})]\) a cero se obtiene

\[ \frac{n}{\lambda} - \sum_{i=1}^{n} x_i = 0 \]

\[ \lambda = \frac{n}{\sum x_i} = \frac{1}{\bar{x}} \]

Por consiguiente el estimador de máxima verosimilitud es \(\hat{\lambda} = 1/\bar{X}\); es idéntico al estimador de momentos [pero no es un estimador insesgado, puesto que \(E(1/\bar{X}) \neq 1/E(\bar{X})\)].

Ejemplo 1.8 Sean \(X_1, \ldots, X_n\) una muestra aleatoria de una distribución normal. La función de verosimilitud es

\[ f(x_1, \ldots, x_n; \mu, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} e^{-(x_1 - \mu)^2 / (2\sigma^2)} \cdot \cdots \cdot \frac{1}{\sqrt{2\pi\sigma^2}} e^{-(x_n - \mu)^2 / (2\sigma^2)} \]

\[ = \left(\frac{1}{2\pi\sigma^2}\right)^{n/2} e^{-\sum_{i=1}^n (x_i - \mu)^2 / (2\sigma^2)} \]

por consiguiente

\[ \ln[f(x_1, \ldots, x_n; \mu, \sigma^2)] = -\frac{n}{2} \ln(2\pi\sigma^2) - \frac{1}{2\sigma^2} \sum_{i=1}^n (x_i - \mu)^2 \]

Para determinar los valores maximizantes de \(\mu\) y \(\sigma^2\), se deben tomar las derivadas parciales de \(\ln(f)\) con respecto a \(\mu\) y \(\sigma^2\), igualarlas a cero y resolver las dos ecuaciones resultantes. Omitiendo los detalles, los estimadores de máxima verosimilitud resultantes son

\[ \hat{\mu} = \bar{X}, \quad \hat{\sigma}^2 = \frac{\sum_{i=1}^n (X_i - \bar{X})^2}{n} \]

El estimador de máxima verosimilitud de \(\sigma^2\) no es el estimador insesgado, por consiguiente dos principios diferentes de estimación (insesgamiento y máxima verosimilitud) dan dos estimadores diferentes.

Ejercicio 1.6 Se selecciona una muestra aleatoria de \(n\) cascos para ciclistas fabricados por una compañía. Sea \(X =\) el número entre los \(n\) que están agrietados y sea \(p = P(\text{agrietado})\). Suponga que sólo se observa \(X\), en lugar de la secuencia de \(S\) y \(F\).

Obtenga el estimador de máxima verosimilitud de \(p\). Si \(n = 20\) y \(x = 3\), ¿cuál es la estimación?
¿Es insesgado el estimador del inciso a)?
Si \(n = 20\) y \(x = 3\), ¿cuál es el estimador de máxima verosimilitud de la probabilidad \((1 - p)^5\) de que ninguno de los siguientes cinco cascos esté agrietado?

Ejercicio 1.7 Sea \(X\) la proporción de tiempo destinado que un estudiante seleccionado al azar pasa resolviendo cierta prueba de aptitud. Suponga que la función de densidad de probabilidad de \(X\) es

\[ f(x; \theta) = \begin{cases} (\theta + 1)x^\theta, & 0 \leq x \leq 1 \\ 0, & \text{de lo contrario} \end{cases} \]

donde \(\theta > -1\). Una muestra aleatoria de diez estudiantes produce los datos \(x_1 = 0.92\), \(x_2 = 0.79\), \(x_3 = 0.90\), \(x_4 = 0.65\), \(x_5 = 0.86\), \(x_6 = 0.47\), \(x_7 = 0.73\), \(x_8 = 0.97\), \(x_9 = 0.94\), \(x_{10} = 0.77\).

Use el método de momentos para obtener un estimador de \(\theta\) y luego calcule la estimación con estos datos.
Obtenga el estimador de máxima verosimilitud de \(\theta\) y luego calcule la estimación con los datos dados.

Ejercicio 1.8 Sea \(X_1, X_2, \dots, X_n\) una muestra aleatoria simple de una población con distribución de Poisson de parámetro \(\lambda > 0\), cuya función de masa de probabilidad es \(f(x; \lambda) = \frac{e^{-\lambda} \lambda^x}{x!}\) para \(x = 0, 1, 2, \dots\). Encuentre el estimador de máxima verosimilitud para \(\lambda\).

1.4 Comportamiento del EMV en muestras grandes

Aunque el principio de la estimación de máxima verosimilitud tiene un considerable atractivo intuitivo, la siguiente proposición proporciona razones adicionales fundamentales para el uso de estimadores de máxima verosimilitud.

En condiciones muy generales en relación con la distribución conjunta de la muestra, cuando el tamaño de la muestra \(n\) es grande, el estimador de máxima verosimilitud de cualquier parámetro \(\theta\) es aproximadamente insesgado \([E(\hat{\theta}) \approx \theta]\) y su varianza es casi tan pequeña como la que puede ser lograda por cualquier estimador. Expresado de otra manera, el estimador de máxima verosimilitud \(\hat{\theta}\) es aproximadamente el estimador insesgado con varianza mínima de \(\theta\).

Debido a este resultado y al hecho de que las técnicas basadas en el cálculo casi siempre pueden ser utilizadas para derivar los estimadores de máxima verosimilitud (aunque a veces se requieren métodos numéricos, tales como el método de Newton), la estimación de máxima verosimilitud es la técnica de estimación más ampliamente utilizada entre los estadísticos. Muchos de los estimadores utilizados en lo que resta del libro son estimadores de máxima verosimilitud. La obtención de un estimador de máxima verosimilitud, sin embargo, requiere que se especifique la distribución subyacente.

1.5 Ejercicios

Ejercicio 1.9 Los datos siguientes provienen de una muestra aleatoria simple: 5, 8, 10, 7, 10, 14.

¿Cuál es la estimación puntual de la media poblacional?
¿Cuál es la estimación puntual de la desviación estándar poblacional?

Ejercicio 1.10 Como respuestas a una pregunta de una encuesta a 150 individuos de una muestra se obtuvieron 75 Sí, 55 No y 20 individuos no dieron su opinión.

¿Cuál es la estimación puntual de la proporción de la población que responde Sí?
¿Cuál es la estimación puntual de la proporción de la población que responde No?

Ejercicio 1.11 Obtenga el estimador de momentos para cada uno de los siguientes casos:

Distribución Uniforme: Sea una muestra \(X_i \sim U(\theta_1, \theta_2)\). Obtenga los estimadores para ambos límites del intervalo.
Distribución Geométrica: \(f(x; p) = p(1-p)^x\) para \(x=0,1,2\dots\). Halle el estimador para la probabilidad de éxito \(p\).
Distribución de Pareto: \(f(x; \alpha, k) = \frac{\alpha k^\alpha}{x^{\alpha+1}}, x \geq k\). Estime \(\alpha\) asumiendo que \(k\) es conocido (\(E[X] = \frac{\alpha k}{\alpha-1}\) para \(\alpha > 1\)).
Distribución Beta: \(f(x; \alpha) = \alpha x^{\alpha-1}\) para \(0 < x < 1\). Estime el parámetro de forma \(\alpha\).
Distribución de Potencia: Sea \(f(x; \theta) = \theta x^{\theta-1}\) para \(0 < x < 1\) y \(\theta > 0\). Obtenga el estimador de momentos para \(\theta\) igualando el primer momento poblacional \(E[X] = \frac{\theta}{\theta+1}\) con la media muestral.

Ejercicio 1.12 Obtenga el estimador de máxima verosimilitud para cada uno de los siguientes casos:

Distribución Binomial: Sea una muestra de tamaño \(n\) de una Binomial donde el número de ensayos \(m\) es conocido. Estime la probabilidad \(p\).
Distribución Uniforme \(U(\theta-1, \theta+1)\): Encuentre el estimador de \(\theta\). (Analice el soporte de la función).
Distribución Exponencial desplazada: \(f(x; \theta) = e^{-(x-\theta)}\) para \(x \geq \theta\). Halle el estimador de \(\theta\).
Distribución de Pareto: \(f(x; \alpha, k) = \frac{\alpha k^\alpha}{x^{\alpha+1}}, x \geq k\). Obtenga el estimador de \(k\) cuando \(\alpha\) es desconocido (Pista: el soporte depende de \(k\)).

Ejercicio 1.13 Determine el estimador de máxima verosimilitud de la proporción de éxito de una población de 2 características es \(\widehat{p} = X/n\), donde \(X\) es la cantidad de éxitos y \(n\) la cantidad total de observaciones (éxitos + fracasos), para ello, considere la proporción de éxito (probabilidad de éxito) de una distribución Bernoulli.

Ejercicio 1.14 Sea \(X_1, \dots, X_n \sim \text{Poisson}(\lambda)\). Se proponen dos estimadores para \(\lambda\): \(\hat{\lambda}_1 = \bar{X}\) y \(\hat{\lambda}_2 = \frac{X_1 + X_2}{2}\). Demuestre que ambos son insesgados.

Ejercicio 1.15 Sea una muestra \(X_1, \dots, X_n\) de una población con media \(\mu\) y varianza \(\sigma^2\). Demuestre que el estimador de momentos \(S_n^2 = \frac{1}{n} \sum_{i=1}^n (X_i - \bar{X})^2\) es sesgado, calculando que \(E[S_n^2] = \frac{n-1}{n}\sigma^2\).

Ejercicio 1.16 En una distribución Bernoulli(\(p\)), se toma una muestra de tamaño \(n=3\). Se propone el estimador: \(\hat{p} = \frac{1}{4}(X_1 + 2X_2 + X_3)\). ¿Es este un estimador insesgado para \(p\)? Justifique su respuesta mediante el cálculo de la esperanza.

Referencias

Devore, J. L. (2008). Probability and statistics for engineering and the sciences (7th ed). Thomson/Brooks/Cole.