Estas notas están elaboradas a partir de los apuntes de la materia “Estadística Matemática”, cursada durante el semestre Agosto-Diciembre de 1999 en el ITAM.
La estadística es la ciencia de los datos, es decir, la ciencia que estudia el acopio, clasificación, resumen, organización, análisis e interpretación de los datos (Mendenhall and Sincich 1996).
En muchos problemas de estadística, después de haber analizado los datos experimentales, se debe tomar una decisión de entre una clase disponible de decisiones, con la propiedad de que las consecuencias de cada decisión disponible dependen del valor desconocido de cierto parámetro: estimar el valor desconocido de cierto parámetro o decidir si el valor desconocido del parámetro es mayor o menor que una constante específica.
Conocemos el mundo a nuestro al rededor mediante el acopio y procesamiento de datos/información1, pero obtener lo que queremos de esta información no siempre es inmediato dado que esta información puede ser diversa, compleja o incompleta. Generalmente, esta información la obtenemos a través de mediciones de características de nuestros objetos de estudio (unidades experimentales), características a las que llamamos variables. Al conjunto de unidades experimentales de nuestro interés lo conocemos como población.
Tipos de variables:
Nominales
Ordinales
Continuas
De intervalo
De razón
Discretas
Es importante observar que las variables cualitativas pueden ser codificadas mediante valores numéricos. Sin embargo, el valor numérico es únicamente un indicador de la categoría a la que pertenece la unidad experimental y no tiene un valor cuantitativo en sí. Incluso, puede darse el caso en que el valor numérico empleado no tenga ni siquiera un valor de orden.
Las poblaciones pueden estar definidas de manera concreta (existen), por ejemplo, los estudiantes pertenecientes a este curso, o bien pueden estar definidas de manera conceptual, por ejemplo, la calidad de los productos de una fábrica. No obstante, con frecuencia, aún cuando la población a estudiar se encuentre claramente definida y exista resulta incosteable (en tiempo o capital), o incluso imposible, realizar las mediciones de interés a todos los miembros de la población (o a todos sus atributos) por lo que es necesario realizar una muestra.
Muestras probabilísticas: son aquellas en las que se conoce de antemano la probabilidad de que un elemento de la población sea seleccionado. Pueden ser obtenidas mediante muestreo aleatorio simple, muestreo estratificado y muestreo por conglomerados.
Muestras no probabilísticas: aquellas en las que los miembros de la muestra son seleccionados mediante un criterio diferente al de su probabilidad de pertenencia. Pueden ser por cuota, juicio o conveniencia, por ejemplo.
Un problema de estadística es un problema en el cual se han de analizar datos que han sido generados de acuerdo con una distribución de probabilidad desconocida y en el que se debe realizar algún tipo de inferencia acerca de tal distribución (DeGroot 1988). Dicho de otra manera, la estadística es la rama de las matemáticas que nos ayuda a realizar a procesar la información a nuestro alcance para entenderla mejor.
La estadística es la ciencia de los datos, es decir, la ciencia que estudia el acopio, clasificación, resumen, organización, análisis e interpretación de los datos (Mendenhall and Sincich 1996).
Formalmente, una estadística es una “función de valores obtenidos de una muestra, que se utiliza para inferir propiedades de una población”. En este sentido, usamos las estadísticas frecuentemente como medidas resumen de la información bajo análisis, que nos ayudan a describir los datos obtenidos con la finalidad de resolver el problema estadístico que nos ocupa.
A estas funciones de los datos o estadísticas descriptivas las podemos clasificar como de:
Con frecuencia las medidas descriptivas no nos interesan únicamente como auxiliares descriptivos en el análisis o entendimiento de los datos sino que son el parámetro o característica objeto de nuestro problema estadístico, esto es, son el parámetro desconocido sobre el cual nos interesa conocer el valor real.
\[\bar{x} = \frac{\sum\limits_{i=1}^n x_i}{n}.\]
Cuando los datos provienen de una muestra, se hace comúnmente referencia a la media muestral, para difirenciarla de la media poblacional, es decir, la media de los datos cuando contamos con información de la población completa.
Media (geométrica) :
La media (ambas) solamente se puede calcular para variables numéricas. Un problema de la media es que se puede ver afectada por la presencia de valores extremos.
Moda :
\[\tilde{x} = \left\{ \array{x_{\left(\frac{n+1}{2}\right)} & \text{n impar} \\ \frac{x_{\left(\frac{n}{2}\right)} + x_{\left(\frac{n}{2} + 1 \right)}}{2} & \text{n par}} \right.\]
Donde \(x_{(j)}\) representa a la j-ésima observación ordenada.
A diferencia de la media, la mediana se considera una medida robusta, es decir, que no se ve afecta ante la presencia de valores extremos.
La mediana corresponde al cuantil 0.5.
Amplitud o rango :
Varianza :
Desviación estándar :
Tanto la varianza (la desviación estándar) como la amplitud no son medidas robustas.
Coeficiente de variación :
Desviación media :
\[C_A = \frac{\frac{1}{n} \sum\limits_{i = 1}^n (X_i - \bar{X})^3}{(S^2)^{\frac{3}{2}}}\]
\[C_k = \frac{\frac{1}{n} \sum\limits_{i = 1}^n (X_i - \bar{X})^4}{(S^2)^{2}}\]
\[r = \frac{\sum\limits_{i=1}^n (X_i - \bar{X})(Y_i - \bar{Y})}{\sqrt{\sum\limits_{i=1}^n (X_i - \bar{X})^2 \sum\limits_{i=1}^n(Y_i - \bar{Y})^2}}\]
De manera muy general, se pueden clasificar a los problemas estadísticos en tres grandes grupos: 1) problemas en los que se busca resumir de manera informativa los datos, 2) problemas en los que se busca comparar dos o más conjuntos de datos y 3) problemas en los que se busca determinar alguna especie de relación. Generalmente, en cualquier de estos casos es necesario realizar algún tipo de inferencia estadística.
En muchos problemas de estadística, después de haber analizado los datos experimentales, se debe tomar una decisión de entre una clase disponible de decisiones, con la propiedad de que las consecuencias de cada decisión disponible dependen del valor desconocido de cierto parámetro: estimar el valor desconocido de cierto parámetro o decidir si el valor desconocido del parámetro es mayor o menor que una constante específica.
En pocas palabras, buscamos sacar conclusiones a partir de los datos recolectados. Como ya se mencionó, típicamente los datos serán recolectados usando muestras.
Sea, entonces, \(X\) una variable aleatoria, y sea \(F(x|\theta)\) su función de distribución y \(f(x|\theta)\) su función de densidad. Si \(\underline{X}_n = (x_1, \dots, x_n)\) es una muestra aleatoria de \(X\), entonces llamamos distribución de muestreo a la función de distribución conjunta de los valores de la muestra.
En particular, observemos que si \(X_n\) es una muestra aleatoria de valores obtenidos en forma independiente, entonces
\[f(\underline{X}|\theta) = \prod\limits_{i=1}^n f(x_i|\theta).\]
Ahora, sea \(T\) una estadística de \(X_n\), dado que \(T\) es una función de \(X_n\) podemos entonces también hablar de la distribución muestral de \(T\). Dado que frecuentemente nuestro interés se centra en realizar inferencia estadística sobre alguna estadística (por ejemplo, un estimador de algún parámetro de la distribución), nos interesa en particular conocer la distribución muestral de las estadísticas.
[Ver desarrollo en apuntes de probabilidad para la distribución de una suma de variables aleatorias y aplicar aquí.]
Dos estadísticas que nos interesan en particular son:
\[\bar{X} = \frac{1}{n} \sum\limits_{i=1}^n x_i\]
y
\[S^2 = \frac{1}{n-1} \sum\limits_{i=1}^n (x_i - \bar{X})^2\]
\(E[\bar{X}] = \mu\)
\(Var[\bar{X}] = \frac{\sigma^2}{n}\)
\(E[S^2] = \sigma^2\)
\(Var[S^2] = \frac{1}{n}[\mu_4 - \frac{n-3}{n-1}\sigma^4]\) donde \(\mu_4 = E[(X - \mu)^4]\), es decir, el cuarto momento central.
[Pendiente demostrar]
Si queremos obtener el primer momento central de \(X\), entonces:
\[\psi'(t) = \frac{d}{dt} \int e^{tx}f(x) dx\]
\[= \int \frac{d}{dt} \left[ e^{tx}f(x) \right] dx \]
\[= \int \frac{d}{dt} \left[ e^{tx} \right] f(x) dx \]
\[= \int x e^{tx} f(x) dx \]
… y evaluamos para \(t = 0\) …
\[\psi'(0) = \int x e^{0 \times x} f(x) dx \]
\[= \int x f(x) dx \]
\[= E[X].\]
En general, si la FGM de \(X\) existe para todos los valore de \(t\) en un intervalo alrededor del punto \(t=0\), entonces se puede demostrar que deben existir todos los momentos \(E[X^k]\) de \(X\). Además, se puede demostrar que es posible derivar \(\psi(t)\) un número arbitrario de veces en el punto \(t=0\). La \(n\)-ésima derivada de \(\psi(t)\), \(\psi^{(n)}(t)\), en el punto \(t=0\) satisfará:
\[\psi^{(n)}(0) = E[X^n].\]
\[\psi_Y(t) = E[e^{tY}]\]
\[= E[e^{t(aX + b)}]\]
\[= e^{tb}E[e^{taX}]\]
\[= e^{tb} \psi_X(at).\]
\[\psi_Y (t) = \prod\limits_{i = 1}^n \psi_i(t) \ \forall \ t : \ \exists \ \psi_i(t), i \in \{1,\dots,n\}.\]
\[E[e^{tY}] = E \left[e^{t\sum\limits_{i = 1}^n X_i} \right]\]
\[= E\left[ \prod\limits_{i = 1}^n e^{tX_i} \right].\]
Dado que las vv.aa. son independientes:
\[E \left[ \prod\limits_{i = 1}^n e^{tX_i} \right] = \prod\limits_{i = 1}^n E\left[ e^{tX_i} \right]\]
\[= \prod\limits_{i = 1}^n \psi_i (t).\]
\[f(x) = \left \{ \begin{array}{} e^{-x} & x>0 \\ 0 & e.o.c. \end{array} \right .\]
encuentra su FGM y \(Var[X]\).
\[\psi_X(t) = E[e^{tX}]\]
\[= \int\limits_0^{\infty} e^{tx}f(x)dx\]
\[= \int\limits_0^{\infty} e^{tx}e^{-x}dx\]
\[= \int\limits_0^{\infty} e^{tx-x}dx\]
\[= \int\limits_0^{\infty} e^{(t-1)x}dx\]
\[= \left. \frac{1}{t-1}e^{(t-1)x} \right|_0^{\infty} \ \ \ t \neq 1.\]
De esta última expresión, notemos que se indetermina cuando \(t > 1\) pero cuando \(t < 1, \lim\limits_{x \rightarrow \infty} e^{(t-1)x} = 0\) entonces la FGM de \(X\) es:
\[\psi_X(t) = -\frac{1}{t-1} \ \ \ t < 1.\]
\[\psi_X(t) = \frac{1}{1 - t} \ \ \ t < 1.\]
Ahora, para la varianza de \(X\):
\[\psi'_X(t) = -\frac{1}{(1-t)^2}\]
\[\psi''_X(t) = \frac{2}{(1-t)^3}.\]
Recordemos que:
\[Var[X] = E[X^2] - E^2[X]\]
\[= \psi''_X (0) - (\psi'_X(0))^2\]
\[= \frac{2}{(1-0)^3} - \left[-\frac{1}{(1-0)^2}\right]^2\]
\[= \frac{2}{-1} - \left[-1 \right]^2\]
\[= 2 - 1 = 1.\]
\[f(x) = \left \{ \begin{array}{} e^{-x} & x>0 \\ 0 & e.o.c. \end{array} \right .\]
Si \(Y = 3 - 2X\), encuentra \(\psi_Y(t)\).
\[\psi_Y(t) = e^{3t} \psi_X(-2t) \ \ \ -2t < 1\]
\[\psi_Y(t) = \frac{e^{3t}}{1 + 2t} \ \ \ t > -\frac{1}{2}.\]
Dado que \(\psi_{X_i} (t) = E[e^{tX_i}] = pe^{t \times 1} + (1-p)e^{t \times 0} = 1 + p(e^t - 1)\), entonces:
\[\psi_X (t) = \prod\limits_{i=1}^n \psi_{X_i} (t)\]
\[= \prod\limits_{i=1}^n 1 + p(e^t - 1)\]
\[= [1 + p(e^t - 1)]^n.\]
Entonces:
\[E[X] = \psi'_{X} (0) = n[1 + p(e^t - 1)]^{n-1}[pe^t]|_{t=0}\]
\[= n[1 + p(1 - 1)]^{n-1}[p \times 1]\]
\[= np.\]
Para la varianza:
\[Var[X] = E[X^2] - E^2[X]\]
\[E[X^2] = \psi''_{X} (0)\]
\[= np \{ e^t \times (n-1) \times [1 + p(e^t - 1)]^{n-2} \times pe^t + [1 + p(e^t - 1)]^{n-1} \times e^t\} |_{t=0}\]
\[= npe^t \{ (n-1) \times pe^t \times [1 + p(e^t - 1)]^{n-2} + [1 + p(e^t - 1)]^{n-1}\} |_{t=0}\]
\[= np \{ (n-1)p + 1\}\]
\[= np (np + 1 - p).\]
Sea \(q = 1 - p\) entonces
\[E[X^2] = np (np + q) = n^2 p^2 + npq.\]
Entonces
\[Var[X] = n^2 p^2 + npq - (np)^2\]
\[= npq.\]
\[\psi_{X_1}(t) = [1 + p(e^t - 1)]^{n_1}\]
\[\psi_{X_2}(t) = [1 + p(e^t - 1)]^{n_2}.\]
Por otra parte, sabemos que la FGM de una suma de vv.aa. independientes es igual al producto de sus FGM por lo que:
\[\psi_{X_1 + X_2}(t) = \{[1 + p(e^t - 1)]^{n_1}\}\{[1 + p(e^t - 1)]^{n_2}\}\]
\[\psi_{X_1 + X_2}(t) = [1 + p(e^t - 1)]^{n_1 + n_2}.\]
Por lo tanto:
\[\psi_{Y}(t) = [1 + p(e^t - 1)]^{n_1 + n_2}.\]
Podemos entonces ver que la FGM de \(Y\) corresponde a la FGM de una v.a. \(Binomial(n_1 + n_2, p)\) por lo que, dado el teorema de unicidad de la FGM, podemos afirmar que \(Y \sim Binomial(n_1 + n_2, p)\).
Lecturas recomendadas :
Anteriormente definimos a un estadístico como cualquier función una muestra aleatoria. Uno de los problemas que las técnicas estadísticas buscan resolver es de estimar los valores de algún parámetro o característica de la distribución de una variable aleatoria de interés. Si \(\theta\) es un parámetro de la función de distribución \(f(x|\theta)\) de una variable aleatoria \(X\), podemos decir que un estimador de \(\theta\) es un estadístico cuyo valor estima el valor real de \(\theta\). El concepto de estadístico suficiente fue introducido por R.A. Fisher en 1922.
¿Para qué sirve que un estadístico sea mínimo suficiente?
Si se cuenta con el valor del estadístico suficiente \(T(x)\) es posible realizar el proceso conocido como aleatorización auxiliar para generar muestras de la variable aleatoria \(X\) sin la necesidad de conocer el parámetro \(\theta\) ya que la distribución condicional está totalmente determinada.
Cualquier estimador insesgado que sea función del estimador de mínima suficiencia es un estimador de mínima varianza (y, en principio, queremos siempre el estimador de mínima varianza de entre los estimadores disponibles).
Suelen usarse para construirse intervalos de confianza exactos para \(\theta\) si puede encontrarse la función de probabilidad del estadístico. Generalmente estos intervalos son los más estrechos para un coeficiente de confianza especificado.
\[ \begin{aligned} P[X = x | T = t, \theta] &= \frac{P[X = x, T = t| \theta]}{P[T = t|\theta]}\\ &= \frac{P[T = t|X = x, \theta] P[X = x|\theta]}{P[T = t|\theta]}\\ &= \frac{P[X = x|\theta]}{P[T = t|\theta]}\\ &= \frac{f_n(\underline{X}_n|\theta)}{\sum_{y \in A(t)} f_n(y|\theta)}\\ &= \frac{f_n(\underline{X}_n|\theta)}{\sum_{y \in A(t)} f_n(y|\theta)}\\ &= \frac{u(\underline{X}_n)v[T(\underline{X}_n),\theta]}{\sum_{y \in A(t)} u(y)v[T(y),\theta]}\\ &= \frac{u(\underline{X}_n)v[t,\theta]}{\sum_{y \in A(t)} u(y)v[t,\theta]}\\ &= \frac{u(\underline{X}_n)}{\sum_{y \in A(t)} u(y)}. \end{aligned} \]
Como se puede ver, la distribución de \(X\) condicional en \(T\) y \(\theta\) no depende entonces de \(\theta\), por lo que podemos concluir que \(T\) es un estadístico suficiente.
[¿Qué es una hipótesis?]
Para probar una hipótesis en estadística se hace referencia a la hipótesis nula y la hipótesis alterna. La hipótesis nula (representada como \(H_0\)) es una oración que captura una característica de la población de estudio que queremos probar (o rechazar).
\(H_0\): el monto total de seguros vendidos por vendedores a quienes se asignaron metas exigentes no es diferente al monto total de seguros vendidos por vendedores a quienes se asignaron metas poco exigentes.
La hipótesis alterna, en comparación, captura el complemento a la hipótesis nula. Se representa como \(H_1\).
\(H_1\): el monto total de seguros vendidos por vendedores a quienes se asignaron metas exigentes es diferente al monto total de seguros vendidos por vendedores a quienes se asignaron metas poco exigentes.
Sin embargo, en ocasiones es posible encontrar hipótesis alternas direccionales, esto es, hipótesis alternas que no plantean el complemento a toda la hipótesis nula sino solamente a parte de ella, lo que implica una relación de dirección en la oración de la hipótesis.
\(H_1\): el monto total de seguros vendidos por vendedores a quienes se asignaron metas exigentes es mayor que el monto total de seguros vendidos por vendedores a quienes se asignaron metas poco exigentes.
[Error tipo I y error tipo II]
Se dice que una prueba de hipótesis es potente en función de su capacidad para rechazar la hipótesis nula cuando esta es realmente falsa. Así, la potencia de una prueba de hipótesis se define como la probabilidad de que el procedimiento de prueba rechace la hipótesis nula (\(H_0\)). Entonces:
\[ \beta(\theta) = P_\theta (X \in R) \]
y el tamaño de la prueba está definido como:
\[ \alpha = \sup\limits_{\theta \in \Theta_u} \beta(\theta). \]
Se dice que una prueba es de nivel \(\alpha\) si su tamaño es menor o igual a \(\alpha\).
Generalmente, las pruebas de hipótesis direccionales suelen ser más potentes que las no direccionales.
\[\int udv = uv - \int vdu\]
No voy a entrar en estos apuntes a la discusión sobre la diferencia entre dato-información-conocimiento-sabiduría. Asumiremos, para nuestros fines, que datos e información son términos relativamente intercambiables.↩︎