INTRODUCCIÓN

Estas notas están elaboradas a partir de los apuntes de la materia “Estadística Matemática”, cursada durante el semestre Agosto-Diciembre de 1999 en el ITAM.

La estadística es la ciencia de los datos, es decir, la ciencia que estudia el acopio, clasificación, resumen, organización, análisis e interpretación de los datos (Mendenhall and Sincich 1996).

En muchos problemas de estadística, después de haber analizado los datos experimentales, se debe tomar una decisión de entre una clase disponible de decisiones, con la propiedad de que las consecuencias de cada decisión disponible dependen del valor desconocido de cierto parámetro: estimar el valor desconocido de cierto parámetro o decidir si el valor desconocido del parámetro es mayor o menor que una constante específica.

ESTADÍSTICA, POBLACIÓN, MUESTRA, VARIABLES Y PARÁMETROS

Conocemos el mundo a nuestro al rededor mediante el acopio y procesamiento de datos/información¹, pero obtener lo que queremos de esta información no siempre es inmediato dado que esta información puede ser diversa, compleja o incompleta. Generalmente, esta información la obtenemos a través de mediciones de características de nuestros objetos de estudio (unidades experimentales), características a las que llamamos variables. Al conjunto de unidades experimentales de nuestro interés lo conocemos como población.

Variable: Llamamos variables a las características que nos interesa describir de las unidades experimentales, a las características que creemos que las definen y que varían de una unidad experimental a otra.

Tipos de variables:

Cualitativas o Categóricas: Son datos que únicamente son susceptibles de ser clasificados en una categoría dentro de un grupo de categorías.

Nominales
Ordinales

Cuantitativas o Numéricas: Son datos que pueden ser medidos (representados) en una escala numérica.

Continuas
1. De intervalo
2. De razón
Discretas

Es importante observar que las variables cualitativas pueden ser codificadas mediante valores numéricos. Sin embargo, el valor numérico es únicamente un indicador de la categoría a la que pertenece la unidad experimental y no tiene un valor cuantitativo en sí. Incluso, puede darse el caso en que el valor numérico empleado no tenga ni siquiera un valor de orden.

Unidad experimental: Objeto (persona o cosa) sobre la que se recogen datos.
Población: Conjunto total de unidades experimentales sobre las cuales queremos estudiar una o más variables.

Las poblaciones pueden estar definidas de manera concreta (existen), por ejemplo, los estudiantes pertenecientes a este curso, o bien pueden estar definidas de manera conceptual, por ejemplo, la calidad de los productos de una fábrica. No obstante, con frecuencia, aún cuando la población a estudiar se encuentre claramente definida y exista resulta incosteable (en tiempo o capital), o incluso imposible, realizar las mediciones de interés a todos los miembros de la población (o a todos sus atributos) por lo que es necesario realizar una muestra.

Muestra: Subconjunto de la población que sea representativo, es decir, que contenga todas las características relevantes de la población.

Muestras probabilísticas: son aquellas en las que se conoce de antemano la probabilidad de que un elemento de la población sea seleccionado. Pueden ser obtenidas mediante muestreo aleatorio simple, muestreo estratificado y muestreo por conglomerados.
Muestras no probabilísticas: aquellas en las que los miembros de la muestra son seleccionados mediante un criterio diferente al de su probabilidad de pertenencia. Pueden ser por cuota, juicio o conveniencia, por ejemplo.

Estadística: es una función \(T = t(x_1, \dots, x_n)\) de las observaciones de una muestra.
Parámetro: Es una característica fija de la población y, del que, por lo general, desconocemos su valor real.

Un problema de estadística es un problema en el cual se han de analizar datos que han sido generados de acuerdo con una distribución de probabilidad desconocida y en el que se debe realizar algún tipo de inferencia acerca de tal distribución (DeGroot 1988). Dicho de otra manera, la estadística es la rama de las matemáticas que nos ayuda a realizar a procesar la información a nuestro alcance para entenderla mejor.

La estadística es la ciencia de los datos, es decir, la ciencia que estudia el acopio, clasificación, resumen, organización, análisis e interpretación de los datos (Mendenhall and Sincich 1996).

MEDIDAS DESCRIPTIVAS

Formalmente, una estadística es una “función de valores obtenidos de una muestra, que se utiliza para inferir propiedades de una población”. En este sentido, usamos las estadísticas frecuentemente como medidas resumen de la información bajo análisis, que nos ayudan a describir los datos obtenidos con la finalidad de resolver el problema estadístico que nos ocupa.

A estas funciones de los datos o estadísticas descriptivas las podemos clasificar como de:

localización
variabilidad
posición
forma
asociación

Con frecuencia las medidas descriptivas no nos interesan únicamente como auxiliares descriptivos en el análisis o entendimiento de los datos sino que son el parámetro o característica objeto de nuestro problema estadístico, esto es, son el parámetro desconocido sobre el cual nos interesa conocer el valor real.

MEDIDAS DE LOCALIZACIÓN

Media (aritmética): es el valor al que típicamente nos referimos cuando hablamos del promedio de un conjunto de observaciones o valores numéricos (cuantitativos). La media aritmética de un conjunto de observaciones \(x_1, x_2, \dots, x_n\) se define como

\[\bar{x} = \frac{\sum\limits_{i=1}^n x_i}{n}.\]

Cuando los datos provienen de una muestra, se hace comúnmente referencia a la media muestral, para difirenciarla de la media poblacional, es decir, la media de los datos cuando contamos con información de la población completa.

Media (geométrica) :

La media (ambas) solamente se puede calcular para variables numéricas. Un problema de la media es que se puede ver afectada por la presencia de valores extremos.

Moda :

Mediana: La mediana es el valor medio de los datos, es decir, el valor que, una vez ordenados los datos de mayor a menor, se encuentra en el centro. La mediana, por lo tanto, solamente tiene sentido para variables ordenadas. Obsérvese que, estrictamente hablando, sólo se cuenta con un valor medio si el número de observaciones es impar, por lo que es necesario contar con un criterio para determinar el valor de la media cuando el número de observaciones, \(n\), es impar. En estos casos tomaremos el valor promedio de las dos observaciones centrales. Es decir, que podemos definir la mediana como:

\[\tilde{x} = \left\{ \array{x_{\left(\frac{n+1}{2}\right)} & \text{n impar} \\ \frac{x_{\left(\frac{n}{2}\right)} + x_{\left(\frac{n}{2} + 1 \right)}}{2} & \text{n par}} \right.\]

Donde \(x_{(j)}\) representa a la j-ésima observación ordenada.

A diferencia de la media, la mediana se considera una medida robusta, es decir, que no se ve afecta ante la presencia de valores extremos.

MEDIDAS DE POSICIÓN

Cuantiles: El cuantil de orden p (\(p \in [0,1]\)) en un conjunto de n observaciones es aquél valor \(C_p\) tal que a lo más el p% de las observaciones son menores que \(C_p\) y a lo más el (1-p)% son mayores que \(C_p\).

La mediana corresponde al cuantil 0.5.

MEDIDAS DE VARIABILIDAD

Amplitud o rango :

Varianza :

Desviación estándar :

Tanto la varianza (la desviación estándar) como la amplitud no son medidas robustas.

Coeficiente de variación :

Desviación media :

MEDIDAS DE FORMA

Asimetría: Si el valor del \(C_A\) es negativo, entonces los datos presentan una asimetría hacia la izquierda; si es positivo, a la derecha; si es cero, los datos presentan una distribución simétrica.

\[C_A = \frac{\frac{1}{n} \sum\limits_{i = 1}^n (X_i - \bar{X})^3}{(S^2)^{\frac{3}{2}}}\]

Curtosis

\[C_k = \frac{\frac{1}{n} \sum\limits_{i = 1}^n (X_i - \bar{X})^4}{(S^2)^{2}}\]

\(C_k < 3 \Rightarrow\) distribución platocúrtica;
\(C_k = 3 \Rightarrow\) distribución mesocúrtica;
\(C_k > 3 \Rightarrow\) distribución leptocúrtica;

MEDIDAS DE ASOCIACIÓN

Correlación: El coeficiente de correlación entre dos variables mide la dependencia lineal entre ellas.

\[r = \frac{\sum\limits_{i=1}^n (X_i - \bar{X})(Y_i - \bar{Y})}{\sqrt{\sum\limits_{i=1}^n (X_i - \bar{X})^2 \sum\limits_{i=1}^n(Y_i - \bar{Y})^2}}\]

\(r = 1 \Rightarrow\) relación lineal positiva perfecta entre las dos variables;
\(r = -1 \Rightarrow\) relación lineal negativa (inversa) perfecta entre las dos variables;
\(r = 0 \Rightarrow\) no existe una relación lineal entre las variables.

INFERENCIA Y MUESTRAS ALEATORIAS

De manera muy general, se pueden clasificar a los problemas estadísticos en tres grandes grupos: 1) problemas en los que se busca resumir de manera informativa los datos, 2) problemas en los que se busca comparar dos o más conjuntos de datos y 3) problemas en los que se busca determinar alguna especie de relación. Generalmente, en cualquier de estos casos es necesario realizar algún tipo de inferencia estadística.

En pocas palabras, buscamos sacar conclusiones a partir de los datos recolectados. Como ya se mencionó, típicamente los datos serán recolectados usando muestras.

DISTRIBUCIONES DE MUESTREO Y TEOREMA CENTRAL DEL LÍMITE

DISTRIBUCIONES DE MUESTREO

Sea, entonces, \(X\) una variable aleatoria, y sea \(F(x|\theta)\) su función de distribución y \(f(x|\theta)\) su función de densidad. Si \(\underline{X}_n = (x_1, \dots, x_n)\) es una muestra aleatoria de \(X\), entonces llamamos distribución de muestreo a la función de distribución conjunta de los valores de la muestra.

En particular, observemos que si \(X_n\) es una muestra aleatoria de valores obtenidos en forma independiente, entonces

\[f(\underline{X}|\theta) = \prod\limits_{i=1}^n f(x_i|\theta).\]

Ahora, sea \(T\) una estadística de \(X_n\), dado que \(T\) es una función de \(X_n\) podemos entonces también hablar de la distribución muestral de \(T\). Dado que frecuentemente nuestro interés se centra en realizar inferencia estadística sobre alguna estadística (por ejemplo, un estimador de algún parámetro de la distribución), nos interesa en particular conocer la distribución muestral de las estadísticas.

Ejemplo: Sea \(\underline{X}_n\) una muestra aleatoria de una variable aleatoria que se distribuye \(N(\mu,\sigma^2)\). Encuentra la distribución muestral de \(T(\underline{X}_n) = \bar{X} = \frac{\sum\limits_{i = 1}^n x_i}{n}\).

[Ver desarrollo en apuntes de probabilidad para la distribución de una suma de variables aleatorias y aplicar aquí.]

Dos estadísticas que nos interesan en particular son:

\[\bar{X} = \frac{1}{n} \sum\limits_{i=1}^n x_i\]

\[S^2 = \frac{1}{n-1} \sum\limits_{i=1}^n (x_i - \bar{X})^2\]

Teorema: Considérese \(\bar{X}\) y \(S^2\) (conforme a las definiciones presentadas más arriba), entonces, estadísticas de una muestra aleatoria de una v.a. con media \(\mu\) y varianza \(\sigma^2\):

\(E[\bar{X}] = \mu\)
\(Var[\bar{X}] = \frac{\sigma^2}{n}\)
\(E[S^2] = \sigma^2\)
\(Var[S^2] = \frac{1}{n}[\mu_4 - \frac{n-3}{n-1}\sigma^4]\) donde \(\mu_4 = E[(X - \mu)^4]\), es decir, el cuarto momento central.

[Pendiente demostrar]

FUNCIÓN GENERADORA DE MOMENTOS

Definición (función generadora de momentos): Sean \(X\), una variable aleatoria, y \(\psi(t) = E[e^{tX}]\). A \(\psi(t)\) se le conoce como la función generadora de momentos (FGM) de \(X\).

Si queremos obtener el primer momento central de \(X\), entonces:

\[\psi'(t) = \frac{d}{dt} \int e^{tx}f(x) dx\]

\[= \int \frac{d}{dt} \left[ e^{tx}f(x) \right] dx \]

\[= \int \frac{d}{dt} \left[ e^{tx} \right] f(x) dx \]

\[= \int x e^{tx} f(x) dx \]

… y evaluamos para \(t = 0\) …

\[\psi'(0) = \int x e^{0 \times x} f(x) dx \]

\[= \int x f(x) dx \]

\[= E[X].\]

En general, si la FGM de \(X\) existe para todos los valore de \(t\) en un intervalo alrededor del punto \(t=0\), entonces se puede demostrar que deben existir todos los momentos \(E[X^k]\) de \(X\). Además, se puede demostrar que es posible derivar \(\psi(t)\) un número arbitrario de veces en el punto \(t=0\). La \(n\)-ésima derivada de \(\psi(t)\), \(\psi^{(n)}(t)\), en el punto \(t=0\) satisfará:

\[\psi^{(n)}(0) = E[X^n].\]

Teorema: Sea \(X\) una variable aleatoria cuya FGM es \(\psi_1(t)\). Sea \(Y = aX + b\); \(a\) y \(b\) constantes. Entonces, para cualquier \(t\) tal que \(\psi_1(at)\) existe, la FGM de \(Y\) será igual a \(\psi_2(t)=e^{bt}\psi_1(at)\).
Demostración: (Caso continuo) La FGM de \(Y\) es \(\psi_Y(t) = E[e^{tY}]\):

\[\psi_Y(t) = E[e^{tY}]\]

\[= E[e^{t(aX + b)}]\]

\[= e^{tb}E[e^{taX}]\]

\[= e^{tb} \psi_X(at).\]

Teorema: Sean \(X_1, X_2, \dots, X_n\) variables aleatorias independientes y sea \(\psi_i(t), i \in \{1,\dots,n\}\) la FGM de \(X_i\). Si \(Y = \sum\limits_{i = 1}^n X_i\) entonces, la FGM de \(Y\) es igual a:

\[\psi_Y (t) = \prod\limits_{i = 1}^n \psi_i(t) \ \forall \ t : \ \exists \ \psi_i(t), i \in \{1,\dots,n\}.\]

Demostración: \(Y = \sum\limits_{i = 1}^n X_i\) por lo que

\[E[e^{tY}] = E \left[e^{t\sum\limits_{i = 1}^n X_i} \right]\]

\[= E\left[ \prod\limits_{i = 1}^n e^{tX_i} \right].\]

Dado que las vv.aa. son independientes:

\[E \left[ \prod\limits_{i = 1}^n e^{tX_i} \right] = \prod\limits_{i = 1}^n E\left[ e^{tX_i} \right]\]

\[= \prod\limits_{i = 1}^n \psi_i (t).\]

Teorema (unicidad de la FGM): Sean \(\psi_{X_1}(t)\) y \(\psi_{X_2}(t)\) las FGM de dos vv.aa. \(X_1\) y \(X_2\), respectivamente. Si \(\psi_{X_1}(t) = \psi_{X_2}(t)\) para todos los valores de \(t\) en un intervalo alrededor de \(t = 0\), entonces las distribuciones de probabilidad de \(X_1\) y \(X_2\) son idénticas.
Demostración: [Pendiente]

EJERCICIOS

Sea \(X\) una v.a. cuya función de densidad es:

\[f(x) = \left \{ \begin{array}{} e^{-x} & x>0 \\ 0 & e.o.c. \end{array} \right .\]

encuentra su FGM y \(Var[X]\).

Solución: La FGM de \(X\), \(\psi_X(t)\) es igual a:

\[\psi_X(t) = E[e^{tX}]\]

\[= \int\limits_0^{\infty} e^{tx}f(x)dx\]

\[= \int\limits_0^{\infty} e^{tx}e^{-x}dx\]

\[= \int\limits_0^{\infty} e^{tx-x}dx\]

\[= \int\limits_0^{\infty} e^{(t-1)x}dx\]

\[= \left. \frac{1}{t-1}e^{(t-1)x} \right|_0^{\infty} \ \ \ t \neq 1.\]

De esta última expresión, notemos que se indetermina cuando \(t > 1\) pero cuando \(t < 1, \lim\limits_{x \rightarrow \infty} e^{(t-1)x} = 0\) entonces la FGM de \(X\) es:

\[\psi_X(t) = -\frac{1}{t-1} \ \ \ t < 1.\]

\[\psi_X(t) = \frac{1}{1 - t} \ \ \ t < 1.\]

Ahora, para la varianza de \(X\):

\[\psi'_X(t) = -\frac{1}{(1-t)^2}\]

\[\psi''_X(t) = \frac{2}{(1-t)^3}.\]

Recordemos que:

\[Var[X] = E[X^2] - E^2[X]\]

\[= \psi''_X (0) - (\psi'_X(0))^2\]

\[= \frac{2}{(1-0)^3} - \left[-\frac{1}{(1-0)^2}\right]^2\]

\[= \frac{2}{-1} - \left[-1 \right]^2\]

\[= 2 - 1 = 1.\]

Sea \(X\) una v.a. cuya función de densidad es:

\[f(x) = \left \{ \begin{array}{} e^{-x} & x>0 \\ 0 & e.o.c. \end{array} \right .\]

Si \(Y = 3 - 2X\), encuentra \(\psi_Y(t)\).

Solución: Del ejercicio anterior, sabemos que \(\psi_X(t) = \frac{1}{1 - t} \ \ \ t < 1\). Por otra parte, sabemos también que si \(Y = aX + b\); \(a\) y \(b\) constantes, entonces, para cualquier \(\psi_Y(t)=e^{bt}\psi_X(at)\) entonces:

\[\psi_Y(t) = e^{3t} \psi_X(-2t) \ \ \ -2t < 1\]

\[\psi_Y(t) = \frac{e^{3t}}{1 + 2t} \ \ \ t > -\frac{1}{2}.\]

Sea \(X\) una v.a. tal que \(X \sim Binomial(n,p)\). Obtenga la FGM, la esperanza y la varianza de \(X\).

Solución: Si \(X \sim Binomial(n,p)\) entonces \(X = \sum\limits_{i=1}^n X_i\) donde \(X_i \sim Bernoulli(p)\).

Dado que \(\psi_{X_i} (t) = E[e^{tX_i}] = pe^{t \times 1} + (1-p)e^{t \times 0} = 1 + p(e^t - 1)\), entonces:

\[\psi_X (t) = \prod\limits_{i=1}^n \psi_{X_i} (t)\]

\[= \prod\limits_{i=1}^n 1 + p(e^t - 1)\]

\[= [1 + p(e^t - 1)]^n.\]

Entonces:

\[E[X] = \psi'_{X} (0) = n[1 + p(e^t - 1)]^{n-1}[pe^t]|_{t=0}\]

\[= n[1 + p(1 - 1)]^{n-1}[p \times 1]\]

\[= np.\]

Para la varianza:

\[Var[X] = E[X^2] - E^2[X]\]

\[E[X^2] = \psi''_{X} (0)\]

\[= np \{ e^t \times (n-1) \times [1 + p(e^t - 1)]^{n-2} \times pe^t + [1 + p(e^t - 1)]^{n-1} \times e^t\} |_{t=0}\]

\[= npe^t \{ (n-1) \times pe^t \times [1 + p(e^t - 1)]^{n-2} + [1 + p(e^t - 1)]^{n-1}\} |_{t=0}\]

\[= np \{ (n-1)p + 1\}\]

\[= np (np + 1 - p).\]

Sea \(q = 1 - p\) entonces

\[E[X^2] = np (np + q) = n^2 p^2 + npq.\]

Entonces

\[Var[X] = n^2 p^2 + npq - (np)^2\]

\[= npq.\]

Utiliza el teorema de unicidad de la FGM para demostrar que si \(X_1\) y \(X_2\) son vv.aa. con distribuciones \(Binomial(n_1,p)\) y \(Binomial(n_2,p)\), entonces \(Y = X_1 + X_2\) es una variable aleatoria cuya distribución es \(Binomial(n_1+n_2,p)\).

Solución: De otros ejercicios sabemos que si \(X \sim Binomial(n,p)\) entonces \(\psi_{X}(t) = [1 + p(e^t - 1)]^n\) por lo tanto:

\[\psi_{X_1}(t) = [1 + p(e^t - 1)]^{n_1}\]

\[\psi_{X_2}(t) = [1 + p(e^t - 1)]^{n_2}.\]

Por otra parte, sabemos que la FGM de una suma de vv.aa. independientes es igual al producto de sus FGM por lo que:

\[\psi_{X_1 + X_2}(t) = \{[1 + p(e^t - 1)]^{n_1}\}\{[1 + p(e^t - 1)]^{n_2}\}\]

\[\psi_{X_1 + X_2}(t) = [1 + p(e^t - 1)]^{n_1 + n_2}.\]

Por lo tanto:

\[\psi_{Y}(t) = [1 + p(e^t - 1)]^{n_1 + n_2}.\]

Podemos entonces ver que la FGM de \(Y\) corresponde a la FGM de una v.a. \(Binomial(n_1 + n_2, p)\) por lo que, dado el teorema de unicidad de la FGM, podemos afirmar que \(Y \sim Binomial(n_1 + n_2, p)\).

TEOREMA DEL LÍMITE CENTRAL

PRINCIPIOS ESTADÍSTICOS

PRINCIPIO DE SUFICIENCIA

Lecturas recomendadas :

DeGroot (1988), cap. 6.7.

Anteriormente definimos a un estadístico como cualquier función una muestra aleatoria. Uno de los problemas que las técnicas estadísticas buscan resolver es de estimar los valores de algún parámetro o característica de la distribución de una variable aleatoria de interés. Si \(\theta\) es un parámetro de la función de distribución \(f(x|\theta)\) de una variable aleatoria \(X\), podemos decir que un estimador de \(\theta\) es un estadístico cuyo valor estima el valor real de \(\theta\). El concepto de estadístico suficiente fue introducido por R.A. Fisher en 1922.

Definición: Sea \(X\) una variable aleatoria y \((x_1, x_2, \dots, x_n)\) una muestra aleatoria de la variable \(X\). Se dice que un estadístico \(T(x_1, x_2, \dots, x_n) = t\) es un estadístico suficiente para el parámetro \(\theta\) si la probabilidad condicional de \(X\) dado \(T(x) = T\) es independiente de \(\theta\).

Método de Lehman y Scheffé: Sea \(\underline{Y}_n\) una muestra aleatoria con función de densidad \(f(y|\theta)\), y sean \((x_1, x_2, \dots, x_n)\) y \((y_1, y_2, \dots, y_n)\) dos posibles conjuntos de valores de \(\underline{Y}_n\). Si se encuentra \(g(x_1, x_2, \dots, x_n) = g(y_1, y_2, \dots, y_n)\) tal que la razón de verosimilitudes \(\frac{\mathcal{L}(x_1, x_2, \dots, x_n)}{\mathcal{L}(y_1, y_2, \dots, y_n)}\) no dependa de \(\theta\), entonces se dice que \(g(y_1, y_2, \dots, y_n)\) es un estadístico de mínima suficiencia de \(\theta\).

¿Para qué sirve que un estadístico sea mínimo suficiente?

Si se cuenta con el valor del estadístico suficiente \(T(x)\) es posible realizar el proceso conocido como aleatorización auxiliar para generar muestras de la variable aleatoria \(X\) sin la necesidad de conocer el parámetro \(\theta\) ya que la distribución condicional está totalmente determinada.
Cualquier estimador insesgado que sea función del estimador de mínima suficiencia es un estimador de mínima varianza (y, en principio, queremos siempre el estimador de mínima varianza de entre los estimadores disponibles).
Suelen usarse para construirse intervalos de confianza exactos para \(\theta\) si puede encontrarse la función de probabilidad del estadístico. Generalmente estos intervalos son los más estrechos para un coeficiente de confianza especificado.

Criterio de factorización: Sean \(X\) una variable aleatoria, \(\underline{X}_n = (x_1, x_2, \dots, x_n)\) una muestra aleatoria de la variable \(X\) y \(f(x|\theta)\) la función de densidad de \(X\) para la que \(\theta\), desconocido, pertenece al espacio paramétrico \(\Omega\). Un estadístico \(T(x_1, x_2, \dots, x_n)\) es un estadístico suficiente para \(\theta\) si, y solo si, la función de densidad conjunta de la muestra aleatoria, \(f_n(\underline{X}_n|\theta)\) se puede factorizar para todos los valores de \(\underline{X}_n \in \mathbb{R}^n\) y todos los valores de \(\theta \in \Omega\) como \(f_n(\underline{X}_n|\theta) = u(\underline{X}_n)v[T(\underline{X}_n),\theta]\).
Demostración: Para el caso discreto, sea \(A(t)\) el conjunto de todos los valores de \(\underline{X}_n\) para los que \(T(x) = t\), y supóngase que \(f_n(\underline{X}_n|\theta)\) se puede factorizar como se señala arriba, entonces sabemos que:

\[ \begin{aligned} P[X = x | T = t, \theta] &= \frac{P[X = x, T = t| \theta]}{P[T = t|\theta]}\\ &= \frac{P[T = t|X = x, \theta] P[X = x|\theta]}{P[T = t|\theta]}\\ &= \frac{P[X = x|\theta]}{P[T = t|\theta]}\\ &= \frac{f_n(\underline{X}_n|\theta)}{\sum_{y \in A(t)} f_n(y|\theta)}\\ &= \frac{f_n(\underline{X}_n|\theta)}{\sum_{y \in A(t)} f_n(y|\theta)}\\ &= \frac{u(\underline{X}_n)v[T(\underline{X}_n),\theta]}{\sum_{y \in A(t)} u(y)v[T(y),\theta]}\\ &= \frac{u(\underline{X}_n)v[t,\theta]}{\sum_{y \in A(t)} u(y)v[t,\theta]}\\ &= \frac{u(\underline{X}_n)}{\sum_{y \in A(t)} u(y)}. \end{aligned} \]

Como se puede ver, la distribución de \(X\) condicional en \(T\) y \(\theta\) no depende entonces de \(\theta\), por lo que podemos concluir que \(T\) es un estadístico suficiente.

PROBLEMAS DE INFERENCIA ESTADÍSTICA

ESTIMACIÓN PUNTUAL

ESTIMACIÓN POR INTERVALOS

PRUEBAS DE HIPÓTESIS

[¿Qué es una hipótesis?]

Para probar una hipótesis en estadística se hace referencia a la hipótesis nula y la hipótesis alterna. La hipótesis nula (representada como \(H_0\)) es una oración que captura una característica de la población de estudio que queremos probar (o rechazar).

\(H_0\): el monto total de seguros vendidos por vendedores a quienes se asignaron metas exigentes no es diferente al monto total de seguros vendidos por vendedores a quienes se asignaron metas poco exigentes.

La hipótesis alterna, en comparación, captura el complemento a la hipótesis nula. Se representa como \(H_1\).

\(H_1\): el monto total de seguros vendidos por vendedores a quienes se asignaron metas exigentes es diferente al monto total de seguros vendidos por vendedores a quienes se asignaron metas poco exigentes.

Sin embargo, en ocasiones es posible encontrar hipótesis alternas direccionales, esto es, hipótesis alternas que no plantean el complemento a toda la hipótesis nula sino solamente a parte de ella, lo que implica una relación de dirección en la oración de la hipótesis.

\(H_1\): el monto total de seguros vendidos por vendedores a quienes se asignaron metas exigentes es mayor que el monto total de seguros vendidos por vendedores a quienes se asignaron metas poco exigentes.

[Error tipo I y error tipo II]

Se dice que una prueba de hipótesis es potente en función de su capacidad para rechazar la hipótesis nula cuando esta es realmente falsa. Así, la potencia de una prueba de hipótesis se define como la probabilidad de que el procedimiento de prueba rechace la hipótesis nula (\(H_0\)). Entonces:

Definición: La potencia de una prueba con área de rechazo \(R\) está definida como:

\[ \beta(\theta) = P_\theta (X \in R) \]

y el tamaño de la prueba está definido como:

\[ \alpha = \sup\limits_{\theta \in \Theta_u} \beta(\theta). \]

Se dice que una prueba es de nivel \(\alpha\) si su tamaño es menor o igual a \(\alpha\).

Generalmente, las pruebas de hipótesis direccionales suelen ser más potentes que las no direccionales.

ESTADÍSTICA PARAMÉTRICA VS. ESTADÍSTICA NO-PARAMÉTRICA

ANEXO 1. CÁLCULO

INTEGRACIÓN POR PARTES

\[\int udv = uv - \int vdu\]

REFERENCIAS

DeGroot, Morris H. 1988. Probabilidad y Estadística. 2nd ed. Addison-Wesley Iberoamericana.

Devore, Jay L., Kenneth N. Berk, and Matthew A. Carlton. 2021. Modern Mathematical Statistics with Applications. Springer Texts in Statistics. Springer International Publishing AG.

Lehman, Ann, Norm O’Rourke, Larry Hatcher, and Edward J. Stepanski. 2005. JMP for Basic Univariate and Multivariate Statistics: A Step-by-Step Guide. SAS Institute Inc.

Mendenhall, William, and Terry Sincich. 1996. A Second Course in Statistics: Regression Analysis. 5th ed. Prentice Hall.

Wasserman, Larry. 2013. All of Statistics: A Concise Course in Statistical Inference. Springer Science & Business Media.

No voy a entrar en estos apuntes a la discusión sobre la diferencia entre dato-información-conocimiento-sabiduría. Asumiremos, para nuestros fines, que datos e información son términos relativamente intercambiables.↩︎

ESTADÍSTICA MATEMÁTICA

Apuntes de estudio

Enrique Cuervo Guzmán

2024-07-11