Es muy importante entender los conceptos de poblacion y de la muestra, pues son parte fundamental de la inferencia estadistica.

  • La poblacion muestra la forma de las cosas con respecto a un evento aleatorio, dicho evento puede identificarce por una caracteristica medible \(X\), esta caracteristica puede ser representado por un modelo de probabilidad que recibe el nombre de distribucion de probabilidad poblacional.

  • La muestra es una coleccion de datos que se obtienen al repetir ensayos de un experimento para lograr obtener una evidencia representativa acerca del estado de la poblacion respecto a la caracteristica \(X\), si la manera de obtener la muestra es imparcial y tecnicamente buena, entonces la muestra puede brindar informacion util con respecto a la naturaleza de la poblacion y a partir de ello se podra inferir.

Las distintas distribuciones de probabilidad sirven para modelar la distribucion de una poblacion de interés. Es decir, de un evento aleatorio se podra modelar su distribucion de probabilidad para dicho evento respecto a una caracteristica.

El estudio de los conceptos de la muestras aleatorias y las distribuciones de muestreo dan inicio a la inferencia estadistica, pues definiran las formas de inferir y proporcionaran una medida de riesgo de estas inferencias.

MUESTRAS ALEATORIAS

La inferencia estadistica se formula con base a una muestra de la poblacion de interes, siendo la seleccion de esta la que defina si la inferencia sera fiable o no.

Una correcta seleccion de la muestra, ademas de proporcionar una inferencia fiable, permitirá tener una estimacion de error para los resultados que se obtengan.

Muestra aleatoria simple

Este metodo de muestreo sugiere que cada elemento de la poblacion tenga la misma probabilidad de ser parte de la muestra, sin ser afectado por los elementos ya incluidos en la muestra. Es decir, si se tiene una pobacion de tamaño \(N\) y los elementos de la muestra seran de tamaño \(n\), este proceso asegura que cada muestra de tamaño \(n\) tenga la misma probabilida de ser selecionada.

Los elementos de la poblacion de interes son usualmente intangibles, pero se asume que el muestreo se lleva a cabo con reemplazo.

Si las variables aleatoria tienen la misma funcion de probabilidad que la distribucion de la poblacion y su funcion conjunta de probabilidad es igual al producto de las probabilidades marginales, entonces las variables aleatorias forman un conjunto de \(n\) varriables independientes e identicamente distribuidad, es decir, constituyen una muestra aleatoria de la poblacion.

Muestra aleatoria con reemplazo

Se obtiene una muestra de la poblacion, al obtener un elemento que formara parte de la muestra se devuelve a la poblacion para seleccionar otra, asi hasta tener un número de elemetno para una tamaño \(n\) de muestra.

Los elementos poblacionares son tangibles y cada elemento de esta muestra es una variable aleatoria que tiene una distribucion de probabilidad es identica a la poblacional.

Las observaciones de la muestra constituyen un conjunto de variables aleatorias independientes e identicamente distribuidas, gracias al reemplazo de los elementos ninguna probabilidad de las observaciones se vera afectada.

Lo recomendable es no realizar este tipo de muestreo, pues se tiene la probabilidad que un mismo elemento sea elegido para la muestra dos veces. Si embargo para muestras grandes es permitido.

Muestra aleatoria sin reemplazo

Se obtiene una muestra de la poblacion, al tomar un elemento no se regresa a la poblacion y se escoge otra hasta tener una cantidad de elemento de tamaño \(n\).

Cada elemento de esta muestra es una variable aleatoria y sus distribuciones marginales son iguales a las poblacionales. Tambien, poseen la misma distribucion de probabilidad pero no son independientes.

Lo recomendable que usarlo para muestras relativamente pequeñas, asi se reduce la posibilidad que un elemento este elegido dos veces para ser parte de la muestra.

Sin embargo, conforme va creciendo el tamaño de la poblacion, es indiferente si el metodo de obtener la muestra es con reemplazo o sin reemplazo. Pues al hablar de inferencia aleatoria se supondrá la existencia de una muesra aleatoria simple.

La funcion conjunta de probabilidad de las variables aleatorias que conforman la muestra aleatoria, es la funcion de vesosimilitud de la munestra da por \[L(x;\theta)=\prod_{i=1}^{n}f(x_i;\theta)\] donde \(x_{i}\) son las variables de la muestra aleatoria y \(\theta\) es un parametro desconocido, lo que esta funcion de verosimilitud servira para estimar los parametros.

DISTRIBUCIONES DE MUESTREO DE ESTADISTICAS

Las variables de la muestra, usualmente se les denominan “estadisticas”, estas se emplean para hacer inferencias con respecto a la caracteristica de la poblacion, estas inferencias son llamados “parametros”.

Un estadistica es cualquier funcion de las variables aleatorias que se observaron en la muestra de manera que esta funcion no contiene cantidades desconocidas.

Un parametro es una caracterizacion numérica de la distribucion de la poablacion de manera que la describe, parcial o completamente, la funcion de densidad de probabilidad da la caracteristica de interes. El valor de un parametro es fijo, es decir, es constante.

Entonces, es mmuy importante definir bien la muestra aleatoria, pues es apartir de ella que se obtendran los parametros, con los cuales generaremos inferencias de las caracteristicas de la poblacion de interes.

LA DISTRIBUCION DE MUESTREO DE \(\bar{X}\) (Media Muestral)

Una de las estadisticas más importante es la media de un conjunto de variables aleatorias independientes e identicamente distribuidas. Es importante esta estadistica en problemas de toma de decisiones para medias poblacionales desconocidas. Comprobacion de hipotesis sobre la media poblacional desconocida, a partir de la media muestral.

Se desea \(\bar{X} \sim \mu\)

Sea \(X_n\) una muestras aleatoria que consiste de \(n\) variables aleatorias IID tales que \(E(X_i)=\mu\) y \(Var(X_i)=\sigma^2\) para toda \(i=1,2,...,n\), entonces la media muestral sera: \[\bar{X}=(X_1+X_2+...+X_n)/n\]

Su valor esperado y varianza de \(\bar{X}\) sera:\[E(\bar{X})=\sum_{n=1}^{n}(1/n)\mu=n(\mu/n)=\mu\] y \[Var(\bar{X})=\sum_{n=1}^{n}(1/n^2)\sigma^2=n(\sigma^2/n^2)=\sigma^2/n\]

Donde \(\mu\) y \(\sigma^2\) son media y varianza de la distribucion de la población. Esta regla se cumple para cualquer muestra aleatoria, con la condicion que la varianza tenga un valor finito. Por lo tanto, la desviacion estandar de la media muestral o error estandár de la muestra será: \[d.e.(\bar{X})=\sigma/\sqrt(n)\]

Es importante resaltar que, conforme el tamaño de la muestra crece el error estándar, y tambien la varianza, la variailida de la media muestral disminuye. En otras palabras, conforme el tamaño de la muestra aumenta, la media muestral sera mas precisa al estimar la media poblacional.

Distribucion normal de la muestra

Si se asume o se comprueba que la muestra aleatoria sigue una distribucion normal, con medias \(E(X_i)=\mu\) y varianzas \(Var(X_i)=\sigma^2\). Entonces la distribucon de la media muestral \(\bar{X}\) es normal con media \(\mu\) y varianza \(\sigma^2/n\).

Entonces para hallar cualquier probabilidad que la media poblacional tome ciertos valores, se usan los datos de la media y varianza poblacional para obtener los valores que corresponde para la media muestras, luego se estandarizan los valores a analziar con la siguietne formula:\[Z=(\bar{X}-\mu/\sigma)\] entonces con este dato estandarizado se hallan las probabilidades deseadas sobre los valores que pueda tomar la media poblacional.

Distribucion desconocida de la muestra

Si no se conoce la distribucion de la muestra, pero sus elementos son independientes e identicamente distribuidos, se asumira que esta tienda a un distribucion normal conforme \(n\) tienda al \(\infty\).

Esto se aplicara de forma segura para muestres de tamaño \(n>30\) Por lo tanto, la media muestral sera \(\bar{X}=\sum_{n=1}^{n}(X_n/n)\) y tiene una media \(\mu\) y varianza \(\sigma^2/n\). Para desarrolla las pruebas de hipotesis respecto a la muestra poblacion a partir de la media muestra, se debera estandarizar esta media muestras: \[Z=(\bar{X}-\mu)/(\sigma/\sqrt{n})\] esto se cumplira con almenos conocer su varianza o desviacion estándar.

LA DISTRIBUCION DE MUESTREO DE \(S^2\)

Esta estadistica es importante para formular inferencias a partir de la varianzas de la poblacion, que se asume que son iguales a las varianzas muestrales \(S^2\). Tambienm su entendimiento servirá para realizar pruebas de hipotesis, rexpecto a la varianza poblacional.

Con esto se busca \(S^2\sim\sigma^2\)

Se asumira que la distribucion de la muestra es normal, es necesario suponer que \(\mu\) es conocida y \(\sigma^2\) no. Por lo que la varianza de la muestra sera: \[S^2=\sum_{i=1}^{n}(X_i-\mu)^2/n\] donde \(X_i\) es parte de una muestra aleatoria de una distribucion normal con media poblacional y varianza poblacional desconocida.

Con el fin de determinar una distribucion de muestreo que permita hacer inferencias sobre la varianza poblacional con base a la varianza muestral, se enuncia que la distribucion de la variable aleatoria es de tipo chi-cuadrada con \(n\) grados de libertad, por lo que \((n)s^2/\sigma2\)

Ejemplo:

u <- 10
sd <- 0.1
n <- 25
#Hallar la prob. de que el valor de la varianza muestral sea mayor de 0.014 unidades cuadrada.
var.muestra <- 25*0.014 / 0.01
p <- 1 - pnorm(var.muestra, 10, 0.1)
p2 <- 1 - pnorm(35, 10, 0.1)
round(p2, digits = 2)
## [1] 0
round(p, digits = 3)
## [1] 0

Por otro lado, en la practica es raro que se conozca la media poblacional \(\mu\), pero si se puede conocer la media muestral, por lo que si la muestra sigue una distribucion normal la varianza muestral se define por: \[S^2=\sum_{i=1}^{n}(X_i-\bar{X})^2/(n-1)\] Tambien con esto se entiende que la distribucion de muestreo de \((n-1)S^2/\sigma^2\) es tambien una distribucion chi-cuadrada con \(n-1\) grados de libertad

Por lo tanto, su valor esperado y varianza de la varianza muestral sera \[E(S^2)=\sigma^2\] y \[Var(S^2)=2\sigma^4/(n-1)\]

LA DISTRIBUCION DE LA DIFERENCIA ENTRE DOS MEDIAS MUESTRALES \((\bar{X_a}-\bar{X_b})\)

En muchas oaciones surge la necesidad de comparar las medias de dos distribuciones distintas, sobre todo en las pruenas de hipotesis sobre dos medias muestrales. Surgen dos posibilidades:

  • Si se conoce la varianza muestral de ambas distribuciones y son iguales.

Se asume que se conocen las varianzas de la dos distribuciones y además son iguales \(Var(X)=Var(Y)\). DAdo que se puede obtener las medias muestrales, se va ha inferir a partir de estar sobre la disferencias de las medias poblacionales.

Si se conoce el valor de las varianzas poblacionales, se tendra: \[Z=\frac{\bar(X)-\bar(Y)- (\mu_x-\mu_y)}{\sigma\sqrt{\frac{1}{n_x}+\frac{1}{n_y}}}\] es decir la distribucion sigue una normal estándar \(N(0,1)\)

  • No se conoce la varianza muestral de ambas distribuciones.

Se asume que no se conocen las varianzas de la dos distribuciones y además son iguales \(Var(X)=Var(Y)\). DAdo que se puede obtener las medias muestrales, se va ha inferir a partir de estar sobre la disferencias de las medias poblacionales. Por lo que se tendra: \[T=\frac{\bar{X}-\bar{Y}-(\mu_x-\mu_y)}{S_p\sqrt{\frac{\sigma_x^2}{n_x}+\frac{\sigma_y^2}{n_y}}}\]

LA DISTRIBUCION \(F\)

A partir de la inferencia respecto a la varianza poblacional cuando seguia una distribución normal, se formulo que \((n-1)S^2/\sigma^2\), la cual tiene una distribucion chi-cuadrado con \((n-1)\) grados de libertad.

A continuación, se formulara la inferencia con respecto al avarianzas de dos distribucion normales independientes, teniendo como base las muestras aleatorias de cada una. Tambien se analizara la teoría de una distribucion \(F\).

Sea \(F\) una variable aleatoria que es función de \(X\) y \(Y\), de manera que:\[F=\frac{X/\nu_1}{Y/\nu_2}\] es decir, que la variable \(F\) es cociente de dos variable aleatoria chi-cuadrada con \(\nu_1\) y \(\nu_2\) grados de libertad.

Tiene un valor esperado \[E(F)=\nu_2/(\nu_2-2)\] para \(\nu_2>2\) y su varianza esta dada por \[Var(F)=\frac{\nu_2^2(2\nu_2+2\nu_1-4)}{\nu_1(\nu_2-2)^2(\nu_2-4)}\] para \(\nu_2>4\)

Si se asume se asume \(\sigma_x^2=\sigma_y^2\), la estadistica \(F\) sera \[F=\frac{S_x^2}{S_y^2}\]

Al hallar \(S_x^2\) y \(S_y^2\) a partir de las muestras aleatorias y se calcula el cociente, se puede concluir que la hipotesis de varianza iguales es falsa si el valor de este cociente es distinto de \(1\). En otras palabras si las dos varianzas poblacionales son iguales, el cociente resultara menor a \(1\)