Si tenemos dos poblaciones con el mismo μ y con σ similares
mu1= 35.5; sigma1= 4.5 # Parámetros de N1
mu2= mu1; sigma2= 6.5 # Parámetros de N2
Y sacáramos muestras al azar de esas poblaciones
n1= 100
ns1= 10000 # Simulando 10,000 muestras
mean1 <- numeric(ns1) # Vector de medias de cada muestra
sd1 <- numeric(ns1) # Vector para las de de c/muestra
#############################################################
n2= 100
ns2= 10000 # Simulando 10,000 muestras
mean2 <- numeric(ns2) # Vector de medias de cada muestra
sd2 <- numeric(ns2) # Vector para las de de c/muestra
ee2 <- numeric(ns2) # Vector para los errores típicos
### Simulando los muestreos aleatorios ############
for (i in 1:ns1) {
x1 <- rnorm(n=n1, mean=mu1, sd= sigma1) # muestra aleatoria de tamaño (n)
mean1[i] <- mean(x1)
sd1[i] <- sd(x1)
}
##################
set.seed(1436)
for (i in 1:ns2) {
x2 <- rnorm(n=n2, mean=mu2, sd= sigma2) # muestra aleatoria de tamaño (n)
mean2[i] <- mean(x2)
sd2[i] <- sd(x2)
ee2[i] <- sd(x2)/sqrt(n2)
}
Aquí solo vemos los primeros seis pares de muestras de las 10,000
## pair mean1 sd1 mean2 sd2 ee2 t
## 1 1 35.53004 3.784225 34.60201 7.922026 0.7922026 1.0570422
## 2 2 35.78290 3.996296 34.67414 6.820134 0.6820134 1.4026587
## 3 3 36.15837 4.093490 34.51735 6.137372 0.6137372 2.2244398
## 4 4 35.19114 4.302958 36.03346 6.911930 0.6911930 -1.0345560
## 5 5 35.92019 4.294622 36.80642 6.514663 0.6514663 -1.1357827
## 6 6 35.92649 4.523415 35.80170 6.723079 0.6723079 0.1539961
Vemos las 20,000 muestras (10mil de cada población, una en morado y otra en negro)
Vemos en e histograma de los 10,000 valores de t, que el 95% de todos los valores de t calculados (entre los límites de color verde), están entre:
quantile(a$t, prob=c(0.025, 0.975))
## 2.5% 97.5%
## -1.983803 1.935224
Estos son aproximádamente los límites de confianza que corresponden a la distribución teórica de t (en color rojo en el histograma)
qt(p=c(0.025, 0.975), df= (n1-1)+ (n2-1))
## [1] -1.972017 1.972017
La desv.estd de los promedios de las muestras (en este caso del grupo 2) es, aproximádamente el error estándar calculado a partir de una muestra aleatoria.
sd(a$mean2)
## [1] 0.6486907
mean(a$ee2) # error estándar (promedio de las 10,000)
## [1] 0.6490108
Si ahora comparamos dos muestras. Una una salida de la N1, y otra, salida de otra población (N3). En esta ocasión no sabemos si N3 tiene una media poblacional similar a la N1.
n1= 100
prom1 = 35.63
sd1 = 3.63
ee1 = 0.57
n3 = 80
prom3 = 36.9586659
sd3 = 4.5218467
ee3 = 0.5055578
##### t test
t <- (prom1- prom3 ) / sqrt( ((sd1^2)/n1 ) + ((sd3^2)/n3 ) )
t
## [1] -2.134812
Entonces vemos cuál es la probabilidad de que este valor de t haya salido de un par de muestras sacadas de una misma población.
Evidentemente, el valor de t= -2.135, en rojo, nos muestra que la probabilidad de que n3 salió de N1, es P<0.05