AE
29/04/2019
¡Recuerda poner el directorio!
setwd("~/Dropbox/FCPyS-2019-ii/ACuanti/Prácticas")Vamos a trabajar con un ambiente. De la clase anterior que hicimos nuestra variable de región, hemos guardado un ambiente. Vamos a abrirlo con el comando "load"; además donde también tenemos las variables construidas en la base de LAPOP.
load("EnvironmentP6.RData")Recuerda que para esta sección de la clase, tendríamos que haber leído ya el capítulo 6 de Moore.
Para el caso de la media
A un 95% de confianza, tenemos
Para muestras grandes, "s" se aproxima a sigma y tenemos
Es decir que si tenemos información de la muestra podemos tener información de un intervalo donde estén los parámetros conocidos de mu y de p.
Ejemplo 1: Si sabemos que la media muestral (x-barra) es 50, la desviación estándar es 1.5 y la muestra de 120, y trabajamos con el margen de error(suponemos 0.05 de significancia)
50 + qnorm(0.025)*(1.5/sqrt(120))## [1] 49.73162
50 + qnorm(0.975)*(1.5/sqrt(120))## [1] 50.26838
Ejemplo 2: Si sabemos que la proporción muestral (p-gorro) es 20%, la muestra es de 120, y trabajamos con el margen de error(suponemos 0.05 de significancia)
0.2 + qnorm(0.025)*sqrt((0.2*0.8)/120)## [1] 0.1284322
0.2 + qnorm(0.975)*sqrt((0.2*0.8)/120)## [1] 0.2715678
Ejemplo:
Comparar los salarios promedio de los hombres y mujeres con un intervalo de confianza del 95%. Vamos a guardar un par de elementos en objeto para que sea más sencillo.
n1<-50
n2<-50
x1<-756
x2<-762
s1<-35
s2<-30
s2_1<-35*35
s2_2<-30*30
diff<-x1-x2
se<-sqrt((s2_1/n1) + (s2_2/n2))Con ello ya podemos establecer nuestros límites
diff + qnorm(0.025)*se## [1] -18.7774
diff + qnorm(0.975)*se## [1] 6.777402
¿Qué podemos deducir de este intervalo? ¿Los salarios son iguales?
Ejercicio
Comparar la proporción de estudiantes universitarios de sexo masculino y femenino que dijeron que habían jugado en un equipo de fútbol durante su juventud utilizando un intervalo de confianza del 99%.
Con las bases de datos podemos usar funciones que nos ahorran mucho el trabajo. ##t-test Este comando nos sirve para calcular diferentes tipos de test, que tienen como base la distribución t
Univariado para estimación
t.test(mex2017$index_conf)##
## One Sample t-test
##
## data: mex2017$index_conf
## t = 117.18, df = 1562, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
## 3.586551 3.708669
## sample estimates:
## mean of x
## 3.64761
Podemos modificar el nivel de confianza
t.test(mex2017$index_conf, conf.level=0.99) ##
## One Sample t-test
##
## data: mex2017$index_conf
## t = 117.18, df = 1562, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 99 percent confidence interval:
## 3.567328 3.727891
## sample estimates:
## mean of x
## 3.64761
Si recordamos un poco prácticas anteriores, podemos guardar en un objeto la tabla de frecuencias. Podemos también obtener la estimación puntual de nuestra estimación y también podemos obtener de ahí nuestra prueba que incluye la inferencia.
freq.sex<-table(mex2017$sex)
prop.table(freq.sex)##
## 1 2
## 0.5041587 0.4958413
freq.sex##
## 1 2
## 788 775
prop.test(freq.sex)##
## 1-sample proportions test with continuity correction
##
## data: freq.sex, null probability 0.5
## X-squared = 0.092131, df = 1, p-value = 0.7615
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.4790727 0.5292240
## sample estimates:
## p
## 0.5041587
Por default, toma los valores de la primera categoría, también podemos hacer la estimación con los datos del total de "éxitos" y el total de "intentos". Calculemos para las mujeres
prop.test(788,(775+788) )##
## 1-sample proportions test with continuity correction
##
## data: 788 out of (775 + 788), null probability 0.5
## X-squared = 0.092131, df = 1, p-value = 0.7615
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.4790727 0.5292240
## sample estimates:
## p
## 0.5041587
También podemos modificar el nivel de confianza.
prop.test(788,(775+788), conf.level = 0.90)##
## 1-sample proportions test with continuity correction
##
## data: 788 out of (775 + 788), null probability 0.5
## X-squared = 0.092131, df = 1, p-value = 0.7615
## alternative hypothesis: true p is not equal to 0.5
## 90 percent confidence interval:
## 0.4830481 0.5252546
## sample estimates:
## p
## 0.5041587
¿Podemos decir, con significancia estadística que los valores medios de una variable son diferentes entre los grupos?
tapply(mex2017$index_conf,mex2017$sex, mean, na.rm=T)## 1 2
## 3.656001 3.639078
t.test(mex2017$index_conf~mex2017$sex)##
## Welch Two Sample t-test
##
## data: mex2017$index_conf by mex2017$sex
## t = 0.27164, df = 1557, p-value = 0.7859
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -0.1052719 0.1391167
## sample estimates:
## mean in group 1 mean in group 2
## 3.656001 3.639078
#Prueba de proporciones
table(mex2017$vic1ext)##
## 1 2
## 498 1064
addmargins(table(mex2017[mex2017$sex==1,]$vic1ext))##
## 1 2 Sum
## 264 523 787
addmargins(table(mex2017[mex2017$sex==2,]$vic1ext))##
## 1 2 Sum
## 234 541 775
Una vez tenemos estos datos, podemos hacer la prueba
prop.test(c(262,234),c(787,775))##
## 2-sample test for equality of proportions with continuity
## correction
##
## data: c(262, 234) out of c(787, 775)
## X-squared = 1.5887, df = 1, p-value = 0.2075
## alternative hypothesis: two.sided
## 95 percent confidence interval:
## -0.01644444 0.07839304
## sample estimates:
## prop 1 prop 2
## 0.3329098 0.3019355
Pero... en realidad si codificamos como 0 y 1, podríamos utilizar el t-test para muestras grandes.
addmargins(table(mex2017[mex2017$sex==2,]$vic1ext))
mex2017$vic1ext_dummy<-mex2017$vic1ext
mex2017$vic1ext_dummy[mex2017$vic1ext==2]<-0
table(mex2017$vic1ext_dummy)##
## 0 1
## 1064 498
Una vez que la tenemos como dummy, podemos utilizarla con el t.test, porque la muestra nos permite aproximar la binomial a la normal.
t.test(mex2017$vic1ext_dummy~mex2017$sex)##
## Welch Two Sample t-test
##
## data: mex2017$vic1ext_dummy by mex2017$sex
## t = 1.4215, df = 1559.8, p-value = 0.1554
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -0.01273270 0.07976389
## sample estimates:
## mean in group 1 mean in group 2
## 0.3354511 0.3019355
Recuerda: el promedio de una dummy es una proporción. El resultado es muy parecido.