Práctica 9. Introducción a la inferencia

AE
29/04/2019

Previo

Cargando ambiente anterior

¡Recuerda poner el directorio!

setwd("~/Dropbox/FCPyS-2019-ii/ACuanti/Prácticas")

Vamos a trabajar con un ambiente. De la clase anterior que hicimos nuestra variable de región, hemos guardado un ambiente. Vamos a abrirlo con el comando "load"; además donde también tenemos las variables construidas en la base de LAPOP.

load("EnvironmentP6.RData")

Algunos elementos teóricos

Recuerda que para esta sección de la clase, tendríamos que haber leído ya el capítulo 6 de Moore.

image Para el caso de la media image image image

A un 95% de confianza, tenemos

Estimación a "mano"

Para muestras grandes, "s" se aproxima a sigma y tenemos

image

Es decir que si tenemos información de la muestra podemos tener información de un intervalo donde estén los parámetros conocidos de mu y de p.

Ejemplo 1: Si sabemos que la media muestral (x-barra) es 50, la desviación estándar es 1.5 y la muestra de 120, y trabajamos con el margen de error(suponemos 0.05 de significancia)

50 + qnorm(0.025)*(1.5/sqrt(120))
## [1] 49.73162
50 + qnorm(0.975)*(1.5/sqrt(120))
## [1] 50.26838

Ejemplo 2: Si sabemos que la proporción muestral (p-gorro) es 20%, la muestra es de 120, y trabajamos con el margen de error(suponemos 0.05 de significancia)

0.2 + qnorm(0.025)*sqrt((0.2*0.8)/120)
## [1] 0.1284322
0.2 + qnorm(0.975)*sqrt((0.2*0.8)/120)
## [1] 0.2715678

Estimaciones bivariadas

Diferencia de medias

image image

Ejemplo:

image

Comparar los salarios promedio de los hombres y mujeres con un intervalo de confianza del 95%. Vamos a guardar un par de elementos en objeto para que sea más sencillo.

n1<-50
n2<-50
x1<-756
x2<-762
s1<-35
s2<-30
s2_1<-35*35
s2_2<-30*30

diff<-x1-x2
se<-sqrt((s2_1/n1) + (s2_2/n2))

Con ello ya podemos establecer nuestros límites

diff + qnorm(0.025)*se
## [1] -18.7774
diff + qnorm(0.975)*se
## [1] 6.777402

¿Qué podemos deducir de este intervalo? ¿Los salarios son iguales?

Diferencia de proporciones

image

image

Ejercicio image

Comparar la proporción de estudiantes universitarios de sexo masculino y femenino que dijeron que habían jugado en un equipo de fútbol durante su juventud utilizando un intervalo de confianza del 99%.

Intervalos de confianza con R

Con las bases de datos podemos usar funciones que nos ahorran mucho el trabajo. ##t-test Este comando nos sirve para calcular diferentes tipos de test, que tienen como base la distribución t

Univariado para estimación

t.test(mex2017$index_conf)
## 
##  One Sample t-test
## 
## data:  mex2017$index_conf
## t = 117.18, df = 1562, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
##  3.586551 3.708669
## sample estimates:
## mean of x 
##   3.64761

Podemos modificar el nivel de confianza

t.test(mex2017$index_conf, conf.level=0.99) 
## 
##  One Sample t-test
## 
## data:  mex2017$index_conf
## t = 117.18, df = 1562, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 99 percent confidence interval:
##  3.567328 3.727891
## sample estimates:
## mean of x 
##   3.64761

prop.test

Si recordamos un poco prácticas anteriores, podemos guardar en un objeto la tabla de frecuencias. Podemos también obtener la estimación puntual de nuestra estimación y también podemos obtener de ahí nuestra prueba que incluye la inferencia.

freq.sex<-table(mex2017$sex)
prop.table(freq.sex)
## 
##         1         2 
## 0.5041587 0.4958413
freq.sex
## 
##   1   2 
## 788 775
prop.test(freq.sex)
## 
##  1-sample proportions test with continuity correction
## 
## data:  freq.sex, null probability 0.5
## X-squared = 0.092131, df = 1, p-value = 0.7615
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
##  0.4790727 0.5292240
## sample estimates:
##         p 
## 0.5041587

Por default, toma los valores de la primera categoría, también podemos hacer la estimación con los datos del total de "éxitos" y el total de "intentos". Calculemos para las mujeres

prop.test(788,(775+788) )
## 
##  1-sample proportions test with continuity correction
## 
## data:  788 out of (775 + 788), null probability 0.5
## X-squared = 0.092131, df = 1, p-value = 0.7615
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
##  0.4790727 0.5292240
## sample estimates:
##         p 
## 0.5041587

También podemos modificar el nivel de confianza.

prop.test(788,(775+788), conf.level = 0.90)
## 
##  1-sample proportions test with continuity correction
## 
## data:  788 out of (775 + 788), null probability 0.5
## X-squared = 0.092131, df = 1, p-value = 0.7615
## alternative hypothesis: true p is not equal to 0.5
## 90 percent confidence interval:
##  0.4830481 0.5252546
## sample estimates:
##         p 
## 0.5041587

Diferencias de medias por grupos

¿Podemos decir, con significancia estadística que los valores medios de una variable son diferentes entre los grupos?

tapply(mex2017$index_conf,mex2017$sex, mean, na.rm=T)
##        1        2 
## 3.656001 3.639078
t.test(mex2017$index_conf~mex2017$sex)
## 
##  Welch Two Sample t-test
## 
## data:  mex2017$index_conf by mex2017$sex
## t = 0.27164, df = 1557, p-value = 0.7859
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -0.1052719  0.1391167
## sample estimates:
## mean in group 1 mean in group 2 
##        3.656001        3.639078

No tan bonito, las proporciones para dos poblaciones

#Prueba de proporciones
table(mex2017$vic1ext)
## 
##    1    2 
##  498 1064
addmargins(table(mex2017[mex2017$sex==1,]$vic1ext))
## 
##   1   2 Sum 
## 264 523 787
addmargins(table(mex2017[mex2017$sex==2,]$vic1ext))
## 
##   1   2 Sum 
## 234 541 775

Una vez tenemos estos datos, podemos hacer la prueba

prop.test(c(262,234),c(787,775))
## 
##  2-sample test for equality of proportions with continuity
##  correction
## 
## data:  c(262, 234) out of c(787, 775)
## X-squared = 1.5887, df = 1, p-value = 0.2075
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.01644444  0.07839304
## sample estimates:
##    prop 1    prop 2 
## 0.3329098 0.3019355

Pero... en realidad si codificamos como 0 y 1, podríamos utilizar el t-test para muestras grandes.

addmargins(table(mex2017[mex2017$sex==2,]$vic1ext))

mex2017$vic1ext_dummy<-mex2017$vic1ext
mex2017$vic1ext_dummy[mex2017$vic1ext==2]<-0

table(mex2017$vic1ext_dummy)
## 
##    0    1 
## 1064  498

Una vez que la tenemos como dummy, podemos utilizarla con el t.test, porque la muestra nos permite aproximar la binomial a la normal.

t.test(mex2017$vic1ext_dummy~mex2017$sex)
## 
##  Welch Two Sample t-test
## 
## data:  mex2017$vic1ext_dummy by mex2017$sex
## t = 1.4215, df = 1559.8, p-value = 0.1554
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -0.01273270  0.07976389
## sample estimates:
## mean in group 1 mean in group 2 
##       0.3354511       0.3019355

Recuerda: el promedio de una dummy es una proporción. El resultado es muy parecido.