Práctica 10. Pruebas de Hipótesis

AE 27/05/2019

##Previo ## Cargando ambiente anterior

¡Recuerda poner el directorio!

setwd("~/Dropbox/FCPyS-2019-ii/ACuanti/Prácticas")

Vamos a trabajar con un ambiente. De la clase anterior que hicimos nuestra variable de región, hemos guardado un ambiente. Vamos a abrirlo con el comando “load”; además donde también tenemos las variables construidas en la base de LAPOP.

load("EnvironmentP6.RData")
## Registered S3 methods overwritten by 'ggplot2':
##   method         from 
##   [.quosures     rlang
##   c.quosures     rlang
##   print.quosures rlang

Hipótesis para una media

Univariado para hipótesis específica

t.test(mex2017$index_conf, mu=4)
## 
##  One Sample t-test
## 
## data:  mex2017$index_conf
## t = -11.32, df = 1562, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 4
## 95 percent confidence interval:
##  3.586551 3.708669
## sample estimates:
## mean of x 
##   3.64761
t.test(mex2017$index_conf, mu=4, alternative = "two.sided") #default y de dos colas
## 
##  One Sample t-test
## 
## data:  mex2017$index_conf
## t = -11.32, df = 1562, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 4
## 95 percent confidence interval:
##  3.586551 3.708669
## sample estimates:
## mean of x 
##   3.64761
t.test(mex2017$index_conf, mu=4, alternative = "less") # cola izquierda
## 
##  One Sample t-test
## 
## data:  mex2017$index_conf
## t = -11.32, df = 1562, p-value < 2.2e-16
## alternative hypothesis: true mean is less than 4
## 95 percent confidence interval:
##      -Inf 3.698843
## sample estimates:
## mean of x 
##   3.64761
t.test(mex2017$index_conf, mu=4, alternative = "greater") #cola derecha 
## 
##  One Sample t-test
## 
## data:  mex2017$index_conf
## t = -11.32, df = 1562, p-value = 1
## alternative hypothesis: true mean is greater than 4
## 95 percent confidence interval:
##  3.596377      Inf
## sample estimates:
## mean of x 
##   3.64761

Hipótesis para una proporción

Volvemos a cargar nuestro objeto de tabla

freq.sex<-table(mex2017$sex)
prop.table(freq.sex)
## 
##         1         2 
## 0.5041587 0.4958413
freq.sex
## 
##   1   2 
## 788 775
prop.test(freq.sex)
## 
##  1-sample proportions test with continuity correction
## 
## data:  freq.sex, null probability 0.5
## X-squared = 0.092131, df = 1, p-value = 0.7615
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
##  0.4790727 0.5292240
## sample estimates:
##         p 
## 0.5041587

Por default, toma los valores de la primera categoría, también podemos hacer la estimación con los datos del total de “éxitos” y el total de “intentos”. Calculemos para las mujeres

prop.test(788,(778+775))
## 
##  1-sample proportions test with continuity correction
## 
## data:  788 out of (778 + 775), null probability 0.5
## X-squared = 0.31165, df = 1, p-value = 0.5767
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
##  0.4822313 0.5325418
## sample estimates:
##        p 
## 0.507405

Para hacer la prueba con respecto a un nivel de proporción.

prop.test(freq.sex, p=0.5,alternative = "two.sided")
## 
##  1-sample proportions test with continuity correction
## 
## data:  freq.sex, null probability 0.5
## X-squared = 0.092131, df = 1, p-value = 0.7615
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
##  0.4790727 0.5292240
## sample estimates:
##         p 
## 0.5041587
prop.test(freq.sex, p=0.5, alternative = "greater")
## 
##  1-sample proportions test with continuity correction
## 
## data:  freq.sex, null probability 0.5
## X-squared = 0.092131, df = 1, p-value = 0.3807
## alternative hypothesis: true p is greater than 0.5
## 95 percent confidence interval:
##  0.4830481 1.0000000
## sample estimates:
##         p 
## 0.5041587
prop.test(freq.sex, p=0.5, alternative = "less")
## 
##  1-sample proportions test with continuity correction
## 
## data:  freq.sex, null probability 0.5
## X-squared = 0.092131, df = 1, p-value = 0.6193
## alternative hypothesis: true p is less than 0.5
## 95 percent confidence interval:
##  0.0000000 0.5252546
## sample estimates:
##         p 
## 0.5041587

La corrección ¿qué hace?

prop.test(49248,91541, alternative = "greater", p=0.5, correct = F)
## 
##  1-sample proportions test without continuity correction
## 
## data:  49248 out of 91541, null probability 0.5
## X-squared = 528.42, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is greater than 0.5
## 95 percent confidence interval:
##  0.535277 1.000000
## sample estimates:
##         p 
## 0.5379884

La función prop.test no realiza una prueba z, como casi todos los libros de estadística establece. ¡Hace una prueba de Chi cuadrado, basada en que hay una variable categórica con dos estados (éxito y fracaso)! Por ello vemos la línea que comienza con “X-cuadrado” La corrección de continuidad de Yates, que se ajusta a las diferencias que surgen al utilizar una aproximación normal a la distribución binomial, también se aplica automáticamente. Esto elimina 0.5 / n del límite inferior del intervalo de confianza y agrega 0.5 / n al límite superior. El intervalo de confianza dado por la prueba de propiedades no está la estimación de la muestra, p-hat. ¡Oh no! Pero, de nuevo, esto no es preocupante, ya que prop.test usa el intervalo de puntuación de Wilson para construir el intervalo de confianza. Esto da como resultado un intervalo de confianza asimétrico, pero presumiblemente más preciso (con respecto a la población real).

##Diferencias de medias por grupos ¿Podemos decir, con significancia estadística que los valores medios de una variable son diferentes entre los grupos?

tapply(mex2017$index_conf,mex2017$sex, mean, na.rm=T)
##        1        2 
## 3.656001 3.639078
t.test(mex2017$index_conf~mex2017$sex)
## 
##  Welch Two Sample t-test
## 
## data:  mex2017$index_conf by mex2017$sex
## t = 0.27164, df = 1557, p-value = 0.7859
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -0.1052719  0.1391167
## sample estimates:
## mean in group 1 mean in group 2 
##        3.656001        3.639078

No tan bonito, las proporciones para dos poblaciones

#Prueba de proporciones

table(mex2017$vic1ext)
## 
##    1    2 
##  498 1064
addmargins(table(mex2017[mex2017$sex==1,]$vic1ext))
## 
##   1   2 Sum 
## 264 523 787
addmargins(table(mex2017[mex2017$sex==2,]$vic1ext))
## 
##   1   2 Sum 
## 234 541 775
prop.test(c(264,234),c(787,775))
## 
##  2-sample test for equality of proportions with continuity
##  correction
## 
## data:  c(264, 234) out of c(787, 775)
## X-squared = 1.8683, df = 1, p-value = 0.1717
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.0139477  0.0809789
## sample estimates:
##    prop 1    prop 2 
## 0.3354511 0.3019355
prop.test(c(264,234),c(787,775), alternative= "two.sided")
## 
##  2-sample test for equality of proportions with continuity
##  correction
## 
## data:  c(264, 234) out of c(787, 775)
## X-squared = 1.8683, df = 1, p-value = 0.1717
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.0139477  0.0809789
## sample estimates:
##    prop 1    prop 2 
## 0.3354511 0.3019355
prop.test(c(264,234),c(787,775), alternative= "greater")
## 
##  2-sample test for equality of proportions with continuity
##  correction
## 
## data:  c(264, 234) out of c(787, 775)
## X-squared = 1.8683, df = 1, p-value = 0.08584
## alternative hypothesis: greater
## 95 percent confidence interval:
##  -0.006522729  1.000000000
## sample estimates:
##    prop 1    prop 2 
## 0.3354511 0.3019355
prop.test(c(264,234),c(787,775), alternative= "less")
## 
##  2-sample test for equality of proportions with continuity
##  correction
## 
## data:  c(264, 234) out of c(787, 775)
## X-squared = 1.8683, df = 1, p-value = 0.9142
## alternative hypothesis: less
## 95 percent confidence interval:
##  -1.00000000  0.07355392
## sample estimates:
##    prop 1    prop 2 
## 0.3354511 0.3019355

Nuevo

Intro intro intro a evaluación

La prueba t que vimos al inicio puede también servir para comparar una misma población en dos momentos diferentes.

Para eso importaremos una nueva base llamada paired, que contiene la serie de las tasa de homicidios por estado para 2015 y 2016

library(readxl)
paired <- read_excel("paired.xlsx")
#View(paired)

Hoy que ya la tenemos podemos volver a establecer una prueba de t de diferencias, pero hoy de diferencias de una población en dos momentos del tiempo, tenemos que activar el argumento “paired”, para decirle que lo que tenemos son muestras apareadas

t.test(paired$Homicidios_2016,paired$Homicidios_2015, paired = T)
## 
##  Paired t-test
## 
## data:  paired$Homicidios_2016 and paired$Homicidios_2015
## t = 2.5177, df = 31, p-value = 0.01719
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  0.7627398 7.2687956
## sample estimates:
## mean of the differences 
##                4.015768

Checa la diferencia de los grados de libertad, como se trata de una sola población y un parámetro, la media, tenemos 31

Las opciones para el nivel de confianza se mantienen.

#Hipótesis para correlaciones Una prueba de hipotésis

cor.test(mex2017$index_conf, mex2017$ed, use="pairwise.complete.obs")
## 
##  Pearson's product-moment correlation
## 
## data:  mex2017$index_conf and mex2017$ed
## t = -4.0435, df = 1551, p-value = 5.524e-05
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.15110957 -0.05266071
## sample estimates:
##        cor 
## -0.1021352