Intervalos de confianza

Hemos estado trabajando con estimaciones puntuales

¡Recuerda, poner el directorio!

setwd("/Users/anaescoto/Dropbox/DGAPA/EjercicioR")
install.packages("foreign", repos = "http://cran.us.r-project.org", dependencies = TRUE)
## 
## The downloaded binary packages are in
##  /var/folders/fr/mw1x21js54367mjdhqsjfwqm0000gn/T//RtmpU3kDOt/downloaded_packages
library(foreign)
## Warning: package 'foreign' was built under R version 3.3.2

La base que usamos es la modificada de la práctica anterior. Que se puede descargar de aquí

enigh_concentrado <- read.dbf("enigh_concentrado_mod.dbf")

t-test

Este comando nos sirve para calcular diferentes tipos de test, que tienen como base la distribución t

Univariado para estimación

t.test(enigh_concentrado$ing_cor)
## 
##  One Sample t-test
## 
## data:  enigh_concentrado$ing_cor
## t = 100.02, df = 19478, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
##  36532.62 37993.07
## sample estimates:
## mean of x 
##  37262.84

Univariado para hipótesis específica

Supongamos que queremos saber si ingreso corriente per cápita es superior la canasta básica urbana trimestral (7766.2949)

#Cálculo ingresos percápita
enigh_concentrado$ing_pc<-enigh_concentrado$ing_cor/enigh_concentrado$tot_integ

t.test(enigh_concentrado$ing_pc, mu=7766.2949)
## 
##  One Sample t-test
## 
## data:  enigh_concentrado$ing_pc
## t = 32.585, df = 19478, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 7766.295
## 95 percent confidence interval:
##  12010.46 12553.73
## sample estimates:
## mean of x 
##   12282.1

prop.test

freq.sex<-table(enigh_concentrado$sexo_jefe)
prop.table(freq.sex)
## 
##    Hombre     Mujer 
## 0.7453155 0.2546845
freq.sex
## 
## Hombre  Mujer 
##  14518   4961
prop.test(freq.sex)
## 
##  1-sample proportions test with continuity correction
## 
## data:  freq.sex, null probability 0.5
## X-squared = 4688, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
##  0.7391233 0.7514105
## sample estimates:
##         p 
## 0.7453155

Por default, toma los valores de la primera categoría, también podemos hacer la estimación con los datos del total de “éxitos” y el total de “intentos”. Calculemos para las mujeres jefas

prop.test(4961,19479)
## 
##  1-sample proportions test with continuity correction
## 
## data:  4961 out of 19479, null probability 0.5
## X-squared = 4688, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
##  0.2485895 0.2608767
## sample estimates:
##         p 
## 0.2546845

Para hacer la prueba con respecto a un nivel de proporción.

prop.test(4961,19479, alternative = "greater", p=0.25)
## 
##  1-sample proportions test with continuity correction
## 
## data:  4961 out of 19479, null probability 0.25
## X-squared = 2.2549, df = 1, p-value = 0.0666
## alternative hypothesis: true p is greater than 0.25
## 95 percent confidence interval:
##  0.2495586 1.0000000
## sample estimates:
##         p 
## 0.2546845

Estimaciones bivariadas

Diferencias de medias por grupos

tapply(enigh_concentrado$ing_pc,enigh_concentrado$sexo_jefe, mean)
##   Hombre    Mujer 
## 12052.12 12955.11
t.test(enigh_concentrado$ing_pc~enigh_concentrado$sexo_jefe)
## 
##  Welch Two Sample t-test
## 
## data:  enigh_concentrado$ing_pc by enigh_concentrado$sexo_jefe
## t = -2.8408, df = 8593.9, p-value = 0.004511
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -1526.0858  -279.8874
## sample estimates:
## mean in group Hombre  mean in group Mujer 
##             12052.12             12955.11

Gráficamente lo podemos ver en un “boxplot”

install.packages("ggplot2", repos = "http://cran.us.r-project.org", dependencies = TRUE)
## 
## The downloaded binary packages are in
##  /var/folders/fr/mw1x21js54367mjdhqsjfwqm0000gn/T//RtmpU3kDOt/downloaded_packages
library(ggplot2)
## Warning: package 'ggplot2' was built under R version 3.3.2
qplot(sexo_jefe, ing_pc, data = enigh_concentrado, geom = "boxplot")

qplot(sexo_jefe, log(ing_pc), data = enigh_concentrado, geom = "boxplot")
## Warning: Removed 2 rows containing non-finite values (stat_boxplot).

Gráficando esos grupos

qplot(sexo_jefe, log(ing_pc), data = enigh_concentrado, geom = "boxplot") + facet_grid(. ~clase_hog)
## Warning: Removed 2 rows containing non-finite values (stat_boxplot).

Prueba chi-cuadradro chi-sq

table(enigh_concentrado$clase_hog, enigh_concentrado$sexo_jefe)
##                
##                 Hombre Mujer
##   Compuesto         87    42
##   Corresidentes     50    27
##   Extenso         2995  1697
##   Nuclear        10318  2314
##   Unipersonal     1068   881
chisq.test(enigh_concentrado$clase_hog, enigh_concentrado$sexo_jefe)
## 
##  Pearson's Chi-squared test
## 
## data:  enigh_concentrado$clase_hog and enigh_concentrado$sexo_jefe
## X-squared = 1030.2, df = 4, p-value < 2.2e-16

Correlación

Mide la fuerza de la relación lineal ¡Ojo con lineal!

qplot(y=ing_pc, x=ocupados, data=enigh_concentrado)

cor(enigh_concentrado$ing_pc, enigh_concentrado$ocupados)
## [1] -0.06202266
qplot(y=ing_pc, x=edad_jefe, data=enigh_concentrado)

cor(enigh_concentrado$ing_pc, enigh_concentrado$edad_jefe)
## [1] 0.04345169

Regresión lineal

Regresión lineal simple

La regresión lineal nos ayuda a describir esta relación a través de una línea recta.

enigh_concentrado$log_ing_pc<-log(enigh_concentrado$ing_pc+1)
hist(enigh_concentrado$log_ing_pc)

Una vez transformada nuestra variable, corremos el modelo

modelo <-lm(log_ing_pc ~  ocupados, data=enigh_concentrado, na.action=na.fail)
summary(modelo) # show results
## 
## Call:
## lm(formula = log_ing_pc ~ ocupados, data = enigh_concentrado, 
##     na.action = na.fail)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -9.0775 -0.5791 -0.0424  0.5295  5.0028 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  9.077533   0.011669 777.935   <2e-16 ***
## ocupados    -0.056676   0.005897  -9.611   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.8789 on 19477 degrees of freedom
## Multiple R-squared:  0.00472,    Adjusted R-squared:  0.004669 
## F-statistic: 92.37 on 1 and 19477 DF,  p-value: < 2.2e-16
plot(modelo)