Hemos estado trabajando con estimaciones puntuales
¡Recuerda, poner el directorio!
setwd("/Users/anaescoto/Dropbox/DGAPA/EjercicioR")
install.packages("foreign", repos = "http://cran.us.r-project.org", dependencies = TRUE)
##
## The downloaded binary packages are in
## /var/folders/fr/mw1x21js54367mjdhqsjfwqm0000gn/T//RtmpU3kDOt/downloaded_packages
library(foreign)
## Warning: package 'foreign' was built under R version 3.3.2
La base que usamos es la modificada de la práctica anterior. Que se puede descargar de aquí
enigh_concentrado <- read.dbf("enigh_concentrado_mod.dbf")
Este comando nos sirve para calcular diferentes tipos de test, que tienen como base la distribución t
Univariado para estimación
t.test(enigh_concentrado$ing_cor)
##
## One Sample t-test
##
## data: enigh_concentrado$ing_cor
## t = 100.02, df = 19478, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
## 36532.62 37993.07
## sample estimates:
## mean of x
## 37262.84
Univariado para hipótesis específica
Supongamos que queremos saber si ingreso corriente per cápita es superior la canasta básica urbana trimestral (7766.2949)
#Cálculo ingresos percápita
enigh_concentrado$ing_pc<-enigh_concentrado$ing_cor/enigh_concentrado$tot_integ
t.test(enigh_concentrado$ing_pc, mu=7766.2949)
##
## One Sample t-test
##
## data: enigh_concentrado$ing_pc
## t = 32.585, df = 19478, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 7766.295
## 95 percent confidence interval:
## 12010.46 12553.73
## sample estimates:
## mean of x
## 12282.1
freq.sex<-table(enigh_concentrado$sexo_jefe)
prop.table(freq.sex)
##
## Hombre Mujer
## 0.7453155 0.2546845
freq.sex
##
## Hombre Mujer
## 14518 4961
prop.test(freq.sex)
##
## 1-sample proportions test with continuity correction
##
## data: freq.sex, null probability 0.5
## X-squared = 4688, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.7391233 0.7514105
## sample estimates:
## p
## 0.7453155
Por default, toma los valores de la primera categoría, también podemos hacer la estimación con los datos del total de “éxitos” y el total de “intentos”. Calculemos para las mujeres jefas
prop.test(4961,19479)
##
## 1-sample proportions test with continuity correction
##
## data: 4961 out of 19479, null probability 0.5
## X-squared = 4688, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.2485895 0.2608767
## sample estimates:
## p
## 0.2546845
Para hacer la prueba con respecto a un nivel de proporción.
prop.test(4961,19479, alternative = "greater", p=0.25)
##
## 1-sample proportions test with continuity correction
##
## data: 4961 out of 19479, null probability 0.25
## X-squared = 2.2549, df = 1, p-value = 0.0666
## alternative hypothesis: true p is greater than 0.25
## 95 percent confidence interval:
## 0.2495586 1.0000000
## sample estimates:
## p
## 0.2546845
tapply(enigh_concentrado$ing_pc,enigh_concentrado$sexo_jefe, mean)
## Hombre Mujer
## 12052.12 12955.11
t.test(enigh_concentrado$ing_pc~enigh_concentrado$sexo_jefe)
##
## Welch Two Sample t-test
##
## data: enigh_concentrado$ing_pc by enigh_concentrado$sexo_jefe
## t = -2.8408, df = 8593.9, p-value = 0.004511
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -1526.0858 -279.8874
## sample estimates:
## mean in group Hombre mean in group Mujer
## 12052.12 12955.11
Gráficamente lo podemos ver en un “boxplot”
install.packages("ggplot2", repos = "http://cran.us.r-project.org", dependencies = TRUE)
##
## The downloaded binary packages are in
## /var/folders/fr/mw1x21js54367mjdhqsjfwqm0000gn/T//RtmpU3kDOt/downloaded_packages
library(ggplot2)
## Warning: package 'ggplot2' was built under R version 3.3.2
qplot(sexo_jefe, ing_pc, data = enigh_concentrado, geom = "boxplot")
qplot(sexo_jefe, log(ing_pc), data = enigh_concentrado, geom = "boxplot")
## Warning: Removed 2 rows containing non-finite values (stat_boxplot).
Gráficando esos grupos
qplot(sexo_jefe, log(ing_pc), data = enigh_concentrado, geom = "boxplot") + facet_grid(. ~clase_hog)
## Warning: Removed 2 rows containing non-finite values (stat_boxplot).
table(enigh_concentrado$clase_hog, enigh_concentrado$sexo_jefe)
##
## Hombre Mujer
## Compuesto 87 42
## Corresidentes 50 27
## Extenso 2995 1697
## Nuclear 10318 2314
## Unipersonal 1068 881
chisq.test(enigh_concentrado$clase_hog, enigh_concentrado$sexo_jefe)
##
## Pearson's Chi-squared test
##
## data: enigh_concentrado$clase_hog and enigh_concentrado$sexo_jefe
## X-squared = 1030.2, df = 4, p-value < 2.2e-16
Mide la fuerza de la relación lineal ¡Ojo con lineal!
qplot(y=ing_pc, x=ocupados, data=enigh_concentrado)
cor(enigh_concentrado$ing_pc, enigh_concentrado$ocupados)
## [1] -0.06202266
qplot(y=ing_pc, x=edad_jefe, data=enigh_concentrado)
cor(enigh_concentrado$ing_pc, enigh_concentrado$edad_jefe)
## [1] 0.04345169
Regresión lineal simple
La regresión lineal nos ayuda a describir esta relación a través de una línea recta.
enigh_concentrado$log_ing_pc<-log(enigh_concentrado$ing_pc+1)
hist(enigh_concentrado$log_ing_pc)
Una vez transformada nuestra variable, corremos el modelo
modelo <-lm(log_ing_pc ~ ocupados, data=enigh_concentrado, na.action=na.fail)
summary(modelo) # show results
##
## Call:
## lm(formula = log_ing_pc ~ ocupados, data = enigh_concentrado,
## na.action = na.fail)
##
## Residuals:
## Min 1Q Median 3Q Max
## -9.0775 -0.5791 -0.0424 0.5295 5.0028
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 9.077533 0.011669 777.935 <2e-16 ***
## ocupados -0.056676 0.005897 -9.611 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.8789 on 19477 degrees of freedom
## Multiple R-squared: 0.00472, Adjusted R-squared: 0.004669
## F-statistic: 92.37 on 1 and 19477 DF, p-value: < 2.2e-16
plot(modelo)