Separar por rural y urbano y elegir solo Edo. de México.

Centro = read.csv("Centro.csv")
table(Centro$Estado) #Edo. México es el 15
## 
##   9  13  15  17  21  29 
## 431 356 588 410 363 384
EdoMexico = subset(Centro,Centro$Estado==15) #Elige solo los de Edo. de México.
EdomexUrbano=subset(EdoMexico,EdoMexico$localidad=="U")
EdomexRural=subset(EdoMexico,EdoMexico$localidad=="R")

Pregunta 1 - En este Estado: Edo. de México (15), ¿Se podría inferir que las medias poblacionales de ingresos corrientes trimestrales por familia en zonas rurales y urbanas son diferentes?

# Se realiza con ingresos corrientes y como las muestras son grandes 253 (R) y 335 (U) se utiliza Z por el TLC.

library("BSDA")
## Loading required package: lattice
## 
## Attaching package: 'BSDA'
## The following object is masked from 'package:datasets':
## 
##     Orange
z.test(EdomexUrbano$ing_cor, sigma.x=sd(EdomexUrbano$ing_cor))
## 
##  One-sample z-Test
## 
## data:  EdomexUrbano$ing_cor
## z = 23.352, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
##  54723.87 64751.48
## sample estimates:
## mean of x 
##  59737.67
z.test(EdomexRural$ing_cor,sigma.x=sd(EdomexRural$ing_cor)) #Como no se conoce la desviación estándar de la población usamos la de la muestra.
## 
##  One-sample z-Test
## 
## data:  EdomexRural$ing_cor
## z = 22.162, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
##  38519.60 45993.96
## sample estimates:
## mean of x 
##  42256.78

Tabla con límites del intervalo de confianza.

IC = tapply(EdoMexico$ing_cor,list(EdoMexico$localidad),function(x) z.test(x,sigma.x=sd(x))$conf.int) #Aquí se calcula el IC de ingresos con respecto a cada grupo de la localidad usando la función z.test.

IC_df = data.frame(inferior=sapply(IC, function(x) x[1]), superior=sapply(IC, function(x) x[2]),
names=c("R", "U")) #Con esta instrucción los valores de los límites de los intervalos se convierten en una tabla.

Gráfica de intervalos de confianza

options(scipen=999)
plot(NA, xlim = c(0, 100000), ylim=c(1,7), ylab ="Localidad", xlab = "Ingreso corriente", main="Ingreso Corriente en Zonas Rurales y Urbanas")
arrows(IC_df[1,1], 2, IC_df[1,2], 2, code = 3, angle=90, col = "magenta", lwd = 1, cex=0.7)
arrows(IC_df[2,1], 5, IC_df[2,2], 5, code = 3, angle=90, col = "blue", lwd = 1, cex=0.7)
text(1,2,"R",col="magenta", cex=0.7)
text(1,5,"U",col="blue",cex=0.7)

Pregunta 2 - En este estado de la república: Edo. de México (15) ¿Se puede inferir que la media poblacional de ingresos es (>,<, diferente) a un valor específico (61489.96). Realizar la prueba de hipótesis correspondiente.

## Cálculo de la media poblacional del ingreso corriente de todos los estados.

MEXICO = read.csv("ENIGH2022_todomexico (1).csv")

media = mean(MEXICO$ing_cor, na.rm = TRUE)
media
## [1] 61489.96
miu=61489.96 #Se calculó con mean del ingreso de todos los estados en el chunk de código anterior.
shapiro.test(EdomexUrbano$ing_cor)
## 
##  Shapiro-Wilk normality test
## 
## data:  EdomexUrbano$ing_cor
## W = 0.72524, p-value < 0.00000000000000022
shapiro.test(EdomexRural$ing_cor)
## 
##  Shapiro-Wilk normality test
## 
## data:  EdomexRural$ing_cor
## W = 0.7725, p-value < 0.00000000000000022
sEdomexingu=sd(EdomexUrbano$ing_cor) #Desviación de la muestra en urbano
sEdomexingr=sd(EdomexRural$ing_cor) #Desviación de la muestra en rural
qnorm(0.05)
## [1] -1.644854
z.test(EdomexUrbano$ing_cor, mu=miu, alternative = "less", sigma.x=sEdomexingu) #Sospecho en mi alternativa que la media de ingresos en el Edo. de México urbano es menor que la media nacional.
## 
##  One-sample z-Test
## 
## data:  EdomexUrbano$ing_cor
## z = -0.68499, p-value = 0.2467
## alternative hypothesis: true mean is less than 61489.96
## 95 percent confidence interval:
##        NA 63945.39
## sample estimates:
## mean of x 
##  59737.67
z.test(EdomexRural$ing_cor, mu=miu, alternative = "less", sigma.x=sEdomexingr) #Sospecho en mi alternativa que la media de ingresos en el Edo. de México rural es menor que la media nacional.
## 
##  One-sample z-Test
## 
## data:  EdomexRural$ing_cor
## z = -10.087, p-value < 0.00000000000000022
## alternative hypothesis: true mean is less than 61489.96
## 95 percent confidence interval:
##        NA 45393.12
## sample estimates:
## mean of x 
##  42256.78

Histogramas para ver distribución

options(scipen=999)

par(cex = 1) 

Centro = read.csv("Centro.csv")
table(Centro$Estado) #Edo. México es el 15
## 
##   9  13  15  17  21  29 
## 431 356 588 410 363 384
EdoMexico = subset(Centro,Centro$Estado==15) #Elige solo los de Edo. de México.

# Rural

Rural = subset(EdoMexico,EdoMexico$localidad=="R") 

hist(Rural$ing_cor, col="magenta", ylab="Frecuencia", xlab="Ingreso corriente", main="Zona Rural del Edo. de México", 50)

# Urbano

Urbano = subset(EdoMexico,EdoMexico$localidad=="U") 

hist(Urbano$ing_cor, col="blue", ylab="Frecuencia", xlab="Ingreso corriente", main="Zona Urbana del Edo. de México", 50)

Pregunta 2 - En esta ciudad: Toluca (15106), de este estado de la república: Edo. de México (15) ¿Se puede inferir que la media poblacional de ingresos es (>,<, diferente) a un valor específico (61489.96). Realizar la prueba de hipótesis correspondiente.

MEXICO = read.csv("ENIGH2022_todomexico (1).csv")

# Filtrar Toluca (clave 15106)

Toluca = subset(MEXICO, ubica_geo == 15106)

# Separar urbano y rural
TolucaUrbano = subset(Toluca, localidad == "U")
TolucaRural  = subset(Toluca, localidad == "R")

shapiro.test(TolucaUrbano$ing_cor)
## 
##  Shapiro-Wilk normality test
## 
## data:  TolucaUrbano$ing_cor
## W = 0.84414, p-value = 0.0000001372
shapiro.test(TolucaRural$ing_cor)
## 
##  Shapiro-Wilk normality test
## 
## data:  TolucaRural$ing_cor
## W = 0.90077, p-value = 0.000006057
miu = mean(MEXICO$ing_cor, na.rm = TRUE)  # Media nacional de ingreso

# Desviación estándar
sd_urb = sd(TolucaUrbano$ing_cor, na.rm = TRUE)
sd_rur = sd(TolucaRural$ing_cor, na.rm = TRUE)

# Z-test urbano
z.test(TolucaUrbano$ing_cor, mu = miu, alternative = "less", sigma.x = sd_urb)
## 
##  One-sample z-Test
## 
## data:  TolucaUrbano$ing_cor
## z = 0.97875, p-value = 0.8361
## alternative hypothesis: true mean is less than 61489.96
## 95 percent confidence interval:
##       NA 74403.3
## sample estimates:
## mean of x 
##  66307.37
# Z-test rural
z.test(TolucaRural$ing_cor, mu = miu, alternative = "less", sigma.x = sd_rur)
## 
##  One-sample z-Test
## 
## data:  TolucaRural$ing_cor
## z = -4.7669, p-value = 0.0000009356
## alternative hypothesis: true mean is less than 61489.96
## 95 percent confidence interval:
##        NA 52705.41
## sample estimates:
## mean of x 
##  48077.21