==========================================================================================================================================
Tamaulipas
==========================================================================================================================================
# Librerías necesarias
library(readxl)
library(dplyr)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
library(tseries)
## Registered S3 method overwritten by 'quantmod':
## method from
## as.zoo.data.frame zoo
library(magrittr)
library(ggplot2)
database_norte <- read_excel("noreste.xlsx")
## New names:
## • `` -> `...1`
==========================================================================================================================================
1) ¿Es igual o diferente el ingreso corriente entre los diferentes
estratos socioeconómicos en este Estado?
==========================================================================================================================================
# Filtrar solo Tamaulipas
Tamaulipas <- subset(database_norte, Estado == "Tamaulipas")
# Boxplot por estrato socioeconómico
boxplot(Tamaulipas$ing_cor ~ Tamaulipas$est_socio,
col = "lightblue",
main = "Ingreso corriente por estrato socioeconómico en Tamaulipas",
xlab = "Estrato socioeconómico (1 = Bajo, 2 = Medio bajo, 3 = Medio alto, 4 = Alto)",
ylab = "Ingreso corriente")

# Medidas descriptivas por estrato
minimo <- tapply(Tamaulipas$ing_cor, Tamaulipas$est_socio, min)
mediana <- tapply(Tamaulipas$ing_cor, Tamaulipas$est_socio, median)
media <- tapply(Tamaulipas$ing_cor, Tamaulipas$est_socio, mean)
maximo <- tapply(Tamaulipas$ing_cor, Tamaulipas$est_socio, max)
desv <- tapply(Tamaulipas$ing_cor, Tamaulipas$est_socio, sd)
rangoInt <- tapply(Tamaulipas$ing_cor, Tamaulipas$est_socio, IQR)
tabla <- data.frame(
Estrato = c("1 = Bajo", "2 = Medio bajo", "3 = Medio alto", "4 = Alto"),
Mínimo = minimo,
Mediana = mediana,
Media = media,
Máximo = maximo,
`Desviación estándar` = desv,
`Rango intercuartílico` = rangoInt
)
tabla
## Estrato Mínimo Mediana Media Máximo Desviación.estándar
## 1 1 = Bajo 5413.19 29128.48 38698.24 193967.2 33372.72
## 2 2 = Medio bajo 6652.16 48430.21 58021.04 233461.9 36269.53
## 3 3 = Medio alto 13368.88 58730.32 69870.16 309209.7 45127.33
## 4 4 = Alto 15456.52 73818.91 86960.52 217315.5 46527.20
## Rango.intercuartílico
## 1 26858.61
## 2 38982.08
## 3 44019.47
## 4 73071.35
# ANOVA para ingreso corriente según estrato socioeconómico en Tamaulipas
modelo_anova <- aov(ing_cor ~ est_socio, data = Tamaulipas)
summary(modelo_anova)
## Df Sum Sq Mean Sq F value Pr(>F)
## est_socio 1 9.268e+10 9.268e+10 62.47 1.37e-14 ***
## Residuals 579 8.590e+11 1.484e+09
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
# La prueba ANOVA arrojó un valor de p = 1.37e-14, extremadamente por debajo del umbral típico de significancia (p < 0.05). Esto nos permite rechazar la hipótesis nula y afirmar con evidencia estadística que SÍ existen diferencias reales y significativas entre los ingresos promedio de los distintos estratos.
# Insight: Conforme sube el nivel socioeconómico (de 1 = Bajo a 4 = Alto), el ingreso corriente promedio también aumenta. Sí hay una desigualdad marcada entre estratos en Tamaulipas, tanto en magnitud de ingresos como en su dispersión interna.
==========================================================================================================================================
2) ¿Es igual o diferente el ingreso corriente entre las zonas
rurales y urbanas en Tamaulipas?
==========================================================================================================================================
# Boxplot comparando zonas
boxplot(ing_cor ~ localidad, data = Tamaulipas,
col = c("palevioletred", "hotpink2"),
main = "Ingreso corriente por zona (rural vs urbana) en Tamaulipas",
xlab = "Localidad (R = Rural, U = Urbana)",
ylab = "Ingreso corriente")

# Estadísticos descriptivos por zona
minimo <- tapply(Tamaulipas$ing_cor, Tamaulipas$localidad, min)
mediana <- tapply(Tamaulipas$ing_cor, Tamaulipas$localidad, median)
media <- tapply(Tamaulipas$ing_cor, Tamaulipas$localidad, mean)
maximo <- tapply(Tamaulipas$ing_cor, Tamaulipas$localidad, max)
desv <- tapply(Tamaulipas$ing_cor, Tamaulipas$localidad, sd)
rangoInt <- tapply(Tamaulipas$ing_cor, Tamaulipas$localidad, IQR)
tabla_ingreso_zona <- data.frame(
Zona = c("Rural", "Urbana"),
Mínimo = minimo,
Mediana = mediana,
Media = media,
Máximo = maximo,
`Desviación estándar` = desv,
`Rango intercuartílico` = rangoInt
)
tabla_ingreso_zona
## Zona Mínimo Mediana Media Máximo Desviación.estándar
## R Rural 5413.19 32915.62 39414.18 156934.4 27089.33
## U Urbana 6652.16 54230.35 65112.47 309209.7 42129.02
## Rango.intercuartílico
## R 26881.04
## U 45207.68
# Prueba t para comparar ingresos por zona en Tamaulipas
t.test(ing_cor ~ localidad, data = Tamaulipas)
##
## Welch Two Sample t-test
##
## data: ing_cor by localidad
## t = -8.4675, df = 374.19, p-value = 5.778e-16
## alternative hypothesis: true difference in means between group R and group U is not equal to 0
## 95 percent confidence interval:
## -31665.95 -19730.65
## sample estimates:
## mean in group R mean in group U
## 39414.18 65112.47
# p-value = 5.778e-16
# Muchísimo menor al umbral de significancia del 5% (0.05), por lo tanto, rechazamos la hipótesis nula de que las medias sean iguales.
# Intervalo de confianza del 95%: (-31,665.95, -19,730.65)
# Todo el intervalo está por debajo de cero, lo que indica que la media del ingreso rural es menor que la media del ingreso urbano.
==========================================================================================================================================
3) ¿Es igual o diferente el gasto monetario entre los diferentes
estratos socioeconómicos en este Estado?
==========================================================================================================================================
# Boxplot para comparar gasto por estrato
boxplot(Tamaulipas$gasto_mon ~ Tamaulipas$est_socio,
col = "cyan2",
main = "Gasto monetario por estrato socioeconómico en Tamaulipas",
xlab = "Estrato socioeconómico (1 = Bajo, 2 = Medio bajo, 3 = Medio alto, 4 = Alto)",
ylab = "Gasto mensual (pesos)")

# Estadísticos descriptivos por estrato socioeconómico
minimo <- tapply(Tamaulipas$gasto_mon, Tamaulipas$est_socio, min)
mediana <- tapply(Tamaulipas$gasto_mon, Tamaulipas$est_socio, median)
media <- tapply(Tamaulipas$gasto_mon, Tamaulipas$est_socio, mean)
maximo <- tapply(Tamaulipas$gasto_mon, Tamaulipas$est_socio, max)
desv <- tapply(Tamaulipas$gasto_mon, Tamaulipas$est_socio, sd)
rangoInt <- tapply(Tamaulipas$gasto_mon, Tamaulipas$est_socio, IQR)
tabla_gasto <- data.frame(
Estrato = c("1 = Bajo", "2 = Medio bajo", "3 = Medio alto", "4 = Alto"),
Mínimo = minimo,
Mediana = mediana,
Media = media,
Máximo = maximo,
`Desviación estándar` = desv,
`Rango intercuartílico` = rangoInt
)
tabla_gasto
## Estrato Mínimo Mediana Media Máximo Desviación.estándar
## 1 1 = Bajo 1639.92 18162.60 23894.90 121215.2 19708.72
## 2 2 = Medio bajo 900.00 31485.90 36732.20 134069.3 23587.57
## 3 3 = Medio alto 3413.94 37764.20 41233.26 153195.0 25618.98
## 4 4 = Alto 7150.68 47822.02 59003.06 195435.7 39497.71
## Rango.intercuartílico
## 1 17436.19
## 2 23801.01
## 3 27645.05
## 4 50447.83
# ANOVA para gasto monetario según estrato socioeconómico en Tamaulipas
modelo_anova_gasto <- aov(gasto_mon ~ est_socio, data = Tamaulipas)
summary(modelo_anova_gasto)
## Df Sum Sq Mean Sq F value Pr(>F)
## est_socio 1 3.895e+10 3.895e+10 62.72 1.22e-14 ***
## Residuals 579 3.596e+11 6.210e+08
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
# p-value = 1.22e-14, que es muchísimo menor que 0.05.
# Rechazar H0 de que las medias de gasto son iguales entre los estratos.
# Existe una diferencia estadísticamente significativa en el gasto monetario entre los diferentes estratos socioeconómicos en Tamaulipas.
==========================================================================================================================================
4) ¿Es igual o diferente el gasto monetario entre las zonas rurales
y urbanas en Tamaulipas?
==========================================================================================================================================
# Boxplot comparando gasto monetario por zona
boxplot(gasto_mon ~ localidad, data = Tamaulipas,
col = c("orchid2", "mediumorchid3"),
main = "Gasto monetario por zona (rural vs urbana) en Tamaulipas",
xlab = "Localidad (R = Rural, U = Urbana)",
ylab = "Gasto monetario")

# Estadísticos descriptivos por zona
minimo <- tapply(Tamaulipas$gasto_mon, Tamaulipas$localidad, min)
mediana <- tapply(Tamaulipas$gasto_mon, Tamaulipas$localidad, median)
media <- tapply(Tamaulipas$gasto_mon, Tamaulipas$localidad, mean)
maximo <- tapply(Tamaulipas$gasto_mon, Tamaulipas$localidad, max)
desv <- tapply(Tamaulipas$gasto_mon, Tamaulipas$localidad, sd)
rangoInt <- tapply(Tamaulipas$gasto_mon, Tamaulipas$localidad, IQR)
tabla_gasto_zona <- data.frame(
Zona = c("Rural", "Urbana"),
Mínimo = minimo,
Mediana = mediana,
Media = media,
Máximo = maximo,
`Desviación estándar` = desv,
`Rango intercuartílico` = rangoInt
)
tabla_gasto_zona
## Zona Mínimo Mediana Media Máximo Desviación.estándar
## R Rural 1639.92 20501.13 25192.36 121215.2 19593.77
## U Urbana 900.00 33979.96 40562.08 195435.7 26989.25
## Rango.intercuartílico
## R 17892.13
## U 27374.79
# Prueba t para comparar gasto monetario por zona en Tamaulipas
t.test(gasto_mon ~ localidad, data = Tamaulipas)
##
## Welch Two Sample t-test
##
## data: gasto_mon by localidad
## t = -7.3583, df = 327.47, p-value = 1.512e-12
## alternative hypothesis: true difference in means between group R and group U is not equal to 0
## 95 percent confidence interval:
## -19478.80 -11260.65
## sample estimates:
## mean in group R mean in group U
## 25192.36 40562.08
# p-value: < 1.512e-12
# Muchísimo menor al umbral de significancia del 5% (0.05), por lo tanto, rechazamos la hipótesis nula de que las medias sean iguales.
# Intervalo de confianza del 95%: (-19,478.80, -11,260.65)
# Todo el intervalo está por debajo de cero, lo que indica que la media del gasto monetario en zonas rurales es significativamente menor que en zonas urbanas.