==========================================================================================================================================

Tamaulipas

==========================================================================================================================================

# Librerías necesarias
library(readxl)
library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
library(tseries)
## Registered S3 method overwritten by 'quantmod':
##   method            from
##   as.zoo.data.frame zoo
library(magrittr)
library(ggplot2)
database_norte <- read_excel("noreste.xlsx")
## New names:
## • `` -> `...1`

==========================================================================================================================================

1) ¿Es igual o diferente el ingreso corriente entre los diferentes estratos socioeconómicos en este Estado?

==========================================================================================================================================

# Filtrar solo Tamaulipas
Tamaulipas <- subset(database_norte, Estado == "Tamaulipas")
# Boxplot por estrato socioeconómico

boxplot(Tamaulipas$ing_cor ~ Tamaulipas$est_socio,
        col = "lightblue",
        main = "Ingreso corriente por estrato socioeconómico en Tamaulipas",
        xlab = "Estrato socioeconómico (1 = Bajo, 2 = Medio bajo, 3 = Medio alto, 4 = Alto)",
        ylab = "Ingreso corriente")

# Medidas descriptivas por estrato

minimo <- tapply(Tamaulipas$ing_cor, Tamaulipas$est_socio, min)
mediana <- tapply(Tamaulipas$ing_cor, Tamaulipas$est_socio, median)
media <- tapply(Tamaulipas$ing_cor, Tamaulipas$est_socio, mean)
maximo <- tapply(Tamaulipas$ing_cor, Tamaulipas$est_socio, max)
desv <- tapply(Tamaulipas$ing_cor, Tamaulipas$est_socio, sd)
rangoInt <- tapply(Tamaulipas$ing_cor, Tamaulipas$est_socio, IQR)

tabla <- data.frame(
  Estrato = c("1 = Bajo", "2 = Medio bajo", "3 = Medio alto", "4 = Alto"),
  Mínimo = minimo,
  Mediana = mediana,
  Media = media,
  Máximo = maximo,
  `Desviación estándar` = desv,
  `Rango intercuartílico` = rangoInt
)

tabla
##          Estrato   Mínimo  Mediana    Media   Máximo Desviación.estándar
## 1       1 = Bajo  5413.19 29128.48 38698.24 193967.2            33372.72
## 2 2 = Medio bajo  6652.16 48430.21 58021.04 233461.9            36269.53
## 3 3 = Medio alto 13368.88 58730.32 69870.16 309209.7            45127.33
## 4       4 = Alto 15456.52 73818.91 86960.52 217315.5            46527.20
##   Rango.intercuartílico
## 1              26858.61
## 2              38982.08
## 3              44019.47
## 4              73071.35
# ANOVA para ingreso corriente según estrato socioeconómico en Tamaulipas

modelo_anova <- aov(ing_cor ~ est_socio, data = Tamaulipas)
summary(modelo_anova)
##              Df    Sum Sq   Mean Sq F value   Pr(>F)    
## est_socio     1 9.268e+10 9.268e+10   62.47 1.37e-14 ***
## Residuals   579 8.590e+11 1.484e+09                     
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
# La prueba ANOVA arrojó un valor de p = 1.37e-14, extremadamente por debajo del umbral típico de significancia (p < 0.05). Esto nos permite rechazar la hipótesis nula y afirmar con evidencia estadística que SÍ existen diferencias reales y significativas entre los ingresos promedio de los distintos estratos.

# Insight: Conforme sube el nivel socioeconómico (de 1 = Bajo a 4 = Alto), el ingreso corriente promedio también aumenta. Sí hay una desigualdad marcada entre estratos en Tamaulipas, tanto en magnitud de ingresos como en su dispersión interna.

==========================================================================================================================================

2) ¿Es igual o diferente el ingreso corriente entre las zonas rurales y urbanas en Tamaulipas?

==========================================================================================================================================

# Boxplot comparando zonas
boxplot(ing_cor ~ localidad, data = Tamaulipas,
        col = c("palevioletred", "hotpink2"),
        main = "Ingreso corriente por zona (rural vs urbana) en Tamaulipas",
        xlab = "Localidad (R = Rural, U = Urbana)",
        ylab = "Ingreso corriente")

# Estadísticos descriptivos por zona

minimo <- tapply(Tamaulipas$ing_cor, Tamaulipas$localidad, min)
mediana <- tapply(Tamaulipas$ing_cor, Tamaulipas$localidad, median)
media <- tapply(Tamaulipas$ing_cor, Tamaulipas$localidad, mean)
maximo <- tapply(Tamaulipas$ing_cor, Tamaulipas$localidad, max)
desv <- tapply(Tamaulipas$ing_cor, Tamaulipas$localidad, sd)
rangoInt <- tapply(Tamaulipas$ing_cor, Tamaulipas$localidad, IQR)

tabla_ingreso_zona <- data.frame(
  Zona = c("Rural", "Urbana"),
  Mínimo = minimo,
  Mediana = mediana,
  Media = media,
  Máximo = maximo,
  `Desviación estándar` = desv,
  `Rango intercuartílico` = rangoInt
)

tabla_ingreso_zona
##     Zona  Mínimo  Mediana    Media   Máximo Desviación.estándar
## R  Rural 5413.19 32915.62 39414.18 156934.4            27089.33
## U Urbana 6652.16 54230.35 65112.47 309209.7            42129.02
##   Rango.intercuartílico
## R              26881.04
## U              45207.68
# Prueba t para comparar ingresos por zona en Tamaulipas
t.test(ing_cor ~ localidad, data = Tamaulipas)
## 
##  Welch Two Sample t-test
## 
## data:  ing_cor by localidad
## t = -8.4675, df = 374.19, p-value = 5.778e-16
## alternative hypothesis: true difference in means between group R and group U is not equal to 0
## 95 percent confidence interval:
##  -31665.95 -19730.65
## sample estimates:
## mean in group R mean in group U 
##        39414.18        65112.47
# p-value = 5.778e-16
# Muchísimo menor al umbral de significancia del 5% (0.05), por lo tanto, rechazamos la hipótesis nula de que las medias sean iguales.

# Intervalo de confianza del 95%: (-31,665.95, -19,730.65)
# Todo el intervalo está por debajo de cero, lo que indica que la media del ingreso rural es menor que la media del ingreso urbano.

==========================================================================================================================================

3) ¿Es igual o diferente el gasto monetario entre los diferentes estratos socioeconómicos en este Estado?

==========================================================================================================================================

# Boxplot para comparar gasto por estrato

boxplot(Tamaulipas$gasto_mon ~ Tamaulipas$est_socio,
        col = "cyan2",
        main = "Gasto monetario por estrato socioeconómico en Tamaulipas",
        xlab = "Estrato socioeconómico (1 = Bajo, 2 = Medio bajo, 3 = Medio alto, 4 = Alto)",
        ylab = "Gasto mensual (pesos)")

# Estadísticos descriptivos por estrato socioeconómico

minimo <- tapply(Tamaulipas$gasto_mon, Tamaulipas$est_socio, min)
mediana <- tapply(Tamaulipas$gasto_mon, Tamaulipas$est_socio, median)
media <- tapply(Tamaulipas$gasto_mon, Tamaulipas$est_socio, mean)
maximo <- tapply(Tamaulipas$gasto_mon, Tamaulipas$est_socio, max)
desv <- tapply(Tamaulipas$gasto_mon, Tamaulipas$est_socio, sd)
rangoInt <- tapply(Tamaulipas$gasto_mon, Tamaulipas$est_socio, IQR)

tabla_gasto <- data.frame(
  Estrato = c("1 = Bajo", "2 = Medio bajo", "3 = Medio alto", "4 = Alto"),
  Mínimo = minimo,
  Mediana = mediana,
  Media = media,
  Máximo = maximo,
  `Desviación estándar` = desv,
  `Rango intercuartílico` = rangoInt
)

tabla_gasto
##          Estrato  Mínimo  Mediana    Media   Máximo Desviación.estándar
## 1       1 = Bajo 1639.92 18162.60 23894.90 121215.2            19708.72
## 2 2 = Medio bajo  900.00 31485.90 36732.20 134069.3            23587.57
## 3 3 = Medio alto 3413.94 37764.20 41233.26 153195.0            25618.98
## 4       4 = Alto 7150.68 47822.02 59003.06 195435.7            39497.71
##   Rango.intercuartílico
## 1              17436.19
## 2              23801.01
## 3              27645.05
## 4              50447.83
# ANOVA para gasto monetario según estrato socioeconómico en Tamaulipas

modelo_anova_gasto <- aov(gasto_mon ~ est_socio, data = Tamaulipas)
summary(modelo_anova_gasto)
##              Df    Sum Sq   Mean Sq F value   Pr(>F)    
## est_socio     1 3.895e+10 3.895e+10   62.72 1.22e-14 ***
## Residuals   579 3.596e+11 6.210e+08                     
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
# p-value = 1.22e-14, que es muchísimo menor que 0.05.

# Rechazar H0 de que las medias de gasto son iguales entre los estratos.

# Existe una diferencia estadísticamente significativa en el gasto monetario entre los diferentes estratos socioeconómicos en Tamaulipas.

==========================================================================================================================================

4) ¿Es igual o diferente el gasto monetario entre las zonas rurales y urbanas en Tamaulipas?

==========================================================================================================================================

# Boxplot comparando gasto monetario por zona

boxplot(gasto_mon ~ localidad, data = Tamaulipas,
        col = c("orchid2", "mediumorchid3"),
        main = "Gasto monetario por zona (rural vs urbana) en Tamaulipas",
        xlab = "Localidad (R = Rural, U = Urbana)",
        ylab = "Gasto monetario")

# Estadísticos descriptivos por zona

minimo <- tapply(Tamaulipas$gasto_mon, Tamaulipas$localidad, min)
mediana <- tapply(Tamaulipas$gasto_mon, Tamaulipas$localidad, median)
media <- tapply(Tamaulipas$gasto_mon, Tamaulipas$localidad, mean)
maximo <- tapply(Tamaulipas$gasto_mon, Tamaulipas$localidad, max)
desv <- tapply(Tamaulipas$gasto_mon, Tamaulipas$localidad, sd)
rangoInt <- tapply(Tamaulipas$gasto_mon, Tamaulipas$localidad, IQR)

tabla_gasto_zona <- data.frame(
  Zona = c("Rural", "Urbana"),
  Mínimo = minimo,
  Mediana = mediana,
  Media = media,
  Máximo = maximo,
  `Desviación estándar` = desv,
  `Rango intercuartílico` = rangoInt
)

tabla_gasto_zona
##     Zona  Mínimo  Mediana    Media   Máximo Desviación.estándar
## R  Rural 1639.92 20501.13 25192.36 121215.2            19593.77
## U Urbana  900.00 33979.96 40562.08 195435.7            26989.25
##   Rango.intercuartílico
## R              17892.13
## U              27374.79
# Prueba t para comparar gasto monetario por zona en Tamaulipas
t.test(gasto_mon ~ localidad, data = Tamaulipas)
## 
##  Welch Two Sample t-test
## 
## data:  gasto_mon by localidad
## t = -7.3583, df = 327.47, p-value = 1.512e-12
## alternative hypothesis: true difference in means between group R and group U is not equal to 0
## 95 percent confidence interval:
##  -19478.80 -11260.65
## sample estimates:
## mean in group R mean in group U 
##        25192.36        40562.08
# p-value: < 1.512e-12
# Muchísimo menor al umbral de significancia del 5% (0.05), por lo tanto, rechazamos la hipótesis nula de que las medias sean iguales.

# Intervalo de confianza del 95%: (-19,478.80, -11,260.65)
# Todo el intervalo está por debajo de cero, lo que indica que la media del gasto monetario en zonas rurales es significativamente menor que en zonas urbanas.