Primer avance del Proyecto

1. Conjunto de datos, tamaño de muestra y número de variables:

El conjunto de datos corresponde al análisis del índice de pobreza monetaria y extrema en Colombia. Tomamos la muestra con un intervalo de 5 años (2019- 2023) analizando las 13 principales ciudades del país y el total nacional:

  • Barranquilla A.M.

  • Bogotá

  • Bucaramanga A.M.

  • Cali A.M.

  • Cartagena

  • Cúcuta A.M.

  • Ibagué

  • Manizales A.M.

  • Medellín A.M.

  • Montería

  • Pasto

  • Pereira A.M.

  • Villavicencio

  • Nacional

El estudio contiene un total de 9 variables: 3 cualitativas y 6 cuantitativas.

Descripción de variables:

Variables Cualitativas:

Ciudad: Variable nominal que identifica cada una de las 13 ciudades principales

Región: Variable nominal que indica la región geográfica de Colombia a la que pertenece cada ciudad

Año: Variable ordinal que especifica el período temporal del registro

Variables Cuantitativas:

Incidencia en la pobreza monetaria: Variable de razón medida en porcentaje (%) que indica el nivel de pobreza monetaria

Coeficiente Gini: Variable de razón que mide la desigualdad en la distribución del ingreso (escala de 0 a 1)

Pobreza extrema: Variable de razón medida en porcentaje (%) que indica el nivel de pobreza extrema

Ingreso per cápita: Variable de razón medida en pesos colombianos (COP) que representa el ingreso promedio por persona

Ingreso per cápita Pobreza Monetaria: Variable de razón medida en pesos colombianos (COP) que representa el ingreso promedio por persona en situación de pobreza monetaria

Ingreso Per cápita Pobreza Extrema: Variable de razón medida en pesos colombianos (COP) que representa el ingreso promedio por persona en situación de pobreza extrema

Análisis de conjunto de datos

Al realizar la búsqueda de nuestros datos, descubrimos que la información se encontraba distribuida en diferentes archivos del DANE, clasificada por años. Por lo tanto, fue necesario descargar todos estos documentos y depurar las variables de interés. Posteriormente, revisamos la digitación de los datos y observamos que algunos valores tenían los decimales separados por coma, mientras que otros los utilizaban con punto. Como resultado, tuvimos que unificar el símbolo decimal en todos los casos. Aparte de esto, no encontramos ningún otro problema, ya que no había espacios en blanco ni errores adicionales.

Estadística descriptiva

Diagramas de caja para comparar los ingresos per cápita de las diferentes regiones

Datosnew = filter(BasedeDatos_TProbabilidad, Region %in% c("Caribe", "Pacifica", "Andina", "Orinoquia"))
ggplot(Datosnew, aes(y=Ingreso_per_capita, x=Region))+geom_boxplot(fill=c("#d8a3a3", "#cc6d6d", "#c03636", "#b40000"))+  labs(title = "Ingreso per Cápita por Regiones", x = "", y = "Ing.per.Cap (pesos colombianos)") + theme_minimal()

Datosnew = filter(BasedeDatos_TProbabilidad, Region %in% c("Caribe", "Pacifica", "Andina", "Orinoquia"))
ggplot(Datosnew, aes(y=Ingreso_per_capita_Pobreza_M, x=Region))+geom_boxplot(fill=c("#d8a3a3", "#cc6d6d", "#c03636", "#b40000"))+ labs(title = "Ingreso per Cápita por Regiones en Pobreza Monetaria", x = "", y = "Ing.per.Cap Pobreza M (pesos colombianos)") + coord_cartesian(ylim = c(300000, 600000)) +  theme_minimal()

Datosnew = filter(BasedeDatos_TProbabilidad, Region %in% c("Caribe", "Pacifica", "Andina", "Orinoquia"))
ggplot(Datosnew, aes(y=Ingreso_Per_capita_Pobreza_E, x=Region))+geom_boxplot(fill=c("#d8a3a3", "#cc6d6d", "#c03636", "#b40000"))+ labs(title = "Ingreso per Cápita por Regiones en Pobreza Extrema", x = "", y = "Ing.per.Cap Pobreza Extrema (pesos colombianos)") +  theme_minimal()

Diagramas de caja para comparar en la misma región los ingresos per cápita

library(dplyr)
library(ggplot2)
library(gridExtra)
## 
## Attaching package: 'gridExtra'
## The following object is masked from 'package:dplyr':
## 
##     combine
Datosnew = filter(BasedeDatos_TProbabilidad, Region %in% c("Caribe"))
t1 = ggplot(Datosnew, aes(x=Ingreso_per_capita, y=Region))+geom_boxplot(fill=c("#cc6d6d"))+ coord_cartesian(xlim = c(140000, 1200000))+  theme_minimal()+  labs(x = "", y = "Normal") 
t2 = ggplot(Datosnew, aes(x=Ingreso_per_capita_Pobreza_M, y=Region))+geom_boxplot(fill=c("#c03636"))+ coord_cartesian(xlim = c(140000, 1200000))+  theme_minimal()+   labs(x = "", y = "Pobreza M") 
t3 = ggplot(Datosnew, aes(x=Ingreso_Per_capita_Pobreza_E, y= Region))+geom_boxplot(fill=c("#b40000"))+ coord_cartesian(xlim = c(140000, 1200000))+  theme_minimal()+   labs(x = "Ingreso per Cápita en el Caribe (pesos colombianos)", y = "Pobreza E") 
grid.arrange(t1,t2,t3)

Datosnew = filter(BasedeDatos_TProbabilidad, Region %in% c("Andina"))
t1 = ggplot(Datosnew, aes(x=Ingreso_per_capita, y=Region))+geom_boxplot(fill=c("#cc6d6d"))+ coord_cartesian(xlim = c(140000, 1600000))+  theme_minimal()+   labs(x = "", y = "Normal") 
t2 = ggplot(Datosnew, aes(x=Ingreso_per_capita_Pobreza_M, y=Region))+geom_boxplot(fill=c("#c03636"))+ coord_cartesian(xlim = c(140000, 1600000))+  theme_minimal()+   labs(x = "", y = "obreza M") 
t3 = ggplot(Datosnew, aes(x=Ingreso_Per_capita_Pobreza_E, y= Region))+geom_boxplot(fill=c("#b40000"))+ coord_cartesian(xlim = c(140000, 1600000))+  theme_minimal()+  labs(x = "Ingreso per Cápita en la Andina (pesos colombianos)", y = "Pobreza E") 
grid.arrange(t1,t2,t3)

Datosnew = filter(BasedeDatos_TProbabilidad, Region %in% c("Pacifica"))
t1 = ggplot(Datosnew, aes(x=Ingreso_per_capita, y=Region))+geom_boxplot(fill=c("#cc6d6d"))+ coord_cartesian(xlim = c(140000, 1500000))+  theme_minimal()+  labs(x = "", y = "Normal") 
t2 = ggplot(Datosnew, aes(x=Ingreso_per_capita_Pobreza_M, y=Region))+geom_boxplot(fill=c("#c03636"))+ coord_cartesian(xlim = c(140000, 1500000))+  theme_minimal()+ labs(x = "", y = "Pobreza M") 
t3 = ggplot(Datosnew, aes(x=Ingreso_Per_capita_Pobreza_E, y= Region))+geom_boxplot(fill=c("#b40000"))+ coord_cartesian(xlim = c(140000, 1500000))+  theme_minimal()+  labs(x = "Ingreso per Cápita en el Pacífico (pesos colombianos)", y = "Pobreza E") 
grid.arrange(t1,t2,t3)

Datosnew = filter(BasedeDatos_TProbabilidad, Region %in% c("Orinoquia"))
t1 = ggplot(Datosnew, aes(x=Ingreso_per_capita, y=Region))+geom_boxplot(fill=c("#cc6d6d"))+ coord_cartesian(xlim = c(140000, 1200000))+  theme_minimal()+  labs(x = "", y = "Normal") 
t2 = ggplot(Datosnew, aes(x=Ingreso_per_capita_Pobreza_M, y=Region))+geom_boxplot(fill=c("#c03636"))+ coord_cartesian(xlim = c(140000, 1200000))+  theme_minimal()+  labs(x = "", y = "Pobreza M") 
t3 = ggplot(Datosnew, aes(x=Ingreso_Per_capita_Pobreza_E, y= Region))+geom_boxplot(fill=c("#b40000"))+ coord_cartesian(xlim = c(140000, 1200000))+  theme_minimal()+  labs(x = "Ingreso per Cápita en la Orinoquia (pesos colombianos)", y = "Pobreza E") 
grid.arrange(t1,t2,t3)

Datosnew2 = filter(BasedeDatos_TProbabilidad, Region %in% c("Caribe"))
nuevaVariable=c(Datosnew2$Ingreso_per_capita,Datosnew2$Ingreso_per_capita_Pobreza_M,Datosnew2$Ingreso_Per_capita_Pobreza_E)
grupos =c(rep("Ing.per.C",15),rep("Inge.per.C.PobrezaM",15),rep("Inge.per.C.PobrezaX",15))
Datos2 = data.frame(nuevaVariable,grupos)
ggplot(Datos2, aes(x=grupos, y=nuevaVariable))+geom_boxplot(fill=c("#d8a3a3", "#c65252", "#b40000")) #ESTE GRÁFICO NO VA EN EL TRABAJO

Linea de tiempo para mostar el avance de los ingresos per cápita

library(gridExtra)
Datosnewnacional = filter(BasedeDatos_TProbabilidad, Ciudades %in% c("Nacional"))
s1= ggplot(Datosnewnacional, aes(x=Ano, y=Ingreso_per_capita))+geom_line(color = "#d8a3a3") +
  geom_point(color = "red") + 
  labs(title = "Ingreso per Cápita por Año (Pesos Colombianos)", x = "", y = "Ingreso per Cápita Normal") +
  theme_minimal()+ coord_cartesian(ylim = c(140000, 1200000))
s2=  ggplot(Datosnewnacional, aes(x=Ano, y=Ingreso_per_capita_Pobreza_M))+geom_line(color = "#c65252") +
  geom_point(color = "red") + 
  labs(title= "", x = "", y = "Ingreso per Cápita Pobreza M") +
  theme_minimal()+ coord_cartesian(ylim = c(140000, 1200000))
s3=  ggplot(Datosnewnacional, aes(x=Ano, y=Ingreso_Per_capita_Pobreza_E))+geom_line(color = "#b40000") + geom_point(color = "red") + 
  labs(title = "", x = "", y = "Ingreso per Cápita Pobreza E") +
  theme_minimal()+ coord_cartesian(ylim = c(140000, 1200000))
grid.arrange(s1,s2,s3, ncol=3)

Conclusiones:

En el nivel normal de PIB per cápita, se observa un mayor rango en los datos, lo que refleja una alta variación en los ingresos entre las distintas ciudades. Esto sugiere una desigualdad significativa en la distribución de los ingresos a nivel urbano.

Tanto en la región Orinoquía como en la Caribe, todos los ingresos se sitúan en una escala más baja en comparación con otras regiones. Esto indica un nivel de pobreza más pronunciado, lo que evidencia las dificultades económicas que enfrentan estas zonas.

En la región Andina, se identifica que algunas familias del 25% con menor PIB per cápita reciben ingresos similares a aquellos en condición de pobreza monetaria. Esto sugiere que, a diferencia de otras regiones, las brechas económicas son menos pronunciadas, lo que podría indicar una mayor facilidad para superar la condición de pobreza en esta zona.

Segundo avance del Proyecto: Correlación entre las variables

1. Matriz de Correlación

En esta matriz, se presentan los índices de correlación entre las variables cuantitativas que hemos trabajado, con el fin de analizar si existe una posible conexión entre ellas que permita explicar de manera más clara el fenómeno de la pobreza en la ciudad de Cali.

library(readxl)
Datos_new2 <- read_excel("Datos_new2.xlsx")
library(dplyr)
datos_matriz <- Datos_new2 %>%
  select(
    I_PobrezaM=`Incidencia_en_la_pobreza_monetaria%`,
    Gini=Coeficiente_Gini,
    PobrezaE=`Pobreza_extrema_%`,
    IngresoPC=Ingreso_per_capita,
    Ingresopc_PM=Ingreso_per_capita_Pobreza_M,
    Ingresopc_PE=Ingreso_Per_capita_Pobreza_E
  )
  
matriz_cor <- cor(datos_matriz)

library(knitr)

kable(round(matriz_cor,2),
      aling='c',
      caption = "Matriz de correlación para la ciudad de Cali(2012-2023)",
      format = "html")
Matriz de correlación para la ciudad de Cali(2012-2023)
I_PobrezaM Gini PobrezaE IngresoPC Ingresopc_PM Ingresopc_PE
I_PobrezaM 1.00 0.86 0.88 -0.52 -0.26 -0.27
Gini 0.86 1.00 0.68 -0.26 -0.09 -0.04
PobrezaE 0.88 0.68 1.00 -0.20 0.11 0.06
IngresoPC -0.52 -0.26 -0.20 1.00 0.95 0.96
Ingresopc_PM -0.26 -0.09 0.11 0.95 1.00 0.99
Ingresopc_PE -0.27 -0.04 0.06 0.96 0.99 1.00

En los resultados obtenidos, podemos observar que existen ciertas variables que están estrechamente relacionadas entre sí. Este hallazgo sugiere la presencia de posibles patrones o conexiones que podrían ser fundamentales para comprender mejor el fenómeno que estamos analizando.Procederemos a elaborar gráficos de dispersión que nos permitirán visualizar de manera más clara cómo se interrelacionan y cómo influyen unas en otras.

Gráfico de disperion( I_PobrezaM vs Gini)

library(ggplot2)
Valor_Correlacion<-0.86 
ggplot(datos_matriz, aes(x = I_PobrezaM, y = Gini))+
   geom_point(color = "steelblue", size = 3)+
  geom_smooth(method = "lm", se = FALSE, color = "red", linetype = "dashed") +
  labs(
    title = "Relación entre Ingreso per cápita de pobreza Monetaria y Coeficiente 
    de Gini (Cali, 2012-2023)",
    x = "Ingreso per cápita P.M",
    y = "Coeficiente de Gini"
  ) +
   annotate("text",
           x = Inf, y = Inf,
           label = paste("Correlación =", Valor_Correlacion),
           hjust = 1.5, vjust = 1.5, # Ajusta para moverlo un poco adentro del gráfico
           size = 6, color = "black")+
  theme_minimal()
## `geom_smooth()` using formula = 'y ~ x'

En este gráfico representamos el índice de valoración entre el ingreso per cápita de la población pobre y el coeficiente de Gini. El coeficiente de Gini es una medida de la desigualdad en la distribución de los ingresos, por lo que resulta interesante analizar la relación que se establece entre ambos. Se observa que, a medida que aumenta el ingreso de las personas en situación de pobreza, la desigualdad en la distribución de los ingresos también tiende a incrementarse en una magnitud similar. Este patrón pone de manifiesto un problema en el sistema de distribución de la riqueza en la ciudad de Cali. En lugar de señalar que el problema radica en la falta de producción o en la ausencia de excedentes económicos, este análisis sugiere que el verdadero desafío radica en cómo se distribuye la riqueza entre la población.

Gráfico de disperion( Ingreso PC Pobreza E vs Ingreso PC Pobreza M)

Valor_Correlacion<-0.99 
ggplot(datos_matriz, aes(x = Ingresopc_PE, y = Ingresopc_PM))+
   geom_point(color = "steelblue", size = 3)+
  geom_smooth(method = "lm", se = FALSE, color = "red", linetype = "dashed") +
  labs(
    title = "Relación entre Ingreso per cápita de pobreza Extrema e Ingreso per 
    cápita de Pobreza Monetaria (Cali, 2012-2023)",
    x = "Ingreso per cápita P.E",
    y = "Ingreso per cápita P.M"
  ) +
   annotate("text",
           x = Inf, y = Inf,
           label = paste("Correlación =", Valor_Correlacion),
           hjust = 1.5, vjust = 1.5, # Ajusta para moverlo un poco adentro del gráfico
           size = 5, color = "black")+
  theme_minimal()
## `geom_smooth()` using formula = 'y ~ x'

En este gráfico se muestra la relación positiva entre el ingreso per cápita de la población en situación de pobreza monetaria y la población en pobreza extrema. Esta relación sugiere que, cuando se incrementa el bienestar económico en uno de estos grupos, el otro también experimenta mejoras. Este hallazgo implica que, mediante la implementación de políticas públicas que busquen elevar el nivel de ingresos de uno de los sectores, el otro también se verá beneficiado, lo que refleja una interdependencia en los niveles de pobreza que puede ser aprovechada para diseñar estrategias más efectivas.

Gráfico de disperion( Ingreso PC vs Ingreso PC Pobreza E)

Valor_Correlacion<-0.96 
ggplot(datos_matriz, aes(x = IngresoPC, y = Ingresopc_PE))+
   geom_point(color = "steelblue", size = 3)+
  geom_smooth(method = "lm", se = FALSE, color = "red", linetype = "dashed") +
  labs(
    title = "Relación entre Ingreso per cápita  e Ingreso per 
    cápita de Pobreza Extrema (Cali, 2012-2023)",
    x = "Ingreso per cápita ",
    y = "Ingreso per cápita P E"
  ) +
   annotate("text",
           x = Inf, y = Inf,
           label = paste("Correlación =", Valor_Correlacion),
           hjust = 1.3, vjust = 1.5, # Ajusta para moverlo un poco adentro del gráfico
           size = 6, color = "black")+
  theme_minimal()
## `geom_smooth()` using formula = 'y ~ x'

En este último gráfico, hemos intentado ilustrar la relación entre el ingreso per cápita normal y el ingreso per cápita de la población en pobreza extrema. La conclusión que se obtiene es similar a la del gráfico anterior, pero es importante destacar que el ingreso per cápita es una medida clave para evaluar el desarrollo económico de un país. A partir de este análisis, podemos concluir que, al mejorar el desarrollo económico y optimizar el uso de los factores productivos, el bienestar de las personas en situación de extrema pobreza podría mejorar significativamente. Este resultado subraya la relevancia de Impulsar el desarrollo industrial y económico como una estrategia esencial para combatir la pobreza en su forma más extrema

2. Diagrama de Caja para el coeficiente de gini por ciudades.

# Calcular el promedio del coeficiente de Gini por ciudad
datos_coloreados <- BasedeDatos_TProbabilidad %>%
  group_by(Ciudades) %>%
  summarise(Gini_promedio = mean(Coeficiente_Gini, na.rm = TRUE)) %>%
  # Normalizamos entre 0 y 1 para que la escala sea uniforme
  mutate(Gini_norm = (Gini_promedio - min(Gini_promedio)) / 
                     (max(Gini_promedio) - min(Gini_promedio))) %>%
  right_join(BasedeDatos_TProbabilidad, by = "Ciudades")

# Graficar usando la columna normalizada como base del color
ggplot(datos_coloreados, aes(y = Ciudades, x = Coeficiente_Gini, fill = Gini_norm)) +
  geom_boxplot() +
  scale_fill_gradient(low = "#00fbff", high = "#00307c", name = "Promedio Normalizado") +
  labs(
    title = "Coeficiente de Gini por Ciudades (2019 - 2023)",
    x = "Índice de Coeficiente de Gini",
  ) +
  theme_minimal()

La gráfica muestra la distribución del Coeficiente de Gini entre 2019 y 2023 en las principales ciudades de Colombia. El Coeficiente de Gini es un indicador que mide la desigualdad en la distribución de ingresos, donde valores más cercanos a 1 indican mayor desigualdad.

Se observa que ciudades como Bogotá, Nacional (promedio país) e Ibagué presentan los índices más altos (tonos azul oscuro), indicando mayor desigualdad. En contraste, Manizales, Pereira y Villavicencio muestran coeficientes más bajos (tonos turquesa claro), señalando una distribución de ingresos relativamente más equitativa.

Esta desigualdad se relaciona directamente con la pobreza monetaria en Colombia, pues las ciudades con mayor Coeficiente de Gini tienden a presentar bolsones de pobreza más pronunciados, a pesar de que algunas, como Bogotá, tengan mayor riqueza total. Las ciudades intermedias como Manizales y Pereira parecen lograr una distribución más equilibrada de los recursos, lo que podría traducirse en menores niveles de pobreza extrema, aunque el país en general (Nacional) mantiene un alto nivel de desigualdad que dificulta la reducción efectiva de la pobreza monetaria.