Exploración en el tipo de financiamiento de casos COVID-19

Introducción

Con motivo de la presentación del trabajo para la materia Ciencias de Datos I del posgrado “Big Data e Inteligencia Territorial” se realizó un relevo de tipo exploratorio sobre el tipo de financiamiento que tuvieron los casos de COVID-19 según cada provincia de la República Argentina. En un primer momento se despliega el script utilizado funciones como library, fread, select, group_by, summarise, etc.. En una segundo momento se realiza un gráfico de columnas donde el eje X son las provincias, el eje Y el número de contagios y en su interior se discrimina según financiamiento público o privado. Por último se realiza una observación sobre los datos generados

Objetivo general:

Conocer el tipo de financiamiento que tuvieron los casos de COVID-19 según cada provincia de la República Argentina entre los años 2020 y 2021

Objetivos específicos:

  1. Descargar la base de datos “base covid”, identificar las columnas que forman parte del tipo de financiamiento y limpiar la base

  2. Generar un gráfico de barra aplicando las funciones enseñadas, tunearla con “theme” y generar una observación

Desarrollo:

Carga de librerías y descarga de la base

library(data.table)
library(tidyverse)


base_covid <-  fread("C:/Users/User/Desktop/Big data e inteligencia territorial/Módulos/Módulo II. Ciencias de Datos 1/base_covid_muestra.txt")

Creación del objeto

# Creación del objeto de estudio

pyp  <- base_covid%>%                                      #pyp= privados y públicos
  select(carga_provincia_nombre, origen_financiamiento)

Limpieza

pyp <- pyp%>% 
  group_by(carga_provincia_nombre, origen_financiamiento) %>% 
  summarise(cantidad=n())

# Cambiar nombres

pyp <-  pyp %>% 
  rename(provincia=carga_provincia_nombre,
         financiamiento=origen_financiamiento)

Creación del gráfico, chapa y pintura

ggplot(data=pyp,                                       #GRÁFICO
       aes(x=provincia,
           y=cantidad,
           fill=financiamiento))+
  geom_col(colour="black",
           alpha=1,
           aes(x=reorder(provincia, cantidad), y=cantidad))+
  scale_y_continuous(breaks = seq(0, 50000, 10000))+
  
    coord_flip()+
  theme_minimal()+
  labs(title = "Cuadro N° 1: Tipo de financiamiento en casos COVID-19",
       subtitle = "Estraficiado según provincias",
       x="Provincia",
       y="Cantidad",
       fill="Tipo de financiamiento",
       caption = "Fuente de datos pertenecientes a https://datos.gob.ar/") +
                                                 #CHAPA Y PINTURA
  theme(plot.title = element_text(face="bold",                      
                                  size=17,
                                  hjust =.6),
        plot.subtitle = element_text(face = "bold",
                                     size = 15,
                                     hjust=.6),
        legend.title = element_text(face="bold",
                                    size=13),
        legend.text = element_text(face="bold",
                                   size=12),
        axis.title = element_text(face="bold",
                                  size=12,
                                  hjust = 1),
        axis.text = element_text(face="bold",
                                 size=10,
                                 colour="black",),
        plot.caption = element_text(face="bold",
                                    size=12,
                                    hjust = .6))+
                                                 #OBSERVACIÓN
    annotate(geom = "curve", 
         x = "Chaco", y = 20000, 
         xend = c("Corrientes", "Formosa", "La Rioja"), yend = c(3780, 1685, 1020),
         curvature = 0.1, arrow = arrow(length = unit(2, "mm")))+
  annotate(geom = "text",
           x = "Chaco", y = 21000, label = "¿Por qué hay poco financiamiento privado?", 
           hjust = "left",
           colour="red")

A primera vista vemos que Corrientes, Formosa y La Rioja, son aquellas provincias en donde el financiamiento privado ha tenido menos cobertura en los casos de COVID-19. Veamos un poco más de cerca:

pyp %>% 
  filter(provincia %in% c("Corrientes", "Formosa", "La Rioja", "San Luis")) %>% 
  ggplot(aes(x=provincia,
             y=cantidad, fill=financiamiento))+
  geom_col(colour="black",
           alpha=1,
           aes(x=reorder(provincia, cantidad), y=cantidad))+
     coord_flip()+
  theme_minimal()+
  labs(title = "Cuadro N° 2: Tipo de financiamiento en casos COVID-19",
       subtitle = "Estraficiado según provincias",
       x="Provincia",
       y="Cantidad",
       fill="Tipo de financiamiento",
       caption = "Fuente de datos pertenecientes a https://datos.gob.ar/") +
                                                 #CHAPA Y PINTURA
  theme(plot.title = element_text(face="bold",                      
                                  size=17,
                                  hjust =.6),
        plot.subtitle = element_text(face = "bold",
                                     size = 15,
                                     hjust=.6),
        legend.title = element_text(face="bold",
                                    size=13),
        legend.text = element_text(face="bold",
                                   size=12),
        axis.title = element_text(face="bold",
                                  size=12,
                                  hjust = 1),
        axis.text = element_text(face="bold",
                                 size=10,
                                 colour="black",),
        plot.caption = element_text(face="bold",
                                    size=12,
                                    hjust = .6))

Efectivamente, San Luis es la cuarta provincia que comienza a tener una mayor cobertura de financiamiento privado en los casos de COVID-19, mientras que las tres provincias que tiene mayor cobertura de tipo público son La Rioja, Formosa y Corrientes. Este primer acercamiento ayuda a generar preguntas como: ¿Cuáles son las vías acceso a la salud que tiene la población en las tres primeras provincias, y por qué hay una variación del fenómeno hacia una dimensión privada? Esta pregunta es disparadora de varias conjeturas. Con el dataset presente es difícil generar una posible explicación según causas demográficas, económicas o geográficas. Sin embargo, el paradigma actual de la Big Data ofrece la oportunidad de buscar en repositorios de datos públicos más información que ayude a generar una explicación pertinente.