Con motivo de la presentación del trabajo para la materia Ciencias de Datos I del posgrado “Big Data e Inteligencia Territorial” se realizó un relevo de tipo exploratorio sobre el tipo de financiamiento que tuvieron los casos de COVID-19 según cada provincia de la República Argentina. En un primer momento se despliega el script utilizado funciones como library, fread, select, group_by, summarise, etc.. En una segundo momento se realiza un gráfico de columnas donde el eje X son las provincias, el eje Y el número de contagios y en su interior se discrimina según financiamiento público o privado. Por último se realiza una observación sobre los datos generados
Conocer el tipo de financiamiento que tuvieron los casos de COVID-19 según cada provincia de la República Argentina entre los años 2020 y 2021
Descargar la base de datos “base covid”, identificar las columnas que forman parte del tipo de financiamiento y limpiar la base
Generar un gráfico de barra aplicando las funciones enseñadas, tunearla con “theme” y generar una observación
Carga de librerías y descarga de la base
library(data.table)
library(tidyverse)
base_covid <- fread("C:/Users/User/Desktop/Big data e inteligencia territorial/Módulos/Módulo II. Ciencias de Datos 1/base_covid_muestra.txt")
Creación del objeto
# Creación del objeto de estudio
pyp <- base_covid%>% #pyp= privados y públicos
select(carga_provincia_nombre, origen_financiamiento)
Limpieza
pyp <- pyp%>%
group_by(carga_provincia_nombre, origen_financiamiento) %>%
summarise(cantidad=n())
# Cambiar nombres
pyp <- pyp %>%
rename(provincia=carga_provincia_nombre,
financiamiento=origen_financiamiento)
Creación del gráfico, chapa y pintura
ggplot(data=pyp, #GRÁFICO
aes(x=provincia,
y=cantidad,
fill=financiamiento))+
geom_col(colour="black",
alpha=1,
aes(x=reorder(provincia, cantidad), y=cantidad))+
scale_y_continuous(breaks = seq(0, 50000, 10000))+
coord_flip()+
theme_minimal()+
labs(title = "Cuadro N° 1: Tipo de financiamiento en casos COVID-19",
subtitle = "Estraficiado según provincias",
x="Provincia",
y="Cantidad",
fill="Tipo de financiamiento",
caption = "Fuente de datos pertenecientes a https://datos.gob.ar/") +
#CHAPA Y PINTURA
theme(plot.title = element_text(face="bold",
size=17,
hjust =.6),
plot.subtitle = element_text(face = "bold",
size = 15,
hjust=.6),
legend.title = element_text(face="bold",
size=13),
legend.text = element_text(face="bold",
size=12),
axis.title = element_text(face="bold",
size=12,
hjust = 1),
axis.text = element_text(face="bold",
size=10,
colour="black",),
plot.caption = element_text(face="bold",
size=12,
hjust = .6))+
#OBSERVACIÓN
annotate(geom = "curve",
x = "Chaco", y = 20000,
xend = c("Corrientes", "Formosa", "La Rioja"), yend = c(3780, 1685, 1020),
curvature = 0.1, arrow = arrow(length = unit(2, "mm")))+
annotate(geom = "text",
x = "Chaco", y = 21000, label = "¿Por qué hay poco financiamiento privado?",
hjust = "left",
colour="red")
A primera vista vemos que Corrientes, Formosa y La Rioja, son aquellas provincias en donde el financiamiento privado ha tenido menos cobertura en los casos de COVID-19. Veamos un poco más de cerca:
pyp %>%
filter(provincia %in% c("Corrientes", "Formosa", "La Rioja", "San Luis")) %>%
ggplot(aes(x=provincia,
y=cantidad, fill=financiamiento))+
geom_col(colour="black",
alpha=1,
aes(x=reorder(provincia, cantidad), y=cantidad))+
coord_flip()+
theme_minimal()+
labs(title = "Cuadro N° 2: Tipo de financiamiento en casos COVID-19",
subtitle = "Estraficiado según provincias",
x="Provincia",
y="Cantidad",
fill="Tipo de financiamiento",
caption = "Fuente de datos pertenecientes a https://datos.gob.ar/") +
#CHAPA Y PINTURA
theme(plot.title = element_text(face="bold",
size=17,
hjust =.6),
plot.subtitle = element_text(face = "bold",
size = 15,
hjust=.6),
legend.title = element_text(face="bold",
size=13),
legend.text = element_text(face="bold",
size=12),
axis.title = element_text(face="bold",
size=12,
hjust = 1),
axis.text = element_text(face="bold",
size=10,
colour="black",),
plot.caption = element_text(face="bold",
size=12,
hjust = .6))
Efectivamente, San Luis es la cuarta provincia que comienza a tener una mayor cobertura de financiamiento privado en los casos de COVID-19, mientras que las tres provincias que tiene mayor cobertura de tipo público son La Rioja, Formosa y Corrientes. Este primer acercamiento ayuda a generar preguntas como: ¿Cuáles son las vías acceso a la salud que tiene la población en las tres primeras provincias, y por qué hay una variación del fenómeno hacia una dimensión privada? Esta pregunta es disparadora de varias conjeturas. Con el dataset presente es difícil generar una posible explicación según causas demográficas, económicas o geográficas. Sin embargo, el paradigma actual de la Big Data ofrece la oportunidad de buscar en repositorios de datos públicos más información que ayude a generar una explicación pertinente.