En este trabajo realizaremos un análisis de los datos correspondientes a las determinaciones de laboratorio para la detección del virus Sars-Cov-2 en el territorio argentino desde el comienzo de la pandemia hasta la actualidad. Para ello utilizaremos un dataset de datos espaciales y temporales del portal de datos abiertos del Ministerio de Salud.

Comenzamos como siempre, activando los paquetes que utilizaremos para explorar, transformar y visualizar estos datos. En este caso, estaremos utilizando “tidyverse”, “sf”, “ggmap” y “lubridate” :

library(tidyverse)

## ── Attaching packages ─────────────────────────────────────── tidyverse 1.3.0 ──

## ✓ ggplot2 3.3.3     ✓ purrr   0.3.4
## ✓ tibble  3.1.0     ✓ dplyr   1.0.5
## ✓ tidyr   1.1.3     ✓ stringr 1.4.0
## ✓ readr   1.4.0     ✓ forcats 0.5.1

## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## x dplyr::filter() masks stats::filter()
## x dplyr::lag()    masks stats::lag()

library(lubridate)

## 
## Attaching package: 'lubridate'

## The following objects are masked from 'package:base':
## 
##     date, intersect, setdiff, union

library(sf)

## Linking to GEOS 3.8.1, GDAL 3.1.4, PROJ 6.3.1

library(ggmap)

## Google's Terms of Service: https://cloud.google.com/maps-platform/terms/.

## Please cite ggmap if you use it! See citation("ggmap") for details.

Una vez activadas las librerías que utilizaremos importamos nuestros datos:

Covid19_Testeos <- read.csv("data/Covid19Determinaciones.csv", stringsAsFactors=TRUE)

Covid19_Casos <- read.csv(“data/Covid19Casos.csv”, stringsAsFactors = TRUE)

str(Covid19_Testeos)

## 'data.frame':    112574 obs. of  12 variables:
##  $ fecha                    : Factor w/ 520 levels "2008-08-13","2012-09-21",..: 1 2 3 4 5 6 7 8 9 10 ...
##  $ provincia                : Factor w/ 25 levels "Buenos Aires",..: 10 6 2 6 13 13 2 20 7 22 ...
##  $ codigo_indec_provincia   : int  38 14 2 14 50 50 2 78 18 86 ...
##  $ departamento             : Factor w/ 382 levels "12 de Octubre",..: 108 45 75 45 45 45 79 105 45 45 ...
##  $ codigo_indec_departamento: int  21 14 2 14 7 7 6 14 21 49 ...
##  $ localidad                : Factor w/ 1138 levels "11A. SECCION",..: 908 251 797 251 11 7 125 546 263 936 ...
##  $ codigo_indec_localidad   : int  60 10 10 10 10 10 10 60 20 110 ...
##  $ origen_financiamiento    : Factor w/ 2 levels "Privado","Público": 2 2 2 2 2 2 1 1 2 2 ...
##  $ tipo                     : Factor w/ 13 levels "FFAA/Seguridad",..: 9 9 13 9 9 9 8 8 9 9 ...
##  $ ultima_actualizacion     : Factor w/ 1 level "2021-06-30": 1 1 1 1 1 1 1 1 1 1 ...
##  $ total                    : int  1 1 1 1 1 1 1 1 1 1 ...
##  $ positivos                : int  NA 1 NA 1 1 NA NA NA NA 1 ...

Como puede verse, se trata de un dataframe de que contiene el registro de los testeos totales y positivos realizados por fecha, desagregado a nivel de localidad y por tipo de efector que realizó el test. Para poder realizar un análisis espacial de la distribución territorial de estas observaciones más adelante lo convertiremos en un dataframe de datos espaciales uniéndolo con las geometrías de las provincias y de los partidos y comunas del AMBA. Pero antes de ello, comenzaremos por el análisis temporal.

Análisis Temporal

Para poder realizar operaciones temporales con los datos importados comenzamos por transformar los valores de la variable que contiene las marcas temporales de los registros en datos de tipo fecha. Asimimo, filtraremos los registros correspondientes a los años 2020 y 2021, atento a que las observaciones de años anteriores constituyen errores de carga. Finalmente agruparemos los efectores en las categorías que consideramos relevantes para nuestro análisis.

Covid19_Testeos <- Covid19_Testeos %>% 
                   mutate(fecha=ymd(fecha)) %>% 
                   mutate(mes=month(fecha, label=TRUE), anio=year(fecha)) %>%
                   mutate(positivos = ifelse(is.na(positivos), 0, positivos)) %>% 
                   filter(anio==2020 | anio==2021, !provincia=="SIN ESPECIFICAR") %>% 
                   mutate(tipo=as.character(tipo)) %>% 
                   mutate(tipo=(case_when(tipo %in% c("Nacional", "Provincial", "Municipal", "Privado", 
                   "Obra social")~tipo, TRUE~"otro"))) %>% 
                   mutate(tipo=as.factor(tipo)) %>% 
                   mutate(tipo=factor(tipo, levels=c("Nacional", "Provincial", "Municipal", "Privado", 
                   "Obra social", "otro")))

Gráfico de área

Para nuestra primera visualización, realizamos un gráfico de área, mostrando la evolución de la cantidad de testeos positivos registrados desde enero de 2020 a junio de 2021. Como puede observarse, la cantidad de testeos positivos presenta dos grandes picos correspondientes al golpe de la primera y la segunda ola de la pandemia en el país (invierno 2020 y semana santa de 2021), y un tercero de menor magnitud correspondientes al aumento de casos que tuvo lugar durante las fiestas entre fines de 2020 y comienzos de 2021. Asimismo puesde observarse que durante la segunda ola se registró una cantidad significativamente mayor de testeos positivos que en la primera. Replicando el desfasaje entre comienzo de la primera ola (invierno) y la segunda (otoño), la merma de testeos positivos puede observarse para el primer caso a partir de la primavera y para el segundo, a partir del invierno. Es decir que la primera ola tuvo que esperar al descenso de casos por la propia estacionalidad del virus, mintras que en la segunda se puede ver la incidencia de otro factor, como es el proceso de vacunación.

ggplot(data=(Covid19_Testeos %>% 
             group_by(fecha) %>% 
             summarise(tests_positivos=sum(positivos))))+ 
             aes(x=fecha, y=tests_positivos/1000)+ 
       geom_area(fill="seagreen2")+
       theme_minimal()+
       theme(plot.title = element_text(face="bold", size=15))+
       theme(axis.title.x = element_text(face="bold", vjust=-0.5, colour="darkgray", size=12))+
       theme(axis.title.y = element_text(face="bold", vjust=-0.5, colour="darkgray", size=12))+
       labs(title="Testeos Positivos de Covid19",
       subtitle="Evolución de la cantidad de testeos positivos por fecha",
       y="cantidad de tests positivos (en miles)",
       caption="Fuente: Datos Abiertos del Ministerio de Salud")

Gráficos de barras

Para nuestra segunda visualización realizamos un gráfico de barras que representa de manera agregada la cantidad de testeos positivos y totales por mes, que nos permite contrastar la situación de cada mes tomado individualmente en relación a los demás. En este sentido, puede verse que el los meses que concentran la mayor cantidad de testeos positivos durante la primera ola son septiembre y octubre, mientras que los meses que concentran la mayor cantidad de testeos positivos durante la segunda ola son abril y mayo. Asimismo se puede observar que el incremento en los testeos totales durante la segunda ola respecto de los realizados durante la primera es más pronunciado que el aumento en los testeos positivos, lo que parecería dar cuenta del cambio en la estrategia de testeos. Recordemos que durante la primera ola se adoptó, para optimizar la utilización de los recursos disponibles, una estrategia de testeo focalizado a partir de la trazabilidad de los casos, priorizando la realización de los tensteos entre los posibles contactos de las personas contagiadas; mientras que durante la segunda ola se realizaron testeos más masivos.

ggplot(data=(Covid19_Testeos %>% 
            group_by(anio, mes) %>% 
            summarise(tests_totales=sum(total), tests_positivos=sum(positivos)) %>% 
            pivot_longer(3:4, names_to="test", values_to="cantidad")),
       aes(x=mes, y=cantidad/1000, fill=test))+
  geom_bar(stat="identity")+
  scale_fill_manual(values = c("darkmagenta", "gray75"))+
  facet_wrap(~anio)+
  theme_minimal()+
    theme(plot.title = element_text(face="bold", size=15))+
    theme(axis.title.x = element_text(face="bold", vjust=-0.5, colour="darkgray", size=12))+
    theme(axis.title.y = element_text(face="bold", vjust=-0.5, colour="darkgray", size=12))+
    labs(title="Testeos positivos y totales",
    subtitle="Evolución de la cantidad de testeos positivos y totales, años 2020 y 2021",
    y="cantidad de tests realizados (en miles)",
    fill=NULL,
    caption="Fuente: Datos Abiertos del Ministerio de Salud")

## `summarise()` has grouped output by 'anio'. You can override using the `.groups` argument.

En una variación del gráfico precedente hemos añadido la cantidad de testeos totales desagregada por tipo de efector que realizó los testeos. Como puede verse, la mayor parte de los testeos fue realizada por efectores públicos provinciales y privados, seguido por los efectores públicos municipales. Asimismo se observa que los primeros siguen un mismo patrón de evolución mientras que los municipios presentan un comportamiento más errático, aumentando la cantidad de testeos en meses que el resto la disminuye y disminuyéndola cuando el conjunto la aumenta.

ggplot(data=(Covid19_Testeos %>% 
      group_by(anio, mes, tipo) %>% 
      summarise(tests_totales=sum(total))), aes(x=mes, y=tests_totales/1000))+ 
  geom_bar(stat="identity", fill="gray90")+
  geom_line(aes(color=tipo, group=tipo))+
  geom_point(aes(color=tipo))+
  scale_color_viridis_d()+
  geom_text(data=(Covid19_Testeos %>% 
                 group_by(anio, mes) %>% 
                 summarise(tests_totales=sum(total))), 
            aes(x=mes, y=tests_totales/1000+75, label=round(tests_totales/1000, 0)))+
  facet_wrap(~anio)+          
  theme_minimal()+
  theme(plot.title = element_text(face="bold", size=15))+
  labs(title="Testeos de Covid19",
       subtitle="Evolución de la cantidad de testeos totales por mes, años 2020 y 2021",
       caption="Fuente: Datos Abiertos del Ministerio de Salud")

## `summarise()` has grouped output by 'anio', 'mes'. You can override using the `.groups` argument.

## `summarise()` has grouped output by 'anio'. You can override using the `.groups` argument.

En línea con lo anterior, en el gráfico que mostramos a continuación pueden visualizarse el total de testeos realizados de manera agregada para los dos años de pandemia según el tipo de efector que los realizó:

ggplot(data=(Covid19_Testeos %>% 
             group_by(tipo) %>% 
             summarise(tests_totales=sum(total))))+ 
       aes(x=tests_totales/1000, y=fct_reorder(tipo, tests_totales), fill=tipo)+ 
       geom_bar(stat="identity")+
       geom_label(aes(x=tests_totales/1000+250, label=round(tests_totales/1000, 0)), fill=NA)+
       scale_fill_viridis_d()+
       theme_minimal()+
       theme(plot.title = element_text(face="bold", size=15))+
       theme(axis.title.x = element_text(face="bold", vjust=-0.5, colour="darkgray", size=12))+
       theme(axis.title.y = element_text(face="bold", vjust=-0.5, colour="darkgray", size=12))+
       labs(title="Testeos de Covid19 según efector",
       subtitle="Evolución de la cantidad de testeos según tipo de efector por el cual fue realizado",
       x="cantidad de tests totales (en miles)",
       y="Tipo",
       caption="Fuente: Datos Abiertos del Ministerio de Salud")

* Finalmente, en el gráfico que sigue podemos ver la evolución de la tasa de positividad por mes. Como habíamos adelantado, durante la segunda ola se registró un incremento significativo de los testeos totales realizados en relación al aumento de los testeos positivos registrados, resultando en un descenso de la tasa de positividad. En este sentido, puede observarse que, mientras durante la segunda ola la tasa de positividad se ubica apenas por encima del promedio para los dos años de la pandemia (24,8%), durante la primera ésta se encuentra muy por encima de el mismo.

ggplot(data=(Covid19_Testeos %>% 
            group_by(anio, mes) %>% 
            summarise(tasa_positividad=sum(positivos)/sum(total))),
       aes(x=mes, y=tasa_positividad*100))+
  geom_abline(aes(intercept=sum(Covid19_Testeos$positivos)/sum(Covid19_Testeos$total)*100, 
                  slope=0), color="darkmagenta", size=2, alpha=0.75)+
  geom_bar(stat="identity", fill="seagreen2")+
  geom_label(aes(y=tasa_positividad*100+2, label=round(tasa_positividad*100, 0)))+
  facet_wrap(~anio)+
  geom_text(aes(x="feb", y=sum(Covid19_Testeos$positivos)/sum(Covid19_Testeos$total)*100+2), 
                label="promedio", color="darkgray")+
  theme_minimal()+
    theme(plot.title = element_text(face="bold", size=15))+
    theme(axis.title.x = element_text(face="bold", vjust=-5, colour="darkgray", size=12))+
    theme(axis.title.y = element_text(face="bold", vjust=1, colour="darkgray", size=12))+
    labs(title="Tasa de Positividad",
    subtitle="Evolución de la tasa de positividad en determinaciones de laboratorio, años 2020 y 2021",
    y="tasa de positividad (%)",
    caption="Fuente: Datos Abiertos del Ministerio de Salud")

## `summarise()` has grouped output by 'anio'. You can override using the `.groups` argument.

tasa de positividad promedio:

sum(Covid19_Testeos$positivos)/sum(Covid19_Testeos$total)

## [1] 0.2478319

Análisis Espacial

Como habíamos anticipado, para poder realizar un análisis de la distribución territorial de nuestros datos, debemos agregarle al dataframe de testeos una columna de geometrías. Para ello utilizamos s dos dataframes de datos espaciales que contienen, respectivamente, las geometrías de las provincias (Instituto Geográfico Nacional) y de los partidos y comunas del AMBA (GCBA).

departamentos <-st_read("data/departamentos/pxdptodatosok.shp")

## Reading layer `pxdptodatosok' from data source `/Users/nahuel/Desktop/DI TELLA/Ciencia de Datos para Ciudades II/TAREAS/hospitales/data/departamentos/pxdptodatosok.shp' using driver `ESRI Shapefile'
## Simple feature collection with 527 features and 10 fields
## Geometry type: MULTIPOLYGON
## Dimension:     XY
## Bounding box:  xmin: -74.02985 ymin: -90 xmax: -25.02314 ymax: -21.74506
## Geodetic CRS:  WGS 84

Distribución de testeos por provincia

Para poder analizar la distribución de testeos por provincia, utilizamos un dataframe con las geometrías a nivel de departamento, a fin de poder filtrar las correspondientes a la Antártida y las islas del Atlántico Sur y quedarnos solamente con las correspondientes al territorio continental, el cual luego volvimos a agregar a un nivel jurisdiccional superior:

departamentos <- departamentos %>% 
                 filter(!departamen %in% c('Islas del Atlántico Sur', "Antártida Argentina"))

provincias <- departamentos %>% 
              group_by(provincia) %>% 
              summarise()

## although coordinates are longitude/latitude, st_union assumes that they are planar
## although coordinates are longitude/latitude, st_union assumes that they are planar
## although coordinates are longitude/latitude, st_union assumes that they are planar
## although coordinates are longitude/latitude, st_union assumes that they are planar
## although coordinates are longitude/latitude, st_union assumes that they are planar
## although coordinates are longitude/latitude, st_union assumes that they are planar
## although coordinates are longitude/latitude, st_union assumes that they are planar
## although coordinates are longitude/latitude, st_union assumes that they are planar
## although coordinates are longitude/latitude, st_union assumes that they are planar
## although coordinates are longitude/latitude, st_union assumes that they are planar
## although coordinates are longitude/latitude, st_union assumes that they are planar
## although coordinates are longitude/latitude, st_union assumes that they are planar
## although coordinates are longitude/latitude, st_union assumes that they are planar
## although coordinates are longitude/latitude, st_union assumes that they are planar
## although coordinates are longitude/latitude, st_union assumes that they are planar
## although coordinates are longitude/latitude, st_union assumes that they are planar
## although coordinates are longitude/latitude, st_union assumes that they are planar
## although coordinates are longitude/latitude, st_union assumes that they are planar
## although coordinates are longitude/latitude, st_union assumes that they are planar
## although coordinates are longitude/latitude, st_union assumes that they are planar
## although coordinates are longitude/latitude, st_union assumes that they are planar
## although coordinates are longitude/latitude, st_union assumes that they are planar
## although coordinates are longitude/latitude, st_union assumes that they are planar
## although coordinates are longitude/latitude, st_union assumes that they are planar

ggplot() + 
  geom_sf(data = provincias, fill="white") +
  theme_void()

Como puede verse en el mapa coroplético que presentamos a continuación, las provincias con mayor cantidad de testeos coinciden con aquellas (Buenos Aires, seguida de Córdoba y Santa Fe y, en menor medida Mendoza) donde se encuentran los cuatro mayores aglomerados urbanos del país (Buenos Aires, Córdoba, Rosario y Mendoza), como puede esperarse considerando que los contagios se concentran en las zonas más densamente pobladas. Como es de esperar también, la distribución territorial resulta constante para los dos años de pandemia, con la excepción de Formosa, donde se registra un mayor número de testeos para 2021, probablemente vinculado a los sucesos de público conocimiento que tuvieron lugar en dicha provincia a comienzos de este año.

testeosporprovincia <- Covid19_Testeos %>% 
                       group_by(anio, provincia) %>% 
                       summarise(total_positivos=sum(positivos), total_testeos=sum(total))

## `summarise()` has grouped output by 'anio'. You can override using the `.groups` argument.

testeosporprovincia <- testeosporprovincia %>% 
                       left_join(provincias, by="provincia") %>% 
                       st_as_sf(crs=4326)

ggplot()+ 
  geom_sf(data=testeosporprovincia, aes(fill=total_testeos/1000), color="gray")+
  scale_fill_viridis_c()+
  theme_void()+
  theme(plot.title = element_text(face="bold", size=15))+
  labs(title="Testeos por provincia",
       subtitle="Cantidad de testeos realizados por provincia, años 2020 y 2021",
       fill="cantidad (en miles)",
       caption="Fuente: Datos Abiertos del Ministerio de Salud")+
  facet_wrap(~anio)

Distribución de testeos por partido y comuna

Para realizar un zoom sobre el AMBA, trabajamos a continuación uniendo a nuestro dataframe de testeos el de las geometrías de los partidos del Gran Buenos Aires y las comunas de la Ciudad. Para poder unir ambos dataframes mediante la columna “departamento”, debimos primero compatibilizar el modo en que estaban registrados los valores de dicha variable. Luego, agrupamos los datos por departamento y filtramos los registros correspondientes al AMBA.

amba <- read_sf("data/partidos_amba.geojson")

testeospordepartamento <- Covid19_Testeos %>% 
                       group_by(anio, provincia, departamento) %>% 
                       summarise(total_positivos=sum(positivos), total_testeos=sum(total)) %>%
                       mutate(departamento=(as.character(departamento))) %>% 
                       mutate(departamento=(case_when(departamento=="COMUNA 01"~"Comuna 1", departamento=="COMUNA 02"~ "Comuna 2", departamento=="COMUNA 03"~"Comuna 3", departamento=="COMUNA 04"~"Comuna 4", departamento=="COMUNA 05"~"Comuna 5", departamento=="COMUNA 06"~"Comuna 6", departamento=="COMUNA 07"~"Comuna 7", departamento=="COMUNA 08"~"Comuna 8", departamento=="COMUNA 09"~"Comuna 9", departamento=="COMUNA 10"~"Comuna 10", departamento=="COMUNA 11"~"Comuna 11", departamento=="COMUNA 12"~"Comuna 12", departamento=="COMUNA 13"~"Comuna 13", departamento=="COMUNA 14"~"Comuna 14", departamento=="COMUNA 15"~"Comuna 15", TRUE~departamento)))

## `summarise()` has grouped output by 'anio', 'provincia'. You can override using the `.groups` argument.

testeosamba <- testeospordepartamento %>%
               left_join(amba, by=c("departamento"="nombre")) %>% 
               filter(provincia.x=="CABA" | provincia.y=="GBA") %>% 
               st_as_sf(crs=4326)

En el mapa coroplético que se muestra a continuación podemos observar la distribución territorial de los testeos en el AMBA. Como puede verse, la mayor concentración de testeos se registra en la ciudad de Buenos Aires. Respecto al resto de los partidos, podemos observar una gran homogeneidad en cuanto a la distribución de los testeos, lo cual contrasta con lo observado en la distribución a nivel de las provincias, en tanto que no se observan diferencias en la distribución atribuibles a la densidad de población de cada partido. En este sentido, podemos observar que La Plata, con apenas 200 mil habitantes, muy por detrás de partidos como La Matanza (con casi dos millones), Lomas de Zamora (más de 600 mil), Lanús y San Martín (más de 400 mil), concentra la mayor proporción de testeos. Podemos inferir de ello que la distribución territorial de los testeos responde a la ubicación de la infraestructura sanitaria, donde se realizan los mismos, la cual no necesariamente refleja la concentración de la población en el territorio.

ggplot()+ 
  geom_sf(data=testeosamba, aes(fill=total_testeos/1000), color="gray")+
  scale_fill_viridis_c()+
  theme_void()+
  theme(plot.title = element_text(face="bold", size=15))+
  labs(title="Testeos AMBA",
       subtitle="Cantidad de testeos realizados por partido, años 2020 y 2021",
       fill="cantidad (en miles)",
       caption="Fuente: Datos Abiertos del Ministerio de Salud")+
  facet_wrap(~anio)

Finalmente, realizamos un zoom sobre la ciudad de Buenos Aires para poder identificar con mayor precisión la distribución territorial de los testeos entre las diferentes comunas. Como puede verse en el mapa que sigue las comunas 4, 2, 5 y 14 registran la mayor concentración de testeos. Podemos encontrar aquí un patrón de distribución semejante al analizado en los trabajos anteriores respecto de la infraestructura sanitaria. Como hemos mencionado en dichos trabajos, mientras encontramos la mayor concentración de hospitales públicos en Barracas y Parque Patricios, la cual explica casi en su totalidad la cantidad de centros de salud en la Comuna 4; otros barrios, como Almagro (comuna 5), Recoleta (comuna 2) o Palermo (comuna 14) registran una elevada oferta de centros de salud al considerar la totalidad de la infraestructura sanitaria, que se explica, mayoritariamente, por la presencia de equipamiento privado (prepagas y obras sociales). En este sentido, podemos apreciar que la distribución territorial de los testeos se correlaciona con esta distribución de la infraestructura sanitaria de la ciudad, más que con la distribución poblacional. Asimismo, puede observarse un incremento significativo de los testeos en la Comuna 4 en 2021 respecto de los realizados en 2020. Como hemos mencionado anteriormente, esto podría deberse al cambio en la estrategia de testeos adoptada por el gobierno de la ciudad, en tanto que este año, en contraste con la estrategia de testeo focalizada del año anterior, se llevaron adelante testeos masivos a través de las Unidades Febriles de Urgencia ubicadas en los hospitales públicos, que se concentran en dicha comuna, donde se realizan los testeos a personas con síntomas y de las postas “Detectar”, ubicadas en diferentes puntos de la ciudad, donde se realizan testeos por turismo, contactos estrechos u otros factores de sospecha.

ggplot()+ 
  geom_sf(data=filter(testeosamba, provincia.x=="CABA"), aes(fill=total_testeos/1000), color="gray")+
  scale_fill_viridis_c()+
  theme_void()+
  theme(plot.title = element_text(face="bold", size=15))+
  labs(title="Testeos CABA",
       subtitle="Cantidad de testeos realizados por comuna, años 2020 y 2021",
       fill="cantidad (en miles)",
       caption="Fuente: Datos Abiertos del Ministerio de Salud")+
  facet_wrap(~anio)

03 Analisis de datos temporoespaciales