Trab. final

3.Elección de la fuente de datos: Elegir una base de datos que 1) sirva para responder la pregunta, 2) sea la mejor opción alcanzable para responder la pregunta. Utilizar más de una fuente de datos para responder a la pregunta será altamente valorado.

Trabajamos con los datos que nos entrega “datosmacro.expansion.com” los cuales detalla las cantidades, por países, de infectados confirmados, muertos, nuevos contagiados y nuevos muertos, con sus respectivas fechas detalladas, los cuales están presentes en los siguientes links: “https://datosmacro.expansion.com/otros/coronavirus” “https://datosmacro.expansion.com/otros/coronavirus/usa” “https://datosmacro.expansion.com/otros/coronavirus/argentina” “https://datosmacro.expansion.com/otros/coronavirus/suecia” “https://datosmacro.expansion.com/otros/coronavirus/nueva-zelanda” “https://datosmacro.expansion.com/otros/coronavirus/chile” “https://datosmacro.expansion.com/otros/coronavirus/brasil” “https://datosmacro.expansion.com/otros/coronavirus/finlandia” “https://datosmacro.expansion.com/otros/coronavirus/peru”

Elegimos los paíse USA, Argentina, Suecia, Nueva Zelanda, Chile, Brasil, Finlandia y Perú, porque detectamos que tiene una densidad poblacional similar a la de Chile, así que son comparables.

install.packages("ggplot2")

## Installing package into '/home/rstudio-user/R/x86_64-pc-linux-gnu-library/3.6'
## (as 'lib' is unspecified)

install.packages("scales")

## Installing package into '/home/rstudio-user/R/x86_64-pc-linux-gnu-library/3.6'
## (as 'lib' is unspecified)

library(ggplot2)
library(scales)

muertes <- read.table("muertes.csv", sep = ",", encoding = "UTF-8", header= T)
names(muertes) <- c("Fecha","Muertes","Pais")

El siguiente gráfico muestra cómo varia la canditad total de muertes para cada país, a medida que van pasado los dias de año. El grafico hace alusión a el numero de muertes totales por país durante el tiempo, en donde cabe mencionar que lo utilizaremos solo como un hecho, debido a que no se puede utilizar como marco referencial entre países dado que las cantidades de habitantes no son iguales entre si por ejemplo Estados Unidos tiene más de 15 veces la población de Chile.

ggplot(data = muertes, aes(x = Fecha, y = Muertes, group = Pais, colour = Pais)) +
  geom_line() + xlab("Dia del año") + ylab("Muertes") + ggtitle("Muertes totales por pais") +
  theme(plot.title = element_text(hjust = 0.5)) + scale_y_continuous(labels = label_comma())

El siguiene gráfico muestra un estudio de muertos por millón de personas, volcando la discusión en términos mas comparables, viendo proporciones para cada país. Donde Suecia se escapa con más de 500 muertos por millón, a pesar de ser el segundo país con mayor gasto en salud pública. Cabe destacar la gran tarea de Finlandia, Nueva Zelanda y Argentina en estos términos.Para lo que nos concierne, Chile lleva una cifra bajo este promedio, comparando países pareciedos entre sí en base a la densidad poblacional.

muertesxmillon <- read.table("muertesxmillon.csv", sep = ",", encoding = "UTF-8", header= T)
names(muertesxmillon) <- c("Fecha","Muertesxmillon","Pais")
ggplot(data = muertesxmillon, aes(x = Fecha, y = Muertesxmillon, group = Pais, colour = Pais)) +
  geom_line() + xlab("Dia del año") + ylab("Muertes por millon") + ggtitle("Muertes x Millón por pais") +
   theme(plot.title = element_text(hjust = 0.5))

Creamos un resumen para cada país, con los siguientes datos: muertos al dia del 1 de julio 2020, muertos por millon, casos Covid19 confirmados, confirmados por ciel mil, gasto publico en salud al 2018, densidad poblacional al 2018 y población al 2018.

resumen <- read.table("tabla_resumen.csv", sep = ",", encoding = "UTF-8", header= T)
names(resumen) <- c("Pais","Fecha", "Incremento_Muertos",   "Muertos", "Muertosxmillon",    "Incremento_Confirmados",   "Confirmados",  "Confirmadosx100000", "fecha",  "Gasto_publico", "densidad", "poblacion")

El siguiente gráfico muestra el gasto publico en salud por pais. Donde Estados Unidos es el que más invierte en ese aspecto, le sigue Suecia. Y Perú el que menos desembolsa dinero.

ggplot(data=resumen, aes(x=Pais, y=Gasto_publico, fill = Pais)) + 
  #fill = Pais /argumento para que pinte cada barra de un color segun el pais/
  geom_bar(stat="identity") + ylab("Gasto publico per capita, en salud") + theme(axis.text.x = element_text(face="bold", angle=90)) +
  ggtitle("Gasto publico en Salud por pais") + theme(plot.title = element_text(hjust = 0.5))

El siguiente gráfico muestra la densidad poblacional por cada país. Este dato es importante porque nos habla un poco de qué tan aglomeradas estan las personas en su país. Claramente, la densidad poblacional es un promedio de habitantes por km^2, y no nos uestra que ciudades son mas densas que otras, donde podría ser mucho más dificl evitar contagios, ya que las personas estarían acumuladas en el transporte público, en los mercados, en las calles, etc. Se puede apreciar que los países tienen niveles similares de densidad poblacional , estando chile muy cercano a la media de la muestra.

ggplot(data=resumen, aes(x=Pais, y=densidad, fill = Pais)) + 
  #fill = Pais /argumento para que pinte cada barra de un color segun el pais/
  geom_bar(stat="identity") + ylab("Densidad poblacional") + theme(axis.text.x = element_text(face="bold", angle=90))+
 ggtitle("Densidad poblacional por pais") + theme(plot.title = element_text(hjust = 0.5))

Ahora, vamos a ver cuanto influye el gasto publicos en salud a los muertos por millón.

lm.resumen <- lm(Muertosxmillon~Gasto_publico, data=resumen)
plot(resumen$Gasto_publico,resumen$Muertosxmillon, 
     xlab = "Gasto publico per capita", 
     ylab = "Muertes / 1.000.000",
     main = "Gasto publico percapita vs muertos por millon")
abline(lm.resumen, col="red")

summary(lm.resumen)

## 
## Call:
## lm(formula = Muertosxmillon ~ Gasto_publico, data = resumen)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -239.96 -174.57   62.74  114.59  239.39 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)
## (Intercept)   177.89349   96.78391   1.838    0.116
## Gasto_publico   0.02519    0.02848   0.885    0.410
## 
## Residual standard error: 191 on 6 degrees of freedom
## Multiple R-squared:  0.1154, Adjusted R-squared:  -0.03208 
## F-statistic: 0.7824 on 1 and 6 DF,  p-value: 0.4105

Suecia y Estados unidos son datos outlayer, es decir, se escapa del comportmiento común de los datos, y se y se puede deber a las estrategias utilizadas como una baja cuarentena. Estos dos países contradicen nuestra hipótesis, porque se ve una relación positiva entre las variables. Así que, ahora veremos como se porta esta relación sin Suecia y sin Estados Unidos.

resumen_sin_out <- read.table("tabla_resumen_sin_out.csv", sep = ",", encoding = "UTF-8", header= T)
names(resumen_sin_out) <- c("Pais","Fecha", "Incremento_Muertos",   "Muertos",
                    "Muertosxmillon",   "Incremento_Confirmados",   "Confirmados",  
                    "Confirmadosx100000", "fecha",  "Gasto_publico", "densidad",    
                    "poblacion")

lm.resumen_sin_out <- lm(formula=Muertosxmillon~Gasto_publico, data=resumen_sin_out)
plot(resumen_sin_out$Gasto_publico,resumen_sin_out$Muertosxmillon, 
     xlab = "Gasto publico per capita", 
     ylab = "Muertes / 1.000.000", 
     main = "Gasto publico percapita vs muertos por millón")
abline(lm.resumen_sin_out, col="red")

summary(lm.resumen_sin_out)

## 
## Call:
## lm(formula = Muertosxmillon ~ Gasto_publico, data = resumen_sin_out)
## 
## Residuals:
##       1       2       3       4       5       6 
##   86.26 -176.82   35.22   33.34  -28.86   50.86 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)  
## (Intercept)   289.49005   66.33510   4.364    0.012 *
## Gasto_publico  -0.09700    0.03972  -2.442    0.071 .
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 105.4 on 4 degrees of freedom
## Multiple R-squared:  0.5986, Adjusted R-squared:  0.4982 
## F-statistic: 5.964 on 1 and 4 DF,  p-value: 0.07104

Sin Suecia y Estados Unidos se puede observar una tenencia que a mayor gasto publico bajan las muertes por millón. Cabe destacar que el R cuadrado de esta nueva regresión aumentó considerablemente a 0,5986.

En conclusión, podemos decir que existe una relación positiva entre la inversión del estado en materias de salud con el control de muertes por millón de habitantes por causas del COVID19, en vista de los resultados de la segunda regresión, que excluye a los países atípicos de la muestra.

Queremos destacar nuestro ejercicio de simplificación del análisis excluyendo otras variables influyentes en este factor, donde datos como; las camas totales, camas disponibles, densidades poblacionales por ciudades, medidas de cuarentenas, hacen variar los resultados de la muestra.

Trab. final

Anneliese Kunze y Guillermo Garcia

3/7/2020

1.Contexto: Motivar el contexto de su pregunta ¿Por qué es relevante responder su pregunta? ¿Qué dice la opinión pública y/o la literatura?

2.Elección de la pregunta:

3.Elección de la fuente de datos: Elegir una base de datos que 1) sirva para responder la pregunta, 2) sea la mejor opción alcanzable para responder la pregunta. Utilizar más de una fuente de datos para responder a la pregunta será altamente valorado.

Elegimos los paíse USA, Argentina, Suecia, Nueva Zelanda, Chile, Brasil, Finlandia y Perú, porque detectamos que tiene una densidad poblacional similar a la de Chile, así que son comparables.

Creamos un resumen para cada país, con los siguientes datos: muertos al dia del 1 de julio 2020, muertos por millon, casos Covid19 confirmados, confirmados por ciel mil, gasto publico en salud al 2018, densidad poblacional al 2018 y población al 2018.

El siguiente gráfico muestra el gasto publico en salud por pais. Donde Estados Unidos es el que más invierte en ese aspecto, le sigue Suecia. Y Perú el que menos desembolsa dinero.

Ahora, vamos a ver cuanto influye el gasto publicos en salud a los muertos por millón.

Sin Suecia y Estados Unidos se puede observar una tenencia que a mayor gasto publico bajan las muertes por millón. Cabe destacar que el R cuadrado de esta nueva regresión aumentó considerablemente a 0,5986.

En conclusión, podemos decir que existe una relación positiva entre la inversión del estado en materias de salud con el control de muertes por millón de habitantes por causas del COVID19, en vista de los resultados de la segunda regresión, que excluye a los países atípicos de la muestra.

Queremos destacar nuestro ejercicio de simplificación del análisis excluyendo otras variables influyentes en este factor, donde datos como; las camas totales, camas disponibles, densidades poblacionales por ciudades, medidas de cuarentenas, hacen variar los resultados de la muestra.