La siguiente practica corresponde al analisis de 2 diferentes Dataset que estan relacionados con el covid, el primero de ellos corresponde a los casos positivos notificados por cada pais y diferentes territorios y el segundo corresponde a las muertes notificadas hasta Diciembre de 2022.
En primer lugar importamos cada uno de los dataset como ya lo hemos hecho en anteriores practicas:
casos <- read.csv("c:/R/total_cases.csv", header = TRUE, sep=",")
head(casos)
## Serial.Number Country Total.Cases
## 1 1 USA 104,196,861
## 2 2 India 44,682,784
## 3 3 France 39,524,311
## 4 4 Germany 37,779,833
## 5 5 Brazil 36,824,580
## 6 6 Japan 32,588,442
muertes <- read.csv("c:/R/total_deaths.csv", header = TRUE, sep=",")
head(muertes)
## Serial.Number Country Total.Deaths
## 1 1 USA 1,132,935
## 2 2 India 530,740
## 3 3 France 164,233
## 4 4 Germany 165,711
## 5 5 Brazil 697,074
## 6 6 Japan 68,399
Ya teniendo los datos cargados podemos sumar los casos y muertes que hubo en cada pais y territorio para obtener la cantidad total de casos y muertes en el mundo por covid implementando la funcion sum()
casos$Total.Cases <- as.numeric(gsub(",", "", casos$Total.Cases))
Total_casos <- casos$Total.Cases
suma = sum(Total_casos)
suma
## [1] 675319264
muertes$Total.Deaths <- as.numeric(gsub(",", "", muertes$Total.Deaths))
Total_muertes <- muertes$Total.Deaths
suma2 = sum(Total_muertes)
suma2
## [1] 6763007
Ahora podemos construir un dataframe a partir de estos dos dataset utilizando la funcion data.frame()
datafr = data.frame(casos$Country,Total_casos, Total_muertes)
head(datafr)
## casos.Country Total_casos Total_muertes
## 1 USA 104196861 1132935
## 2 India 44682784 530740
## 3 France 39524311 164233
## 4 Germany 37779833 165711
## 5 Brazil 36824580 697074
## 6 Japan 32588442 68399
Si graficamos el total de casos de los primeros 20 paises implementando la funcion plot() podemos notar que estos van de mayor a menor como se muestra a continuacion:
plot(datafr$Total_casos[1:20], pch = 19, xaxt = "n", xlab = "Paises",
ylab = "Total de casos")
axis(1, at = seq(round(1), round(20), by = 1),
labels = c(datafr$casos.Country[1:20]), las = 3)
pch = 19 nos indica el tipo de puntos en la grafica
xlab = "paises" indica el nombre para el eje x
ylab = "Total de casos" indica el nombre del eje y
La funcion axis() se implementa para dar los titulos del eje x extraidos del mismo dataframe
Ahora graficamos el total de muertes de los primeros 20 paises y podemos notar que no son proporcionalmente directos con el numero de casos.
plot(datafr$Total_muertes[1:20], pch = 19, xaxt = "n", xlab = "Paises",
ylab = "Total de muertes")
axis(1, at = seq(round(1), round(20), by = 1),
labels = c(datafr$casos.Country[1:20]), las = 3)
Decimos que no son directamente proporcionales ya que si fuera asi a menor numero de casos tendria que ser tambien menor el numero de muertes, pero este no es el caso, por ejemplo Brasil tuvo mas muertes que India aun teniendo menor numero de casos que este pais.
Esto se pudiera explicar con otras variables por ejemplo datos sobre la vacunacion respectivamente de cada pais.