La siguiente practica corresponde al analisis de 2 diferentes Dataset que estan relacionados con el covid, el primero de ellos corresponde a los casos positivos notificados por cada pais y diferentes territorios y el segundo corresponde a las muertes notificadas hasta Diciembre de 2022.

Importacion de dataset

En primer lugar importamos cada uno de los dataset como ya lo hemos hecho en anteriores practicas:

casos <- read.csv("c:/R/total_cases.csv", header = TRUE, sep=",")
head(casos)
##   Serial.Number Country Total.Cases
## 1             1     USA 104,196,861
## 2             2   India  44,682,784
## 3             3  France  39,524,311
## 4             4 Germany  37,779,833
## 5             5  Brazil  36,824,580
## 6             6   Japan  32,588,442
muertes <- read.csv("c:/R/total_deaths.csv", header = TRUE, sep=",")
head(muertes)
##   Serial.Number Country Total.Deaths
## 1             1     USA    1,132,935
## 2             2   India      530,740
## 3             3  France      164,233
## 4             4 Germany      165,711
## 5             5  Brazil      697,074
## 6             6   Japan       68,399

Ya teniendo los datos cargados podemos sumar los casos y muertes que hubo en cada pais y territorio para obtener la cantidad total de casos y muertes en el mundo por covid implementando la funcion sum()

casos$Total.Cases <- as.numeric(gsub(",", "", casos$Total.Cases))
Total_casos <- casos$Total.Cases
suma = sum(Total_casos)
suma
## [1] 675319264
muertes$Total.Deaths <- as.numeric(gsub(",", "", muertes$Total.Deaths))
Total_muertes <- muertes$Total.Deaths
suma2 = sum(Total_muertes)
suma2
## [1] 6763007

Ahora podemos construir un dataframe a partir de estos dos dataset utilizando la funcion data.frame()

datafr = data.frame(casos$Country,Total_casos, Total_muertes)
head(datafr)
##   casos.Country Total_casos Total_muertes
## 1           USA   104196861       1132935
## 2         India    44682784        530740
## 3        France    39524311        164233
## 4       Germany    37779833        165711
## 5        Brazil    36824580        697074
## 6         Japan    32588442         68399

Si graficamos el total de casos de los primeros 20 paises implementando la funcion plot() podemos notar que estos van de mayor a menor como se muestra a continuacion:

plot(datafr$Total_casos[1:20], pch = 19, xaxt = "n", xlab = "Paises",
     ylab = "Total de casos")
axis(1, at = seq(round(1), round(20), by = 1),
     labels = c(datafr$casos.Country[1:20]), las = 3)

pch = 19 nos indica el tipo de puntos en la grafica
xlab = "paises" indica el nombre para el eje x
ylab = "Total de casos" indica el nombre del eje y
La funcion axis() se implementa para dar los titulos del eje x extraidos del mismo dataframe

Ahora graficamos el total de muertes de los primeros 20 paises y podemos notar que no son proporcionalmente directos con el numero de casos.

plot(datafr$Total_muertes[1:20], pch = 19, xaxt = "n", xlab = "Paises",
     ylab = "Total de muertes")
axis(1, at = seq(round(1), round(20), by = 1),
     labels = c(datafr$casos.Country[1:20]), las = 3)

Decimos que no son directamente proporcionales ya que si fuera asi a menor numero de casos tendria que ser tambien menor el numero de muertes, pero este no es el caso, por ejemplo Brasil tuvo mas muertes que India aun teniendo menor numero de casos que este pais.

Esto se pudiera explicar con otras variables por ejemplo datos sobre la vacunacion respectivamente de cada pais.