La siguiente actividad es para repasar el manejo de bases de datos con data.table. También se presentan algunas funciones nuevas que no hemos visto en clases. Recuerden que para buscar más información sobre una función, deben escribir ?función en la consola. Ahí podrán leer un poco más de cada función y entender qué es lo que hace y para qué sirve.

Las respuestas de esta tarea estarán disponibles así como también el archivo que incluye solo las preguntas. Esto es para que puedan apoyarse y no les cueste tanto avanzar. La idea es que primero intenten buscar la solución por su cuenta, antes de mirar la respuesta. Recuerden que al investigar y encontrar respuestas van a ir aprendiendo mucho, mucho más.

Recuerden que cualquier duda me pueden escribir un correo. Mucho éxito!

1. Cargue los paquetes necesarios para abrir la base Covid-19 y trabajar las bases de datos con DT. También elimine lo que haya en el environment.

2. Cree un objeto llamado “path” que contenga en un string (caracteres) el directorio en el que desea trabajar (el directorio en el que se encuentra la base de datos). Recuerde que la sintaxis correcta es “C:/Users/Carpeta/etc”. Posteriormente, establezca este directorio como el working directory de R. (Recuerde que esta es una manera alternativa a la de abrir un proyecto)

3. Cargue la base de datos en R creando un objeto “covid19” en formato data.table. Recuerde que si carga la base de datos con una función distinta de fread debe chequear la clase del objeto creado, y transformarlo a formatodata.table

4. Reemplace el objeto “covid19”, para que contenga solo las siguientes variables: “date”,“state”,“positiveIncrease”.

5. Convierta el objeto “covid19” en una matriz en formato “wide”, donde cada fila represente un estado, cada columna represente una fecha, y cada celda represente el número de contagiados registrados en cada estado y fecha correspondiente. Pista: utilice la función dcast.

6. Cree un objeto llamado “insular” que contenga a los estados de Samoa Americana (AS), Islas de Mariana del Norte (MP), Puerto Rico (PR), Islas Virgen (VI) y Guam (GU). Posteriormente, utilice este objeto para eliminar los estados insulares de la base de dato

7. Reemplace los valores “NA” por 0.

8. Cree una variable que se llame Total_State, que corresponda al total de enfermos de cada Estado. Pista: Utilice la función rowSums para sumar filas y .SD para seleccionar columnas.

9. Cree un objeto que contenga el total de enfermos a nivel nacional.

10. Cree la variable “Porcentaje” que represente el porcentaje de enfermos por Estado con respecto al total de enfermos a nivel nacional.

10. Bonus: Redondee este porcentaje a dos dígitos

11.a) Encuentre el porcentaje más alto.

11.b) ¿Cuál es el Estado con mayor porcentaje? Utilice una función en R para encontrar este valor! (No sirve solo mirar la tabla).

12. Genere la variable “Zona”, que clasifique a los estados de la siguiente forma: - Costa Oeste: CA, OR, WA, AK, AZ y NV - Costa Este: MA, CT, NY, NJ, MD, VA, NC, SC, GA, FL - Intermedio: Todo lo demás

13. Cree un objeto que se llame “promzona” que nos entregue el promedio de enfermos por Zona. ¿Qué zona tiene más contagiados en promedio?

14. Cargue la base de datos de CA y de NY. Cada base corresponde a un Estado diferente. “CA” corresponde al Estado de California y “NY” al Estado de New York.

15. Para ambos estados, genere la variable “Total_Acumulado” que muestre el Total Acumulado de enfermos en ese Estado. Trabaje cada base por separado. Pista: Utilice la función cumsum.

16. Cree una variable llamada Crecimiento, que calcule el crecimiento porcentual que ha tenido cada estado en la cantidad de enfermos. Trabaje cada base por separado. Pista: Utilice la función shift para realizar el cálculo.