Taller 1 - Analytics I

Author

Julieth Zorro Melo

1 🎯Objetivo

Este taller es el primero de la asignatura Analytics I, tiene como objetivo que los estudiantes práctiquen sus habilidades fundamentales en el uso de R y en el analisis de bases de datos.

2 📌Instrucciones

  • El informe final debe ser un documento PDF o Word con los resultados, los resultados que considere necesarios, el Script usado y la terminal de R.

    El documento debe incluir pantallazos del código utilizado y los resultados obtenidos.

  • Incluir capturas de pantalla de: a) la instalación de R y RStudio, capturas de pantalla de la creación de proyectos y scripts en R.

  • El taller tambien debe incluir los fragmentos de código usados, y el análisis de estos.

  • La entrega del taller se realizara por medio de los entornos virtuales, no se recibirá ni calificara si se entrega por otro medio.

  • Es un taller individual.

  • Fecha de presentación: viernes, 14 de febrero 11:59 p.m. en las aulas virtuales

  • Recuerde que existe este tutorial que puede ayudarlo. https://rpubs.com/Julieth_ZorroM/Primeros_pasos_R

3 🔁Instalación de R y RStudio

Describa como realizo la instalación de R y RStudio. Ejemplo:

  • ¿En que página web lo descargo?

  • ¿Qué versión descargo?

  • ¿En que ruta lo instalo?

  • ¡Cuánto tiempo le tomo la instalación?

  • Si no es posible instalar R y/o RStudio, ¿cuál alternativa usó?

4 📁Creación de un proyecto

  1. Cree un proyecto que se llame “Taller 1 Métodos Cuantitativos”
  2. En este cree diferentes carpetas 📂
    1. Data

    2. Script

    3. Terminal

5 📝Creación de un Script

  1. Cree el Scritp “Solución Taller 1” y guardelo en la 📂 correspondiente
  2. Marque su Script con sus datos (nombre, correo electrónico) 1
  3. Personalice su RStudio cómo más le gusta
  4. Responda:
    1. ¿Cuáles considera son las ventajas de usar proyectos?
    2. ¿Cuales considera son las desventajas de usar proyectos?
    3. Se siente cómo usando proyectos, o prefiere usar solo los Scripts
    4. ¿Para qué se usan los comentarios en un Script?

6 👩🏻‍💻Packages

a. Responda:

  1. En sus propias palabras, ¿qué es un proyecto en R?

  2. ¿Cuáles son las formas para instalar un paquete en R?

  3. Estas afirmaciones son verdaderas o falsas, argumente su respuesta:

    1. Siempre que se abra RStudio debo cargar los paquetes con los que voy a trabajar

    2. Solo basta con instalar los paquetes una vez

    3. Es importante comentar el código en R para su comprensión y mantenimiento

  4. Instale y cargue los siguientes paquetes, y describa el mensaje que aparece en cada uno

    1. dplyr

    2. car

    3. carData

    4. ggplot2

    5. readr

    6. NuGet

  5. Desintale el paquete “ggplot2”

  6. Responda:

    1. ¿Cuál es la forma qué más le gusta para instalar paquetes en R? ¿Por qué?

    2. ¿Cuál es la forma qué más le gusta para cargar paquetes en R? ¿Por qué?

    3. ¿Cuál es la forma qué más le gusta para desinstalar paquetes en R? ¿Por qué?

7 💻Comandos comunes

⌚Hora

  1. Imprima la fecha y hora del sistema cuándo realice este punto

❓Ayuda

  1. Pida ayuda sobre el paquete “carData”, ¿cómo lo hizo? ¿qué encontro?

  2. Ejecute los siguientes códigos, traduscalos y analice su resultado

??carData::Florida
?carData::Florida

8 🍎Asignación de variables I

  1. Cree la variable “manzanas” y asignele el valor 5

    manzanas <- 5
  2. ¿Qué hacen los siguientes comandos?

    print(manzanas)
    manzanas
  3. Cree la variable “naranjas” y asignele el valor 6

  4. Sume las variables “manzanas” y “naranjas

  5. Cree la variable “fruta” que suma “manzanas” y “naranjas

  6. Imprima el resultado de la variable “fruta

9 🆕Asignación de variables II

  1. Tiene las siguientes variables

    # Change my_numeric to be 42
    numero <- 10
    
    # Change my_character to be "universe"
    caracter <- "hola"
    
    # Change my_logical to be FALSE
    logica <- T
  2. Cambie el valor que toma la variable “numero” a 40 e imprimala

  3. Cambie el valor que toma la variable “caracter” a “marte” e imprimala

  4. Cambie el valor que toma la variable “logica” a FALSE e imprimala

  5. Describa el paso a paso

  6. Con los siguientes comandos, ¿que información esta obteniendo como resultado?, ¿está información es congruente con los nombres de las variables?

    class()
    str()

    Ejercicio 1 y 2: Tomados de DataCamp curso Introduction to R, y ajustado por la docente

10 🕵️‍♀️Misión: ¡Convertirte en el maestro de los juegos!

Después de una intensa semana de competencias, decides que es hora de llevar un registro detallado de tu desempeño en los juegos. Pero, como todo buen científico de datos en entrenamiento, no basta con ganar o perder… ¡hay que analizar!

Tu objetivo es usar R para responder las preguntas importantes de esta semana:

  • ¿Cuántos puntos lograste acumular?

  • ¿En qué juegos ganaste y en cuáles fuiste derrotado?

  • ¿Merece la pena seguir jugando ruleta o mejor dedicarte a scrabble?

10.1 🎲Crear vectores

Primero, empieza por registrar la información básica:

  1. juegos_vector: Un vector con el nombre de los juegos que jugaste esta semana.

    • Juegos: "ajedrez", "póker", "dardos", "ruleta", "scrabble"
  2. puntos_vector: Un vector numérico con los puntos que obtuviste en cada juego.

    • Puntos: 100, 140, 75, 60, 120
  3. ganancia_vector: Un vector lógico que indica si ganaste (TRUE) o perdiste (FALSE) en cada juego.

    • Ganancias: TRUE, TRUE, FALSE, FALSE, TRUE

      10.2 💡Asignar nombres a los puntos

      Para no perder la pista de qué puntaje corresponde a cada juego, asigna los nombres de los juegos al vector puntos_vector.

      10.3 🔍Consultar los datos

    1. ¿Cuántos puntos obtuviste en el segundo juego?

    2. ¿Cuántos puntos lograste en "ruleta"?

      10.4 🏆Ganaste❔

      Responde:

      1. ¿En qué juegos ganaste? Usa el vector ganancia_vector para filtrar los juegos donde el resultado fue TRUE.

        1. Calcula el puntaje total de todos los juegos combinados. ¿Eres el campeón de la semana o necesitas entrenar más?

        10.5 🧠Operaciones lógicas

        Ahora, realiza operaciones lógicas con los vectores para responder estas preguntas:

        1. ¿Hay algún juego en el que hayas ganado y obtenido más de 100 puntos?
          Usa el operador lógico & (AND) para combinar las condiciones de puntaje mayor a 100 y ganancia.

        2. ¿Perdiste en algún juego con menos de 80 puntos?
          Usa el operador lógico | (OR) para combinar las condiciones de derrota y puntaje menor a 80.

        3. ¿Todos los juegos donde obtuviste más de 90 puntos fueron victorias?
          Usa la función all() para verificar esta condición.

11 📊Cargue de bases de datos

  1. Descargue las bases de datos que se encuentran en la siguiente ruta

Esta base de datos corresponde a las estadísticas de nacimientos. “Estas se producen a partir de la información proveniente de los certificados de nacido vivo, la cual se acopia y consolida por las diferentes subdivisiones geográficas (regiones, departamentos y municipios) y por los diferentes grupos de población (etnias) en el territorio nacional. Las bases de datos permiten obtener información por área, sexo, según departamento y municipio de ocurrencia, departamento y municipio de residencia de la madre; esta información se constituye en fuente básica para el cálculo de indicadores como tasa bruta de natalidad, tasas de fecundidad y tasa de mortalidad infantil, así como diseñar planes en salud y política social. Cita: https://microdatos.dane.gov.co/index.php/catalog/843/data-dictionary

  1. ¿Cuáles son los formatos de estas bases de datos?

  2. ¿Cuál base de datos pesa menos?

  3. ¿Cargue las tres bases de datos con el comando correspondiente para cada una?2

    1. ¿Compare su tamaño en R?

    2. ¿Qué comando(s) utilizaría para obtener las dimensiones de cada bases de datos?

    3. ¿Tienen las mismas dimensiones?

  4. Escoja una base de datos y describa cada una de sus variables

  5. Cree una base de datos (data.frame) que contenga el head de la base de datos con 100 registros, explique el código

  6. Para obtener una visión general de la estructura de los datos y el porcentaje de datos perdidos:

    • Abstract(df): Proporciona un resumen con el porcentaje de datos perdidos y otras estadísticas descriptivas.

    • str(df): Muestra la estructura interna del dataframe df, incluyendo el tipo de cada columna y una muestra de los datos.

    Use estos comandos para describir los datos que tienen la base de datos. ¿Cuál prefiere interpretar y por qué? Interprete los resultados que le llama la atención?3

  7. Para obtener un resumen de estadísticas descriptivas y frecuencias se pueden usar las siguientes funciones:

    1. summary(df): Proporciona un resumen estadístico básico de cada columna del dataframe.

    2. Desc(df): Ofrece un resumen detallado y gráficos para cada variable en el dataframe.

    3. dfSummary(df): Resumen detallado con estadísticas y gráficos usando el paquete summarytools

    Utilice cada una apropiadamente y presente los resultados. ¿Qué destaca de cada una de estas funciones? ¿Cuál(es) prefiere usar? ¿Cuáles resultados le parecen importantes?
    Si tuviera que dar cinco conclusiones acerca de esta base de datos ¿cuales serían?

  8. Compare algunos de estos resultados por los presentados por el DANE en el anexo de defunciones no fetales 2023 (Página web DANE)

12 📝Otras preguntas

🕶 Lea el siguiente blog

https://www.r-bloggers.com/2014/07/consistent-naming-conventions-in-r/

  • ¿Por qué es importante ser consistente con las convenciones de nombrado?

  • ¿Cuál prefiere para trabajar en sus proyectos y por qué?

  • ¿Cuál nunca trabajaría y por qué?

  • Defina que cada una de las convenciones de nombrado y case sensitivity

👨🏻‍💻 Creación de variables

  • Cree tres variables en R utilizando estas convenciones:

    • Una usando PascalCase para almacenar el número 100.

    • Otra usando camelCase para almacenar el texto "Hola Mundo".

    • Otra usando snake_case para almacenar el valor lógico TRUE.

  • Acceda a las tres variables y verifique si cambiar el uso de mayúsculas o minúsculas en el nombre causa un error.

🌟 Pregunta: ¿Qué son R y RStudio?

  1. ¿Qué es R?

    • Explica para qué sirve R y qué tipo de cosas se pueden hacer con él.
  2. ¿Qué es RStudio?

    • ¿Cómo ayuda RStudio a trabajar con R?
  3. Menciona 3 características clave de R y 3 de RStudio.

    • Por ejemplo, en R puedes hacer análisis de datos y gráficos estadísticos. ¿Y qué hace especial a RStudio?
  4. Reflexión final: ¿Por qué crees que es útil aprender a usar ambos?

🔍 Autoevaluación: ¿Qué aprendí en este taller?

  1. ¿Entendí todos los conceptos clave?

    • Enumera las ideas principales que aprendiste (vectores, operaciones lógicas, case sensitivity, etc.).

    • ¿Cuál fue la parte que te resultó más fácil? ¿Y cuál la más desafiante?

  2. ¿Me gustó trabajar con R?

    • ¿Qué te pareció trabajar con R y RStudio?

    • ¿Crees que te gustaría seguir aprendiendo más sobre análisis de datos usando R?

  3. ¿Voy a aplicar lo que aprendí?

    • ¿Cómo podrías utilizar R en otros proyectos, clases o en tu carrera profesional?

    • ¿Qué tema te gustaría explorar la próxima vez en R?

Footnotes

  1. Pista: Use comentarios↩︎

  2. Recuerde: a cada una le corresponde un comando diferente.
    Cargue cada base de datos con un nombre diferente↩︎

  3. Recuerde usar las funciones para cambiar el formato de los datos as.numeric, as.factor, as.date, as.character antes de describir la base de datos y sus elementos con el fin de tener información real y acorde.↩︎