Taller 1 - Analytics I
1 🎯Objetivo
Este taller es el primero de la asignatura Analytics I, tiene como objetivo que los estudiantes práctiquen sus habilidades fundamentales en el uso de R y en el analisis de bases de datos.
2 📌Instrucciones
El informe final debe ser un documento PDF o Word con los resultados, los resultados que considere necesarios, el Script usado y la terminal de R.
El documento debe incluir pantallazos del código utilizado y los resultados obtenidos.
Incluir capturas de pantalla de: a) la instalación de R y RStudio, capturas de pantalla de la creación de proyectos y scripts en R.
El taller tambien debe incluir los fragmentos de código usados, y el análisis de estos.
La entrega del taller se realizara por medio de los entornos virtuales, no se recibirá ni calificara si se entrega por otro medio.
Es un taller individual.
Fecha de presentación: viernes, 14 de febrero 11:59 p.m. en las aulas virtuales
Recuerde que existe este tutorial que puede ayudarlo. https://rpubs.com/Julieth_ZorroM/Primeros_pasos_R
3 🔁Instalación de R y RStudio
Describa como realizo la instalación de R y RStudio. Ejemplo:
¿En que página web lo descargo?
¿Qué versión descargo?
¿En que ruta lo instalo?
¡Cuánto tiempo le tomo la instalación?
Si no es posible instalar R y/o RStudio, ¿cuál alternativa usó?
4 📁Creación de un proyecto
- Cree un proyecto que se llame “Taller 1 Métodos Cuantitativos”
- En este cree diferentes carpetas 📂
Data
Script
Terminal
5 📝Creación de un Script
- Cree el Scritp “Solución Taller 1” y guardelo en la 📂 correspondiente
- Marque su Script con sus datos (nombre, correo electrónico) 1
- Personalice su RStudio cómo más le gusta
- Responda:
- ¿Cuáles considera son las ventajas de usar proyectos?
- ¿Cuales considera son las desventajas de usar proyectos?
- Se siente cómo usando proyectos, o prefiere usar solo los Scripts
- ¿Para qué se usan los comentarios en un Script?
6 👩🏻💻Packages
a. Responda:
En sus propias palabras, ¿qué es un proyecto en R?
¿Cuáles son las formas para instalar un paquete en R?
Estas afirmaciones son verdaderas o falsas, argumente su respuesta:
Siempre que se abra RStudio debo cargar los paquetes con los que voy a trabajar
Solo basta con instalar los paquetes una vez
Es importante comentar el código en R para su comprensión y mantenimiento
Instale y cargue los siguientes paquetes, y describa el mensaje que aparece en cada uno
dplyr
car
carData
ggplot2
readr
NuGet
Desintale el paquete “ggplot2”
Responda:
¿Cuál es la forma qué más le gusta para instalar paquetes en R? ¿Por qué?
¿Cuál es la forma qué más le gusta para cargar paquetes en R? ¿Por qué?
¿Cuál es la forma qué más le gusta para desinstalar paquetes en R? ¿Por qué?
7 💻Comandos comunes
⌚Hora
- Imprima la fecha y hora del sistema cuándo realice este punto
❓Ayuda
Pida ayuda sobre el paquete “carData”, ¿cómo lo hizo? ¿qué encontro?
Ejecute los siguientes códigos, traduscalos y analice su resultado
8 🍎Asignación de variables I
Cree la variable “manzanas” y asignele el valor 5
¿Qué hacen los siguientes comandos?
Cree la variable “naranjas” y asignele el valor 6
Sume las variables “manzanas” y “naranjas”
Cree la variable “fruta” que suma “manzanas” y “naranjas”
Imprima el resultado de la variable “fruta”
9 🆕Asignación de variables II
Tiene las siguientes variables
Cambie el valor que toma la variable “numero” a 40 e imprimala
Cambie el valor que toma la variable “caracter” a “marte” e imprimala
Cambie el valor que toma la variable “logica” a FALSE e imprimala
Describa el paso a paso
Con los siguientes comandos, ¿que información esta obteniendo como resultado?, ¿está información es congruente con los nombres de las variables?
Ejercicio 1 y 2: Tomados de DataCamp curso Introduction to R, y ajustado por la docente
10 🕵️♀️Misión: ¡Convertirte en el maestro de los juegos!
Después de una intensa semana de competencias, decides que es hora de llevar un registro detallado de tu desempeño en los juegos. Pero, como todo buen científico de datos en entrenamiento, no basta con ganar o perder… ¡hay que analizar!
Tu objetivo es usar R para responder las preguntas importantes de esta semana:
¿Cuántos puntos lograste acumular?
¿En qué juegos ganaste y en cuáles fuiste derrotado?
¿Merece la pena seguir jugando ruleta o mejor dedicarte a scrabble?
10.1 🎲Crear vectores
Primero, empieza por registrar la información básica:
juegos_vector: Un vector con el nombre de los juegos que jugaste esta semana.
- Juegos:
"ajedrez"
,"póker"
,"dardos"
,"ruleta"
,"scrabble"
- Juegos:
puntos_vector: Un vector numérico con los puntos que obtuviste en cada juego.
- Puntos:
100
,140
,75
,60
,120
- Puntos:
ganancia_vector: Un vector lógico que indica si ganaste (TRUE) o perdiste (FALSE) en cada juego.
Ganancias:
TRUE
,TRUE
,FALSE
,FALSE
,TRUE
10.2 💡Asignar nombres a los puntos
Para no perder la pista de qué puntaje corresponde a cada juego, asigna los nombres de los juegos al vector
puntos_vector
.10.3 🔍Consultar los datos
¿Cuántos puntos obtuviste en el segundo juego?
¿Cuántos puntos lograste en
"ruleta"
?10.4 🏆Ganaste❔
Responde:
¿En qué juegos ganaste? Usa el vector
ganancia_vector
para filtrar los juegos donde el resultado fueTRUE
.- Calcula el puntaje total de todos los juegos combinados. ¿Eres el campeón de la semana o necesitas entrenar más?
10.5 🧠Operaciones lógicas
Ahora, realiza operaciones lógicas con los vectores para responder estas preguntas:
¿Hay algún juego en el que hayas ganado y obtenido más de 100 puntos?
Usa el operador lógico&
(AND) para combinar las condiciones de puntaje mayor a 100 y ganancia.¿Perdiste en algún juego con menos de 80 puntos?
Usa el operador lógico|
(OR) para combinar las condiciones de derrota y puntaje menor a 80.¿Todos los juegos donde obtuviste más de 90 puntos fueron victorias?
Usa la funciónall()
para verificar esta condición.
11 📊Cargue de bases de datos
- Descargue las bases de datos que se encuentran en la siguiente ruta
Esta base de datos corresponde a las estadísticas de nacimientos. “Estas se producen a partir de la información proveniente de los certificados de nacido vivo, la cual se acopia y consolida por las diferentes subdivisiones geográficas (regiones, departamentos y municipios) y por los diferentes grupos de población (etnias) en el territorio nacional. Las bases de datos permiten obtener información por área, sexo, según departamento y municipio de ocurrencia, departamento y municipio de residencia de la madre; esta información se constituye en fuente básica para el cálculo de indicadores como tasa bruta de natalidad, tasas de fecundidad y tasa de mortalidad infantil, así como diseñar planes en salud y política social. Cita: https://microdatos.dane.gov.co/index.php/catalog/843/data-dictionary
¿Cuáles son los formatos de estas bases de datos?
¿Cuál base de datos pesa menos?
¿Cargue las tres bases de datos con el comando correspondiente para cada una?2
¿Compare su tamaño en R?
¿Qué comando(s) utilizaría para obtener las dimensiones de cada bases de datos?
¿Tienen las mismas dimensiones?
Escoja una base de datos y describa cada una de sus variables
Cree una base de datos (data.frame) que contenga el head de la base de datos con 100 registros, explique el código
Para obtener una visión general de la estructura de los datos y el porcentaje de datos perdidos:
Abstract(df)
: Proporciona un resumen con el porcentaje de datos perdidos y otras estadísticas descriptivas.str(df)
: Muestra la estructura interna del dataframedf
, incluyendo el tipo de cada columna y una muestra de los datos.
Use estos comandos para describir los datos que tienen la base de datos. ¿Cuál prefiere interpretar y por qué? Interprete los resultados que le llama la atención?3
Para obtener un resumen de estadísticas descriptivas y frecuencias se pueden usar las siguientes funciones:
summary(df)
: Proporciona un resumen estadístico básico de cada columna del dataframe.Desc(df)
: Ofrece un resumen detallado y gráficos para cada variable en el dataframe.dfSummary(df)
: Resumen detallado con estadísticas y gráficos usando el paquetesummarytools
Utilice cada una apropiadamente y presente los resultados. ¿Qué destaca de cada una de estas funciones? ¿Cuál(es) prefiere usar? ¿Cuáles resultados le parecen importantes?
Si tuviera que dar cinco conclusiones acerca de esta base de datos ¿cuales serían?Compare algunos de estos resultados por los presentados por el DANE en el anexo de defunciones no fetales 2023 (Página web DANE)
12 📝Otras preguntas
🕶 Lea el siguiente blog
https://www.r-bloggers.com/2014/07/consistent-naming-conventions-in-r/
¿Por qué es importante ser consistente con las convenciones de nombrado?
¿Cuál prefiere para trabajar en sus proyectos y por qué?
¿Cuál nunca trabajaría y por qué?
Defina que cada una de las convenciones de nombrado y case sensitivity
👨🏻💻 Creación de variables
Cree tres variables en R utilizando estas convenciones:
Una usando PascalCase para almacenar el número 100.
Otra usando camelCase para almacenar el texto
"Hola Mundo"
.Otra usando snake_case para almacenar el valor lógico
TRUE
.
Acceda a las tres variables y verifique si cambiar el uso de mayúsculas o minúsculas en el nombre causa un error.
🌟 Pregunta: ¿Qué son R y RStudio?
¿Qué es R?
- Explica para qué sirve R y qué tipo de cosas se pueden hacer con él.
¿Qué es RStudio?
- ¿Cómo ayuda RStudio a trabajar con R?
Menciona 3 características clave de R y 3 de RStudio.
- Por ejemplo, en R puedes hacer análisis de datos y gráficos estadísticos. ¿Y qué hace especial a RStudio?
Reflexión final: ¿Por qué crees que es útil aprender a usar ambos?
🔍 Autoevaluación: ¿Qué aprendí en este taller?
¿Entendí todos los conceptos clave?
Enumera las ideas principales que aprendiste (vectores, operaciones lógicas, case sensitivity, etc.).
¿Cuál fue la parte que te resultó más fácil? ¿Y cuál la más desafiante?
¿Me gustó trabajar con R?
¿Qué te pareció trabajar con R y RStudio?
¿Crees que te gustaría seguir aprendiendo más sobre análisis de datos usando R?
¿Voy a aplicar lo que aprendí?
¿Cómo podrías utilizar R en otros proyectos, clases o en tu carrera profesional?
¿Qué tema te gustaría explorar la próxima vez en R?
Footnotes
Pista: Use comentarios↩︎
Recuerde: a cada una le corresponde un comando diferente.
Cargue cada base de datos con un nombre diferente↩︎Recuerde usar las funciones para cambiar el formato de los datos as.numeric, as.factor, as.date, as.character antes de describir la base de datos y sus elementos con el fin de tener información real y acorde.↩︎