La siguiente tarea es una adaptación de la tarea original planteada adaptada al entorno actual (Posit Cloud y R). Mantener la esencia del proyecto —el análisis, la comunicación y la defensa— es lo más importante.
A continuación se presenta la tarea completamente replanteada para el ecosistema de R, R Markdown y RPubs, conservando la estructura, el guion, la rúbrica y las ideas anteriores, e incorporando alguna flexibilidad en el desarrollo de la tarea.
Las situaciones y datasets presentados a continuación son sugerencias para guiar su proyecto. Si algún grupo tiene una idea alternativa, conoce un dataset más afín a sus intereses o ya está trabajando con datos en un grupo de investigación, tienen total libertad para proponer su propio proyecto. Lo esencial es cumplir con los objetivos de análisis y comunicación. Si deciden tomar un camino diferente, pueden usar mi ayuda (Gemini) para adaptar las guías y los prompts a su nuevo contexto.
El objetivo es que demuestren su competencia en la manipulación,
descripción y visualización de datos usando R y el ecosistema
tidyverse
. Aprenderán a comunicar sus hallazgos de
forma profesional generando un informe reproducible con R
Markdown y publicándolo en la web a través de
RPubs.
(Esta sección permanece igual, ya que los datasets son archivos planos (CSV) compatibles tanto con Python como con R).
Para Ingeniería Agrícola 🌱:
Para Ingeniería Agroindustrial 🏭:
Para Ingeniería Civil 🏗️:
El objetivo sigue siendo usar la IA como un copiloto inteligente para el ecosistema de R.
Fase 1: Entendimiento del Problema y los Datos en R
"Actúa como un analista de datos experto en R. Mi grupo de Ingeniería [Agrícola/Agroindustrial/Civil] está trabajando con un dataset sobre [rendimiento de cultivos/calidad del café/resistencia del concreto]. ¿Cuáles son las 5 preguntas más importantes que podríamos responder con un análisis exploratorio de datos usando R y Tidyverse?"
"Estoy usando R y la librería 'readr'. Dame el código para cargar mi dataset 'datos.csv' en un dataframe, y luego mostrar un resumen estadístico con summary() y la estructura de los datos con glimpse(). Explícame qué debo buscar en la salida de cada comando."
Fase 2: Limpieza y Manipulación de Datos con
dplyr
"Mi dataframe en R tiene valores NA. ¿Cómo puedo contar cuántos NAs hay en cada columna? Dame el código para hacerlo y luego para crear un nuevo dataframe eliminando todas las filas con algún valor NA usando na.omit()."
"Tengo una columna 'fecha' como texto en mi dataframe de R. Usando la librería 'lubridate', ¿cómo la convierto a un formato de fecha? Luego, ¿cómo puedo crear nuevas columnas para el año y el mes usando las funciones de 'lubridate'?"
Fase 3: Visualización de Datos con
ggplot2
"Quiero entender la distribución de la variable '[nombre_variable]'. Dame el código en R para generar un histograma y un boxplot usando ggplot2. Añade comentarios explicando cómo personalizar los títulos y los ejes con labs()."
"Necesito visualizar la relación entre las variables '[variable_X]' y '[variable_Y]'. Proporcióname el código en R para crear un gráfico de dispersión con ggplot2 y geom_point(). Quiero que también muestre una línea de tendencia suave usando geom_smooth()."
"Dame el código en R para crear una matriz de correlación y visualizarla como un mapa de calor (heatmap). Sugiere una librería como 'ggcorrplot' o 'pheatmap' y explícame cómo interpretar el gráfico."
Fase 4: Creación del Informe Reproducible
"Estoy trabajando en Posit Cloud. Dame una plantilla básica de un archivo R Markdown (.Rmd) que incluya un título, autor, la configuración inicial (setup chunk) y un par de chunks de código para texto y para ejecutar código de R."
"En R Markdown, ¿cómo puedo hacer que un chunk de código se ejecute pero no muestre el código en el informe final? Explícame la opción de chunk 'echo=FALSE'."
"Ya generé (Knit) mi informe de R Markdown a HTML en Posit Cloud. Ahora, explícame paso a paso cómo puedo publicarlo en RPubs directamente desde Posit Cloud."
El guion se mantiene en su estructura, pero se adapta la terminología a las nuevas herramientas.
(Min 0-1) Introducción y Presentación del Problema:
(Min 1-3) Recorrido del Informe en RPubs:
(Min 3-5) Proceso y Uso del Chatbot:
ggplot2
, que luego
personalizamos con títulos y colores.”aes()
y
facet_wrap()
. Este enfoque nos ayudó a aprender
ggplot2
más rápido.”(Min 5-6) Conclusiones y Hallazgos:
(Min 6-7) Cierre y Preguntas:
Objetivo: Evaluar la capacidad para explorar, analizar y visualizar un conjunto de datos, comunicando los hallazgos a través de un informe reproducible en R Markdown publicado en RPubs.
Criterio de Evaluación | Sobresaliente (9.0 - 10.0) | Notable (7.5 - 8.9) | Aprobado (6.0 - 7.4) | Insuficiente (< 6.0) | Ponderación |
---|---|---|---|---|---|
1. Informe R Markdown y Publicación 📄 | El informe es profesional, bien estructurado y se publica sin errores en RPubs. El código es reproducible y el documento es fácil de leer y navegar. | El informe se publica correctamente en RPubs y cumple con todos los requisitos. La estructura es buena, aunque podría mejorar en claridad o presentación. | El informe se publica, pero tiene problemas menores de formato o estructura. Cumple con los requisitos mínimos de contenido. | El informe no se publica, contiene errores que impiden su generación (Knit), o no cumple con la estructura básica solicitada. | 30% |
2. Análisis de Datos (Calidad del EDA) 📊 | El análisis es profundo. [cite_start]Presenta estadísticas relevantes y las conclusiones demuestran una clara comprensión de los datos y sus implicaciones[cite: 97, 100]. | El análisis es correcto. [cite_start]Se presentan las estadísticas solicitadas y las conclusiones son pertinentes[cite: 97, 100]. | El análisis es superficial. [cite_start]Las estadísticas son correctas, pero las conclusiones son muy básicas[cite: 97, 100]. | [cite_start]El análisis es incorrecto o está incompleto[cite: 97, 100]. | 25% |
3. Visualización de Datos (Claridad y Pertinencia) 📈 | Las 3+ visualizaciones son efectivas y estéticamente
cuidadas. [cite_start]Los gráficos de ggplot2 son los más
adecuados para las variables analizadas[cite: 98, 99]. |
Se presentan 3 visualizaciones funcionales. [cite_start]Los gráficos son adecuados, aunque podrían mejorar en etiquetas o diseño[cite: 98, 99]. | [cite_start]Se presentan las visualizaciones requeridas, pero no son claras o el tipo de gráfico no es el más adecuado[cite: 98, 99]. | [cite_start]Las visualizaciones son inexistentes, no funcionan o son inadecuadas[cite: 98, 99]. | 20% |
4. Calidad del Código en R (Buenas Prácticas) 💻 | El código en R (dentro de los chunks) es limpio,
eficiente, sigue el estilo tidyverse y está bien
comentado. |
El código es funcional y legible. Los chunks están organizados, aunque los comentarios podrían ser más detallados. | El código funciona, pero es desorganizado, difícil de leer o carece de comentarios. | El código tiene errores graves o no es reproducible, impidiendo la evaluación. | 10% |
5. Sustentación en Video (Comunicación y Uso de IA) 📹 | La presentación es clara y profesional. Explican de forma excelente cómo usaron la IA como “copiloto” en R, mostrando prompts y cómo validaron las respuestas. | La presentación es clara y cumple los objetivos. Describen el uso de la IA de forma correcta, aunque podrían profundizar más en el aspecto crítico. | La presentación es confusa. Mencionan el uso de la IA de forma superficial, sin demostrar un entendimiento del proceso. | No se entrega el video, es incomprensible, o se evidencia una copia pasiva del código generado. | 15% |