La siguiente tarea es una adaptación de la tarea original planteada adaptada al entorno actual (Posit Cloud y R). Mantener la esencia del proyecto —el análisis, la comunicación y la defensa— es lo más importante.

A continuación se presenta la tarea completamente replanteada para el ecosistema de R, R Markdown y RPubs, conservando la estructura, el guion, la rúbrica y las ideas anteriores, e incorporando alguna flexibilidad en el desarrollo de la tarea.


Tarea 1: Informe de Análisis Exploratorio de Datos con R (50%)

Nota Importante para los Estudiantes

Las situaciones y datasets presentados a continuación son sugerencias para guiar su proyecto. Si algún grupo tiene una idea alternativa, conoce un dataset más afín a sus intereses o ya está trabajando con datos en un grupo de investigación, tienen total libertad para proponer su propio proyecto. Lo esencial es cumplir con los objetivos de análisis y comunicación. Si deciden tomar un camino diferente, pueden usar mi ayuda (Gemini) para adaptar las guías y los prompts a su nuevo contexto.

Objetivo de la Tarea

El objetivo es que demuestren su competencia en la manipulación, descripción y visualización de datos usando R y el ecosistema tidyverse. Aprenderán a comunicar sus hallazgos de forma profesional generando un informe reproducible con R Markdown y publicándolo en la web a través de RPubs.


1. Situaciones y Datasets Sugeridos por Especialidad

(Esta sección permanece igual, ya que los datasets son archivos planos (CSV) compatibles tanto con Python como con R).

  • Para Ingeniería Agrícola 🌱:

    • Situación: Una cooperativa agrícola quiere entender los factores clave que afectan el rendimiento de sus cultivos para optimizar el uso de recursos.
    • Dataset Sugerido: Crop Recommendation Dataset.
    • Fuente del Dataset: Kaggle: Crop Recommendation Dataset.
    • Objetivo del Informe: Crear un informe en R Markdown que explore cómo las condiciones del suelo y el clima se relacionan con el tipo de cultivo ideal.
  • Para Ingeniería Agroindustrial 🏭:

    • Situación: Una empresa exportadora de café necesita analizar la calidad de diferentes lotes y entender qué atributos se correlacionan con las mejores puntuaciones.
    • Dataset Sugerido: Coffee Quality Data (CQI).
    • Fuente del Dataset: Kaggle: Coffee Quality Data (CQI).
    • Objetivo del Informe: Desarrollar un informe que visualice la distribución de la calidad del café por país y explore la relación entre la altitud y la puntuación final.
  • Para Ingeniería Civil 🏗️:

    • Situación: Una constructora busca optimizar sus mezclas de concreto para maximizar la resistencia a la compresión.
    • Dataset Sugerido: Concrete Compressive Strength Data Set.
    • Fuente del Dataset: UC Irvine Machine Learning Repository: Concrete Compressive Strength.
    • Objetivo del Informe: Construir un informe técnico que explore cómo la variación en la cantidad de un componente afecta la resistencia del concreto.

2. Guía de Interacción con Chatbots (Prompts para R)

El objetivo sigue siendo usar la IA como un copiloto inteligente para el ecosistema de R.

  • Fase 1: Entendimiento del Problema y los Datos en R

    • "Actúa como un analista de datos experto en R. Mi grupo de Ingeniería [Agrícola/Agroindustrial/Civil] está trabajando con un dataset sobre [rendimiento de cultivos/calidad del café/resistencia del concreto]. ¿Cuáles son las 5 preguntas más importantes que podríamos responder con un análisis exploratorio de datos usando R y Tidyverse?"
    • "Estoy usando R y la librería 'readr'. Dame el código para cargar mi dataset 'datos.csv' en un dataframe, y luego mostrar un resumen estadístico con summary() y la estructura de los datos con glimpse(). Explícame qué debo buscar en la salida de cada comando."
  • Fase 2: Limpieza y Manipulación de Datos con dplyr

    • "Mi dataframe en R tiene valores NA. ¿Cómo puedo contar cuántos NAs hay en cada columna? Dame el código para hacerlo y luego para crear un nuevo dataframe eliminando todas las filas con algún valor NA usando na.omit()."
    • "Tengo una columna 'fecha' como texto en mi dataframe de R. Usando la librería 'lubridate', ¿cómo la convierto a un formato de fecha? Luego, ¿cómo puedo crear nuevas columnas para el año y el mes usando las funciones de 'lubridate'?"
  • Fase 3: Visualización de Datos con ggplot2

    • "Quiero entender la distribución de la variable '[nombre_variable]'. Dame el código en R para generar un histograma y un boxplot usando ggplot2. Añade comentarios explicando cómo personalizar los títulos y los ejes con labs()."
    • "Necesito visualizar la relación entre las variables '[variable_X]' y '[variable_Y]'. Proporcióname el código en R para crear un gráfico de dispersión con ggplot2 y geom_point(). Quiero que también muestre una línea de tendencia suave usando geom_smooth()."
    • "Dame el código en R para crear una matriz de correlación y visualizarla como un mapa de calor (heatmap). Sugiere una librería como 'ggcorrplot' o 'pheatmap' y explícame cómo interpretar el gráfico."
  • Fase 4: Creación del Informe Reproducible

    • "Estoy trabajando en Posit Cloud. Dame una plantilla básica de un archivo R Markdown (.Rmd) que incluya un título, autor, la configuración inicial (setup chunk) y un par de chunks de código para texto y para ejecutar código de R."
    • "En R Markdown, ¿cómo puedo hacer que un chunk de código se ejecute pero no muestre el código en el informe final? Explícame la opción de chunk 'echo=FALSE'."
    • "Ya generé (Knit) mi informe de R Markdown a HTML en Posit Cloud. Ahora, explícame paso a paso cómo puedo publicarlo en RPubs directamente desde Posit Cloud."

3. Guion Sugerido para el Video de Sustentación (5-7 minutos)

El guion se mantiene en su estructura, pero se adapta la terminología a las nuevas herramientas.

  • (Min 0-1) Introducción y Presentación del Problema:

    • Cada integrante se presenta.
    • Líder del Grupo: “Somos el equipo [Nombre] y en esta presentación mostraremos nuestro informe de análisis exploratorio para [Ingeniería…], desarrollado completamente en R.”
    • Integrante 2: “El problema que abordamos es [describir la situación elegida]. Nuestro objetivo era crear un informe reproducible que permitiera a un profesional explorar visualmente los datos.”
  • (Min 1-3) Recorrido del Informe en RPubs:

    • Integrante 3 (compartiendo pantalla): “Nuestro informe final está publicado en RPubs, en este enlace. Comienza con una descripción del dataset y un resumen estadístico.”
    • Líder del Grupo: “Una de las secciones clave es esta visualización. Como pueden ver, este histograma muestra la distribución de [variable A]. Esto es útil para…”
    • Integrante 2: “También implementamos este gráfico de dispersión que permite cruzar [variable B] con [variable C], ayudando a identificar posibles correlaciones, como la que observamos aquí.”
  • (Min 3-5) Proceso y Uso del Chatbot:

    • Integrante 3: “Para desarrollar este informe, utilizamos R Markdown en Posit Cloud, lo que garantiza la reproducibilidad de nuestro análisis.”
    • Líder del Grupo: “Una parte fundamental de nuestro proceso fue usar un chatbot de IA como asistente en R. Por ejemplo, para crear el gráfico de dispersión, usamos el siguiente prompt: [Mostrar el prompt]. La IA nos dio el código base de ggplot2, que luego personalizamos con títulos y colores.”
    • Integrante 2: “No siempre el código funcionaba a la primera. Tuvimos que depurarlo y pedirle a la IA que nos explicara conceptos, como la diferencia entre aes() y facet_wrap(). Este enfoque nos ayudó a aprender ggplot2 más rápido.”
  • (Min 5-6) Conclusiones y Hallazgos:

    • Integrante 3: “Nuestro principal hallazgo del análisis exploratorio es que [mencionar un patrón o correlación interesante que encontraron].”
    • Líder del Grupo: “Concluimos que el análisis exploratorio es un primer paso indispensable, y R Markdown es una herramienta excelente para presentar los resultados de forma clara y profesional.”
  • (Min 6-7) Cierre y Preguntas:

    • Todos: Agradecen y abren el espacio para preguntas.

4. Rúbrica de Evaluación: Informe de Análisis Exploratorio con R

Objetivo: Evaluar la capacidad para explorar, analizar y visualizar un conjunto de datos, comunicando los hallazgos a través de un informe reproducible en R Markdown publicado en RPubs.

Criterio de Evaluación Sobresaliente (9.0 - 10.0) Notable (7.5 - 8.9) Aprobado (6.0 - 7.4) Insuficiente (< 6.0) Ponderación
1. Informe R Markdown y Publicación 📄 El informe es profesional, bien estructurado y se publica sin errores en RPubs. El código es reproducible y el documento es fácil de leer y navegar. El informe se publica correctamente en RPubs y cumple con todos los requisitos. La estructura es buena, aunque podría mejorar en claridad o presentación. El informe se publica, pero tiene problemas menores de formato o estructura. Cumple con los requisitos mínimos de contenido. El informe no se publica, contiene errores que impiden su generación (Knit), o no cumple con la estructura básica solicitada. 30%
2. Análisis de Datos (Calidad del EDA) 📊 El análisis es profundo. [cite_start]Presenta estadísticas relevantes y las conclusiones demuestran una clara comprensión de los datos y sus implicaciones[cite: 97, 100]. El análisis es correcto. [cite_start]Se presentan las estadísticas solicitadas y las conclusiones son pertinentes[cite: 97, 100]. El análisis es superficial. [cite_start]Las estadísticas son correctas, pero las conclusiones son muy básicas[cite: 97, 100]. [cite_start]El análisis es incorrecto o está incompleto[cite: 97, 100]. 25%
3. Visualización de Datos (Claridad y Pertinencia) 📈 Las 3+ visualizaciones son efectivas y estéticamente cuidadas. [cite_start]Los gráficos de ggplot2 son los más adecuados para las variables analizadas[cite: 98, 99]. Se presentan 3 visualizaciones funcionales. [cite_start]Los gráficos son adecuados, aunque podrían mejorar en etiquetas o diseño[cite: 98, 99]. [cite_start]Se presentan las visualizaciones requeridas, pero no son claras o el tipo de gráfico no es el más adecuado[cite: 98, 99]. [cite_start]Las visualizaciones son inexistentes, no funcionan o son inadecuadas[cite: 98, 99]. 20%
4. Calidad del Código en R (Buenas Prácticas) 💻 El código en R (dentro de los chunks) es limpio, eficiente, sigue el estilo tidyverse y está bien comentado. El código es funcional y legible. Los chunks están organizados, aunque los comentarios podrían ser más detallados. El código funciona, pero es desorganizado, difícil de leer o carece de comentarios. El código tiene errores graves o no es reproducible, impidiendo la evaluación. 10%
5. Sustentación en Video (Comunicación y Uso de IA) 📹 La presentación es clara y profesional. Explican de forma excelente cómo usaron la IA como “copiloto” en R, mostrando prompts y cómo validaron las respuestas. La presentación es clara y cumple los objetivos. Describen el uso de la IA de forma correcta, aunque podrían profundizar más en el aspecto crítico. La presentación es confusa. Mencionan el uso de la IA de forma superficial, sin demostrar un entendimiento del proceso. No se entrega el video, es incomprensible, o se evidencia una copia pasiva del código generado. 15%