Guía completa paso a paso para que elaborar desde cero, en Google Colab, el notebook que genera el archivo pydataset_modelos_lineales_completo.xlsx, utilizando prompts dirigidos a Gemini para que el modelo asista en cada fase del desarrollo.


🧭 Guía: Elaborar un Notebook desde cero con Gemini en Google Colab

Proyecto: Clasificación de datasets de pydataset para ANOVA, Regresión y ANCOVA


🎯 Objetivo general

Aprender a construir un notebook ejecutable y documentado, que:

  1. Instale y utilice el paquete pydataset.
  2. Clasifique todos los datasets según su aplicabilidad en ANOVA, Regresión y ANCOVA.
  3. Exporte los resultados a un archivo Excel.
  4. Sea escrito y comentado con la asistencia de Gemini mediante prompts bien estructurados.

🧩 Estructura sugerida del Notebook

Sección Descripción Prompt sugerido para Gemini
1️⃣ Encabezado Título, autor, objetivo y fecha Prompt: “Escribe una celda Markdown introductoria para un notebook en Google Colab titulado Clasificación de datasets de pydataset para ANOVA, Regresión y ANCOVA. Incluye mi nombre, el objetivo y la fecha actual.”
2️⃣ Objetivos y requisitos Lista de aprendizajes esperados y librerías necesarias Prompt: “Redacta en Markdown los objetivos de aprendizaje y los requisitos del entorno para este notebook.”
3️⃣ Instalación de dependencias Celda de código para instalar los paquetes Prompt: “Escribe el bloque de código en Colab para instalar pydataset, pandas y openpyxl de forma silenciosa.”
4️⃣ Importaciones y función de clasificación Importar librerías y crear función que identifique variables categóricas y numéricas Prompt: “Genera código en Python para importar pandas y pydataset y definir una función clasificar_dataset(name) que cuente las variables categóricas y numéricas y determine si se puede aplicar ANOVA, Regresión o ANCOVA.”
5️⃣ Listado de datasets Mostrar el catálogo de pydataset en una tabla Prompt: “Escribe código Python para listar todos los datasets de pydataset con sus títulos y mostrar las primeras 10 filas.”
6️⃣ Clasificación automática Aplicar la función a todos los datasets Prompt: “Escribe el bloque de código para aplicar clasificar_dataset a cada dataset de pydataset y concatenar los resultados en un DataFrame tabla.”
7️⃣ Exportación a Excel Guardar resultados Prompt: “Escribe código Python para guardar el DataFrame en un archivo pydataset_modelos_lineales_completo.xlsx y mostrar un mensaje de confirmación.”
8️⃣ Uso pedagógico Explicación textual de cómo emplear el archivo Prompt: “Redacta en Markdown una guía breve sobre cómo usar el archivo generado para seleccionar datasets apropiados para ANOVA, Regresión y ANCOVA.”
9️⃣ Ejemplos rápidos Mostrar ejemplos de fórmulas Prompt: “Crea una celda Markdown con tres ejemplos: ChickWeight para ANOVA, mtcars para Regresión y CO2 para ANCOVA.”

🧠 Sugerencias metodológicas

  1. Gemini como asistente incremental

    • No pedir todo el código de una vez.
    • Ir sección por sección para que Gemini explique su razonamiento y los estudiantes comprendan cada paso.
  2. Uso de comentarios descriptivos En cada bloque de código, solicitar a Gemini:

    “Agrega comentarios en español explicando cada línea de código.”

  3. Verificación del resultado Después de ejecutar cada celda, revisar:

    • Si se instaló el paquete correctamente.
    • Si la tabla muestra datos coherentes.
    • Si el archivo Excel aparece en el panel de Colab.
  4. Documentación del proceso Los estudiantes deben guardar su notebook con el nombre:

    Apellido_Nombre_pydataset_ANOVA_Regresion_ANCOVA.ipynb
  5. Entrega final

    • Subir el notebook a GitHub o Google Drive.
    • Adjuntar el archivo Excel generado.
    • Presentar una breve sustentación en clase.

🧾 Plantilla de prompts de resumen

Los estudiantes pueden copiar estos prompts directamente en Gemini:

1️⃣ Escribe una introducción en Markdown para un notebook en Colab sobre clasificación de datasets de pydataset.
2️⃣ Lista los objetivos de aprendizaje y requisitos.
3️⃣ Genera la celda de instalación de dependencias.
4️⃣ Importa las librerías y define una función clasificar_dataset.
5️⃣ Muestra el listado de datasets disponibles.
6️⃣ Clasifica automáticamente y crea la tabla final.
7️⃣ Exporta el resultado a Excel.
8️⃣ Explica cómo usar el archivo generado en análisis estadísticos.
9️⃣ Agrega ejemplos de ANOVA, Regresión y ANCOVA.

🧩 Resultado esperado

Al finalizar, el notebook debe contener:

  • 9 celdas Markdown y 5 celdas de código.
  • Un archivo pydataset_modelos_lineales_completo.xlsx con las columnas: dataset_id, title, n_categoricas, n_numericas, ANOVA, Regresión, ANCOVA.
  • Documentación clara para que cada estudiante entienda cómo usar Gemini como herramienta de programación guiada.