Aplicar los fundamentos de la estadística descriptiva e inferencial
mediante la elaboración de un análisis completo utilizando
Python (en Google Colab) con asistencia de IA
(Gemini), partiendo de datasets reales del paquete
pydataset. Cada estudiante desarrollará su
propio estudio, seleccionando y aplicando técnicas adecuadas de acuerdo
con la naturaleza del conjunto de datos asignado (regresión, ANOVA,
series temporales, ajuste de modelos, etc.).
La inteligencia artificial ha transformado la forma en que se abordan los problemas estadísticos. En esta actividad, el estudiante integrará la IA como apoyo cognitivo para el análisis de datos, sin delegar la autoría del trabajo. El propósito es fomentar autonomía, criterio ingenieril y comunicación técnica, desarrollando la capacidad de interpretar resultados y vincularlos con situaciones reales en los contextos:
| Código | Competencia | Descripción |
|---|---|---|
| C1 | Análisis estadístico aplicado | Identifica y aplica métodos adecuados de análisis según el tipo de dato. |
| C2 | Pensamiento computacional | Usa Python para automatizar procesos estadísticos y validar supuestos. |
| C3 | Integración de IA | Utiliza Gemini para consultar, explicar y validar resultados estadísticos. |
| C4 | Comunicación técnica | Presenta resultados de forma clara mediante notebooks y videos individuales. |
| C5 | Ética y autonomía académica | Mantiene la autoría propia y reflexiona sobre el rol de la IA en la ingeniería. |
Los siguientes ejemplos orientan la interacción que cada estudiante mantendrá con Gemini IA. Pueden adaptarse según el dataset y tipo de análisis asignado.
| Nº | Propósito | Prompt sugerido |
|---|---|---|
| 1 | Cargar el dataset y explorar sus variables | “Explícame cómo cargar el dataset
<nombre> de pydataset y mostrar sus
columnas con data.head().” |
| 2 | Análisis exploratorio | “Muéstrame cómo calcular estadísticos descriptivos (basics, varianza, coeficiente de variación) para este dataset.” |
| 3 | Visualización | “Genera gráficos adecuados (boxplot, scatterplot, histogramas) para visualizar la distribución de las variables.” |
| 4 | Pruebas de supuestos | “Explícame cómo verificar normalidad y homogeneidad de
varianzas en Python con scipy.stats.” |
| 5 | Modelado | “Guíame para ajustar un modelo (lineal, logístico, ANOVA o de series temporales) según el tipo de variable.” |
| 6 | Interpretación | “Interpreta los resultados del modelo y resume las conclusiones en lenguaje técnico y breve.” |
| 7 | Conclusión | “Redacta las conclusiones del análisis enfocadas en su relevancia para la ingeniería.” |
| 8 | Video | “Dame una guía de cómo estructurar mi presentación en video (5–8 min) explicando mi proceso en Colab.” |
Parte 2: Incluye los 78 estudiantes
(mismo orden de los grupos 1 y 2), cada uno con dataset único de
pydataset, área sugerida, tipo de análisis,
prompt para Gemini y código Python
para cargar el dataset.
Nota: todos los datasets se cargan con
pydataset. Código base:from pydataset import data df = data('NombreDelDataset')
pydataset)| Nº | Nombre completo | Dataset (pydataset) |
Área sugerida | Tipo de análisis | Prompt breve (Gemini) | Código (Python) |
|---|---|---|---|---|---|---|
| 1 | Santiago Aguilera Luna | AirPassengers | Civil | Series temporales (ARIMA) | “Cargar AirPassengers, descomponer, ajustar ARIMA y pronosticar 12 meses.” | from pydataset import data; df=data('AirPassengers') |
| 2 | ANDRES A ALDANA SUAREZ | BJsales | Agroindustrial | Series + indicador | “Explorar BJsales, modelar tendencia y evaluar precisión con MAE/MAPE.” | from pydataset import data; df=data('BJsales') |
| 3 | María José Álvarez Montes | BOD | Agrícola | Regresión no lineal | “Ajustar curva BOD vs tiempo, comparar lineal vs exponencial.” | from pydataset import data; df=data('BOD') |
| 4 | GLORIA ARAUJO MEZA | Formaldehyde | Agroindustrial | Regresión lineal | “Estimar relación conc–optical density, validar supuestos.” | from pydataset import data; df=data('Formaldehyde') |
| 5 | Lino Arrieta Morales | HairEyeColor | Civil | Tablas + χ² | “Tabla de contingencia Hair–Eye, aplicar Chi-cuadrado e interpretar.” | from pydataset import data; df=data('HairEyeColor') |
| 6 | Kevin Andrés Arrieta Ricardo | InsectSprays | Agrícola | ANOVA 1-vía | “Comparar eficacia de sprays, ANOVA + Tukey.” | from pydataset import data; df=data('InsectSprays') |
| 7 | Jorge Alberto Betin Lazaro | JohnsonJohnson | Agroindustrial | Series trimestrales | “Descomponer serie JJ, probar Holt-Winters.” | from pydataset import data; df=data('JohnsonJohnson') |
| 8 | Cristian Camilo Bolaño Martínez | LakeHuron | Civil | Tendencia hidrológica | “Modelar nivel del lago, tendencia y ACF/PACF.” | from pydataset import data; df=data('LakeHuron') |
| 9 | Emanuel Borja Quevedo | LifeCycleSavings | Civil | Regresión múltiple | “Explicar ahorro vs ingreso/demografía, VIF y supuestos.” | from pydataset import data; df=data('LifeCycleSavings') |
| 10 | Manuel José Buelvas Duran | Nile | Civil | Series hidrológicas | “Analizar caudal anual, cambio estructural y pronóstico.” | from pydataset import data; df=data('Nile') |
| 11 | Jesús Canchila Balmaceda | OrchardSprays | Agrícola | ANOVA 2-factores | “Efecto spray y fila/columna, interacción y post-hoc.” | from pydataset import data; df=data('OrchardSprays') |
| 12 | Marlon Cavadia Coavas | PlantGrowth | Agrícola | ANOVA 1-vía | “Comparar tratamientos de crecimiento, supuestos ANOVA.” | from pydataset import data; df=data('PlantGrowth') |
| 13 | Nicole Chima Lambraño | Puromycin | Agroindustrial | Cinética enzimática (NL) | “Ajustar modelo Michaelis–Menten y comparar R².” | from pydataset import data; df=data('Puromycin') |
| 14 | Antony Corpas Valerio | Titanic | Civil | Regresión logística | “Modelar supervivencia ~ clase/sexo/edad, AUC y matriz conf.” | from pydataset import data; df=data('Titanic') |
| 15 | Danna De Hoyos Sierra | CO2 | Agrícola | ANOVA + interacción | “Efecto de tratamiento y planta en CO₂ uptake.” | from pydataset import data; df=data('CO2') |
| 16 | Gabriel Elias Díaz Ayubb | ChickWeight | Agrícola | ANOVA medidas repetidas | “Peso ~ tiempo + dieta, gráficos y post-hoc.” | from pydataset import data; df=data('ChickWeight') |
| 17 | Daniel Enrique Díaz Mendoza | ToothGrowth | Agrícola | ANOVA 2-vías | “Dosis y suplemento sobre longitud dental, Tukey.” | from pydataset import data; df=data('ToothGrowth') |
| 18 | Luis David Estrada Gómez | USArrests | Civil | PCA + clustering | “PCA y k-means por estado; interpretar componentes.” | from pydataset import data; df=data('USArrests') |
| 19 | Adrian Fiocco Alquerque | longley | Civil | Regresión múltiple | “Modelo macroeconómico, multicolinealidad (VIF).” | from pydataset import data; df=data('longley') |
| 20 | Isaac Elías Fuentes Hernández | swiss | Civil | Regresión + mapas | “Fertility ~ educación/religión; diagnóstico del modelo.” | from pydataset import data; df=data('swiss') |
| 21 | Yina Paola Garrido Mercado | trees | Agrícola | Regresión alométrica | “Volume ~ Girth + Height, evaluación del ajuste.” | from pydataset import data; df=data('trees') |
| 22 | Andrés Gómez Martínez | cars | Civil | Regresión simple | “Distancia frenado ~ velocidad; residuales.” | from pydataset import data; df=data('cars') |
| 23 | Andrés Gómez Martínez | pressure | Civil | Transformación y ajuste | “Relacionar presión vs temp, linealizar y comparar.” | from pydataset import data; df=data('pressure') |
| 24 | Karla Daniela Guerrero Posada | faithful | Civil | Esperas erupciones | “Correlación waiting–eruptions, regresión simple.” | from pydataset import data; df=data('faithful') |
| 25 | Luisa Fernanda Hérnández Ávila | faithfuld | Civil | Superficie 2D | “Mapa de densidad bivariante; interpretación.” | from pydataset import data; df=data('faithfuld') |
| 26 | Jorge Alfredo Luna Pineda | beaver1 | Agrícola | Series fisiológicas | “Serie de temp corporal, detección de cambios.” | from pydataset import data; df=data('beaver1') |
| 27 | Jesus Eduardo Manjarrez González | beaver2 | Agrícola | Series fisiológicas | “Comparar con beaver1; ACF y cambios.” | from pydataset import data; df=data('beaver2') |
| 28 | Luis Manuel Martínez Vergara | sunspot.year | Civil | Series solares | “Modelar ciclo solar con descomposición + ARIMA.” | from pydataset import data; df=data('sunspot.year') |
| 29 | Luis Mejía Valderrama | airmiles | Civil | Series transporte | “Tendencia/crecimiento; comparar modelos ETS.” | from pydataset import data; df=data('airmiles') |
| 30 | Kiara Miranda Montiel | lynx | Agrícola | Series poblacionales | “Modelo AR( p ) para ciclos ecológicos.” | from pydataset import data; df=data('lynx') |
| 31 | Cristian Molano Obregón | Orange | Agrícola | Curvas de crecimiento | “Ajustar crecimiento no lineal por árbol.” | from pydataset import data; df=data('Orange') |
| 32 | Jonatan David Montaño Vergel | Seatbelts | Civil | Serie con intervención | “Evaluar efecto de cinturones sobre muertes.” | from pydataset import data; df=data('Seatbelts') |
| 33 | Julian Andrés Montesino Monterroza | UCBAdmissions | Civil | χ² + odds ratio | “Admisiones por género/depto; prueba de independencia.” | from pydataset import data; df=data('UCBAdmissions') |
| 34 | Keiner Moreno Gómez | VADeaths | Civil | Tasas y ANOVA | “Comparar mortalidad por grupo; intervalos.” | from pydataset import data; df=data('VADeaths') |
| 35 | Verónica Navarro Blanco | esoph | Civil | Tablas 3D + χ² | “Asociación alcohol/tabaco vs cáncer esófago.” | from pydataset import data; df=data('esoph') |
| 36 | Lucas David Oviedo Polo | rock | Civil | PCA + regresión | “Textura de roca: PCA y predicción area.” | from pydataset import data; df=data('rock') |
| 37 | Juan David Puertas Peralta | Boston | Civil | Regresión múltiple | “MEDV ~ crim/lstat/…; VIF y residuales.” | from pydataset import data; df=data('Boston') |
| 38 | Jesús Danilo Quintero Soto | Cars93 | Agroindustrial | Regresión + selección | “Precio ~ specs; stepwise y métricas.” | from pydataset import data; df=data('Cars93') |
| 39 | Juan José Rada Morales | birthwt | Civil | Regresión logística | “Bajo peso ~ factores maternos; AUC.” | from pydataset import data; df=data('birthwt') |
| 40 | María Camila Ramírez Barragán | quine | Civil | ANOVA | “Ausentismo ~ etnia/sexo/clase; post-hoc.” | from pydataset import data; df=data('quine') |
| 41 | Samuel David Romero Méndez | survey | Civil | Descriptiva + tests | “Hábitos/medidas; t-test o chi² según caso.” | from pydataset import data; df=data('survey') |
| 42 | MANUEL SOLANO ATENCIA | Insurance | Civil | GLM Poisson | “Reclamaciones ~ factores; ajustar GLM.” | from pydataset import data; df=data('Insurance') |
| 43 | Kenin David Suarez Angel | Rubber | Agroindustrial | Regresión no lineal | “Tensión vs estiramiento; comparar modelos.” | from pydataset import data; df=data('Rubber') |
| 44 | Ángel Manuel Tapia Zúñiga | Duncan | Agroindustrial | Regresión | “Prestigio ocupacional ~ ingreso/educ.” | from pydataset import data; df=data('Duncan') |
| 45 | Pedro Daniel Torres Leguía | Prestige | Agroindustrial | Regresión múltiple | “Prestige ~ income + education; VIF.” | from pydataset import data; df=data('Prestige') |
| 46 | Jean Carlos Torres Rodríguez | Soils | Agrícola | Regresión múltiple | “Propiedades del suelo ~ predictores químicos.” | from pydataset import data; df=data('Soils') |
| 47 | Luis Fernando Varela Díaz | Wage1 | Civil | Regresión | “Salario ~ educación/experiencia; diagnóstico.” | from pydataset import data; df=data('Wage1') |
| 48 | TOMAS VEGA MARTINEZ | Ozone | Civil | Regresión | “Ozono ~ meteo; elección de modelo.” | from pydataset import data; df=data('Ozone') |
| 49 | Joel David Villadiego González | Auto | Agroindustrial | Regresión | “MPG/price ~ features; métricas.” | from pydataset import data; df=data('Auto') |
| 50 | María Daniela Villegas Hoyos | Carseats | Agroindustrial | Regresión múltiple | “Sales ~ Price/Adv/Comp; validación.” | from pydataset import data; df=data('Carseats') |
| 51 | Rubén Darío Yepes Fernández | Credit | Agroindustrial | Clasificación | “Default ~ ingresos/estudiantes; logística.” | from pydataset import data; df=data('Credit') |
| 52 | Juan Pablo Zarza Vital | Hitters | Agroindustrial | Regresión | “Salary ~ stats; seleccionar variables.” | from pydataset import data; df=data('Hitters') |
| 53 | Jhostin Agámez Madera | College | Agroindustrial | PCA + regresión | “PCA de atributos y predicción Outstate.” | from pydataset import data; df=data('College') |
| 54 | Moises Aguas De Hoyos | Aids2 | Civil | Supervivencia (descr.) | “EDA y tasas; sin datos personales.” | from pydataset import data; df=data('Aids2') |
| 55 | María Almanza Ramos | Melanoma | Civil | Supervivencia (descr.) | “EDA y curvas descriptivas; ética de datos.” | from pydataset import data; df=data('Melanoma') |
| 56 | Alexander Álvarez Avilés | UKgas | Civil | Series energía | “Gas quarterly: tendencia y estacionalidad.” | from pydataset import data; df=data('UKgas') |
| 57 | Enzo Giusseppe Angarita Mendoza | USJudgeRatings | Civil | PCA | “PCA en calificaciones judiciales, biplot.” | from pydataset import data; df=data('USJudgeRatings') |
| 58 | Andrés Felipe Barboza Flórez | rivers | Civil | Descriptiva | “Longitudes de ríos; distribución y outliers.” | from pydataset import data; df=data('rivers') |
| 59 | María Bárcenas Lázaro | co2 | Civil | Series climáticas | “CO₂ mensual: tendencia/estacionalidad.” | from pydataset import data; df=data('co2') |
| 60 | Donaldo Barragán Meza | sunspots | Civil | Series solares | “Modelar y pronosticar sunspots mensuales.” | from pydataset import data; df=data('sunspots') |
| 61 | Valeria Bedoya Hernández. | EuStockMarkets | Civil | Series financieras | “Volatilidad y comparación de índices.” | from pydataset import data; df=data('EuStockMarkets') |
| 62 | Juan David Berrio Teherán | infert | Civil | Regresión logística | “Infertilidad ~ factores; odds ratios.” | from pydataset import data; df=data('infert') |
| 63 | Kendran Bertel Jiménez | mtcars | Civil | Regresión múltiple | “mpg ~ wt/hp/…; VIF y selección.” | from pydataset import data; df=data('mtcars') |
| 64 | Yuliana Canchila Suarez | iris | Agrícola | MANOVA/Clasificación | “Clasificar especies; LDA y métricas.” | from pydataset import data; df=data('iris') |
| 65 | Miguel Jesús Castillo Estrada | attitude | Agroindustrial | Regresión | “Actitud ~ factores; diagnóstico del modelo.” | from pydataset import data; df=data('attitude') |
| 66 | Oscar De Hoyos Anaya | airquality | Civil | Regresión | “O₃ ~ meteo; imputación y modelo.” | from pydataset import data; df=data('airquality') |
| 67 | Jesús Fuentes Del Águila | quakes | Civil | Geoespacial (EDA) | “Magnitud/profundidad; mapas y estadísticos.” | from pydataset import data; df=data('quakes') |
| 68 | Daniela García Sepúlveda | fdeaths | Civil | Series salud | “Muertes femeninas: ETS y comparación.” | from pydataset import data; df=data('fdeaths') |
| 69 | Daniel Isaac Gómez Gutierrez | mdeaths | Civil | Series salud | “Muertes masculinas: ETS y comparación.” | from pydataset import data; df=data('mdeaths') |
| 70 | Kilman David Hernández Miranda | deaths | Civil | Series salud | “Total muertes: descomposición y pronóstico.” | from pydataset import data; df=data('deaths') |
| 71 | SAMIR LEGUIA RIVERA | nottem | Civil | Serie temperatura | “Temp mensual: ciclo anual y tendencia.” | from pydataset import data; df=data('nottem') |
| 72 | Dayanna Martínez López | women | Civil | Regresión | “Altura ~ peso; residuales y predicción.” | from pydataset import data; df=data('women') |
| 73 | Sebastián Martínez Polanco | warpbreaks | Agroindustrial | ANOVA 2-factores | “Breaks ~ wool*tension; interacción.” | from pydataset import data; df=data('warpbreaks') |
| 74 | Cristian Moreno Villegas | sleep | Civil | t pareadas | “Efecto de dos fármacos en sueño.” | from pydataset import data; df=data('sleep') |
| 75 | Andrés Muñoz Tuiran | stackloss | Agroindustrial | Regresión múltiple | “Pérdida ~ flujo/temp/concentración.” | from pydataset import data; df=data('stackloss') |
| 76 | Juan Pablo Ochoa González | BJsales.lead | Agroindustrial | Series con lead | “Usar indicador adelantado y evaluar mejora.” | from pydataset import data; df=data('BJsales.lead') |
| 77 | Roberto Luis Ortega Junco | UKDriverDeaths | Civil | Serie con intervención | “Efecto cinturones/leyes en accidentes.” | from pydataset import data; df=data('UKDriverDeaths') |
| 78 | Rosa María Ramírez Domínguez | NHTemp | Civil | Serie temperatura anual | “Analizar tendencia y variabilidad anual.” | from pydataset import data; df=data('NHTemp') |
NombreDelDataset en el código por el
dataset asignado.A continuación se presenta la Parte 3 del documento con las instrucciones de desarrollo, entrega y presentación de la tarea individual.
Cada estudiante deberá desarrollar su análisis en un Notebook de Google Colab titulado:
Tarea_Individual_Segundo50_Nombre_Apellido.ipynb
El notebook debe contener las siguientes secciones:
| Sección | Descripción |
|---|---|
| 1. Encabezado y datos personales | Nombre completo, programa académico, dataset asignado, tipo de análisis, fecha. |
| 2. Objetivo del análisis | Breve enunciado del propósito del estudio con relación al dataset asignado. |
| 3. Descripción del dataset | Describir las variables y su contexto, citando la
fuente de pydataset. |
| 4. Análisis exploratorio | Mostrar tablas descriptivas, gráficos y correlaciones relevantes. |
| 5. Aplicación del modelo estadístico | Implementar el análisis indicado (regresión, ANOVA, series, etc.) en Python. |
| 6. Interpretación de resultados | Explicar los resultados del modelo de forma técnica y concisa. |
| 7. Conclusiones e implicaciones ingenieriles | Relacionar los resultados con una posible aplicación real en su campo de ingeniería. |
| 8. Prompts usados en Gemini | Registrar y comentar los prompts más útiles empleados durante el desarrollo. |
Lenguaje: Python (versión 3.10 o superior).
Entorno: Google Colab.
IA Asistente: Gemini (integrado en Colab o web).
Paquetes mínimos:
from pydataset import data
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import statsmodels.api as sm
from scipy import statsCada notebook debe ejecutarse sin errores
(Runtime → Run all).
Los gráficos deben estar debidamente titulados y comentados.
Cada estudiante grabará un video individual (duración 5–8 minutos), con los siguientes componentes:
| Parte | Contenido sugerido |
|---|---|
| 1. Presentación personal | Nombre, programa, dataset asignado y objetivo general. |
| 2. Explicación técnica | Mostrar las secciones del notebook mientras explica el proceso con Gemini. |
| 3. Interpretación y conclusiones | Enfatizar el valor ingenieril del análisis. |
| 4. Reflexión breve | Opinión sobre el uso responsable de la IA en el aprendizaje. |
Formato de entrega del video: Puede cargarse en Google Drive o YouTube (modo no listado) y enviar el enlace en el campo designado en Moodle o formulario de recolección.
A continuación la Parte 4 del documento, con la rúbrica institucional (escala 1–5) adaptada a la tarea individual “Análisis Estadístico Asistido por IA con Python y R (usando Gemini en Google Colab)”.
| Criterio | 1 (Deficiente) | 2 (Básico) | 3 (Aceptable) | 4 (Bueno) | 5 (Excelente) | Peso (%) |
|---|---|---|---|---|---|---|
| Estructura y claridad del Notebook | Desorden total; sin secciones identificables ni coherencia. | Presenta secciones mínimas, pero desorganizadas y con formato inadecuado. | Secciones básicas presentes y parcialmente ordenadas. | Notebook organizado, legible y con celdas correctamente etiquetadas. | Estructura profesional, formato limpio, encabezado claro y celdas bien documentadas. | 15 |
| Programación y resultados | Código incompleto o con errores que impiden ejecutar el notebook. | Código funcional parcial con errores de cálculo o sintaxis. | Cálculos correctos en la mayoría de secciones, aunque poco comentados. | Código correcto, reproducible y con explicación del proceso. | Código eficiente, modular, documentado y con verificación de resultados. | 20 |
| Comprensión teórica y aplicación del modelo | Sin comprensión de los conceptos estadísticos. | Aplica fórmulas sin justificación ni interpretación. | Aplica el método estadístico de forma general pero con errores menores. | Aplica correctamente el método, justificando su elección y resultados. | Integra teoría, análisis y reflexión técnica con dominio conceptual. | 15 |
| Uso documentado de IA (Gemini) | No utiliza Gemini o no registra interacción. | Uso superficial, sin relación con el problema. | Registra algunos prompts, sin análisis del aporte de la IA. | Usa prompts adecuados, con comentarios y reflexiones claras. | Prompts variados, estratégicos, precisos y con valoración crítica del apoyo de la IA. | 15 |
| Interpretación e impacto ingenieril de resultados | No presenta conclusiones o son irrelevantes. | Conclusiones generales sin relación con los resultados. | Presenta conclusiones comprensibles, pero poco fundamentadas. | Interpreta resultados correctamente y los vincula con la práctica profesional. | Integra resultados, teoría y análisis crítico con enfoque ingenieril aplicado. | 15 |
| Presentación del video y comunicación técnica | No presenta video o es ilegible. | Video incompleto o con exposición desorganizada. | Video comprensible, pero con lectura mecánica del notebook. | Exposición fluida, con explicación clara del proceso y de los resultados. | Presentación profesional, segura, creativa, con dominio del tema y lenguaje técnico preciso. | 20 |
\[ \text{Nota final (1–5)} = \sum_i (\text{Nota}_i \times \frac{\text{Peso}_i}{100}) \]
“El uso de la inteligencia artificial no reemplaza la comprensión ni la autoría. Tu capacidad como ingeniero se evidencia en la interpretación, la crítica y la aplicación de los resultados.”