UNIVERSIDAD DE SUCRE

FACULTAD DE INGENIERÍAS

ASIGNATURA: Estadística Aplicada con Python y R

DOCENTE: Justo Fuentes Cuello

PERÍODO: Segundo Semestre 2025

DURACIÓN: 4 semanas (sem. 13 – 16)

ENTREGA: Video individual + Notebook (Google Colab)


TAREA INDIVIDUAL — SEGUNDO 50 %

“Análisis Estadístico Asistido por IA con Python y R (usando Gemini en Google Colab)”


1. Objetivo

Aplicar los fundamentos de la estadística descriptiva e inferencial mediante la elaboración de un análisis completo utilizando Python (en Google Colab) con asistencia de IA (Gemini), partiendo de datasets reales del paquete pydataset. Cada estudiante desarrollará su propio estudio, seleccionando y aplicando técnicas adecuadas de acuerdo con la naturaleza del conjunto de datos asignado (regresión, ANOVA, series temporales, ajuste de modelos, etc.).


2. Justificación

La inteligencia artificial ha transformado la forma en que se abordan los problemas estadísticos. En esta actividad, el estudiante integrará la IA como apoyo cognitivo para el análisis de datos, sin delegar la autoría del trabajo. El propósito es fomentar autonomía, criterio ingenieril y comunicación técnica, desarrollando la capacidad de interpretar resultados y vincularlos con situaciones reales en los contextos:

  • Agrícola (productividad, hidrología, crecimiento de cultivos),
  • Agroindustrial (procesos, eficiencia productiva, calidad y reacciones químicas),
  • Civil (infraestructura, demografía, medio ambiente y series temporales).

3. Competencias

Código Competencia Descripción
C1 Análisis estadístico aplicado Identifica y aplica métodos adecuados de análisis según el tipo de dato.
C2 Pensamiento computacional Usa Python para automatizar procesos estadísticos y validar supuestos.
C3 Integración de IA Utiliza Gemini para consultar, explicar y validar resultados estadísticos.
C4 Comunicación técnica Presenta resultados de forma clara mediante notebooks y videos individuales.
C5 Ética y autonomía académica Mantiene la autoría propia y reflexiona sobre el rol de la IA en la ingeniería.

4. Estrategias de aprendizaje

  1. Trabajo individual guiado por IA (Gemini) en Google Colab.
  2. Revisión conceptual de las técnicas estadísticas antes de programarlas.
  3. Uso de notebooks con explicaciones, gráficos y código comentado.
  4. Presentación oral mediante video (5–8 min) mostrando el proceso y la interacción con Gemini.
  5. Evaluación según rúbrica institucional (escala 1–5).

5. Prompts sugeridos para Gemini (IA en Google Colab)

Los siguientes ejemplos orientan la interacción que cada estudiante mantendrá con Gemini IA. Pueden adaptarse según el dataset y tipo de análisis asignado.

Propósito Prompt sugerido
1 Cargar el dataset y explorar sus variables “Explícame cómo cargar el dataset <nombre> de pydataset y mostrar sus columnas con data.head().”
2 Análisis exploratorio “Muéstrame cómo calcular estadísticos descriptivos (basics, varianza, coeficiente de variación) para este dataset.”
3 Visualización “Genera gráficos adecuados (boxplot, scatterplot, histogramas) para visualizar la distribución de las variables.”
4 Pruebas de supuestos “Explícame cómo verificar normalidad y homogeneidad de varianzas en Python con scipy.stats.”
5 Modelado “Guíame para ajustar un modelo (lineal, logístico, ANOVA o de series temporales) según el tipo de variable.”
6 Interpretación “Interpreta los resultados del modelo y resume las conclusiones en lenguaje técnico y breve.”
7 Conclusión “Redacta las conclusiones del análisis enfocadas en su relevancia para la ingeniería.”
8 Video “Dame una guía de cómo estructurar mi presentación en video (5–8 min) explicando mi proceso en Colab.”

Parte 2: Incluye los 78 estudiantes (mismo orden de los grupos 1 y 2), cada uno con dataset único de pydataset, área sugerida, tipo de análisis, prompt para Gemini y código Python para cargar el dataset.

Nota: todos los datasets se cargan con pydataset. Código base:

from pydataset import data
df = data('NombreDelDataset')

5. Tabla de asignación individual de datasets (pydataset)

Nombre completo Dataset (pydataset) Área sugerida Tipo de análisis Prompt breve (Gemini) Código (Python)
1 Santiago Aguilera Luna AirPassengers Civil Series temporales (ARIMA) “Cargar AirPassengers, descomponer, ajustar ARIMA y pronosticar 12 meses.” from pydataset import data; df=data('AirPassengers')
2 ANDRES A ALDANA SUAREZ BJsales Agroindustrial Series + indicador “Explorar BJsales, modelar tendencia y evaluar precisión con MAE/MAPE.” from pydataset import data; df=data('BJsales')
3 María José Álvarez Montes BOD Agrícola Regresión no lineal “Ajustar curva BOD vs tiempo, comparar lineal vs exponencial.” from pydataset import data; df=data('BOD')
4 GLORIA ARAUJO MEZA Formaldehyde Agroindustrial Regresión lineal “Estimar relación conc–optical density, validar supuestos.” from pydataset import data; df=data('Formaldehyde')
5 Lino Arrieta Morales HairEyeColor Civil Tablas + χ² “Tabla de contingencia Hair–Eye, aplicar Chi-cuadrado e interpretar.” from pydataset import data; df=data('HairEyeColor')
6 Kevin Andrés Arrieta Ricardo InsectSprays Agrícola ANOVA 1-vía “Comparar eficacia de sprays, ANOVA + Tukey.” from pydataset import data; df=data('InsectSprays')
7 Jorge Alberto Betin Lazaro JohnsonJohnson Agroindustrial Series trimestrales “Descomponer serie JJ, probar Holt-Winters.” from pydataset import data; df=data('JohnsonJohnson')
8 Cristian Camilo Bolaño Martínez LakeHuron Civil Tendencia hidrológica “Modelar nivel del lago, tendencia y ACF/PACF.” from pydataset import data; df=data('LakeHuron')
9 Emanuel Borja Quevedo LifeCycleSavings Civil Regresión múltiple “Explicar ahorro vs ingreso/demografía, VIF y supuestos.” from pydataset import data; df=data('LifeCycleSavings')
10 Manuel José Buelvas Duran Nile Civil Series hidrológicas “Analizar caudal anual, cambio estructural y pronóstico.” from pydataset import data; df=data('Nile')
11 Jesús Canchila Balmaceda OrchardSprays Agrícola ANOVA 2-factores “Efecto spray y fila/columna, interacción y post-hoc.” from pydataset import data; df=data('OrchardSprays')
12 Marlon Cavadia Coavas PlantGrowth Agrícola ANOVA 1-vía “Comparar tratamientos de crecimiento, supuestos ANOVA.” from pydataset import data; df=data('PlantGrowth')
13 Nicole Chima Lambraño Puromycin Agroindustrial Cinética enzimática (NL) “Ajustar modelo Michaelis–Menten y comparar R².” from pydataset import data; df=data('Puromycin')
14 Antony Corpas Valerio Titanic Civil Regresión logística “Modelar supervivencia ~ clase/sexo/edad, AUC y matriz conf.” from pydataset import data; df=data('Titanic')
15 Danna De Hoyos Sierra CO2 Agrícola ANOVA + interacción “Efecto de tratamiento y planta en CO₂ uptake.” from pydataset import data; df=data('CO2')
16 Gabriel Elias Díaz Ayubb ChickWeight Agrícola ANOVA medidas repetidas “Peso ~ tiempo + dieta, gráficos y post-hoc.” from pydataset import data; df=data('ChickWeight')
17 Daniel Enrique Díaz Mendoza ToothGrowth Agrícola ANOVA 2-vías “Dosis y suplemento sobre longitud dental, Tukey.” from pydataset import data; df=data('ToothGrowth')
18 Luis David Estrada Gómez USArrests Civil PCA + clustering “PCA y k-means por estado; interpretar componentes.” from pydataset import data; df=data('USArrests')
19 Adrian Fiocco Alquerque longley Civil Regresión múltiple “Modelo macroeconómico, multicolinealidad (VIF).” from pydataset import data; df=data('longley')
20 Isaac Elías Fuentes Hernández swiss Civil Regresión + mapas “Fertility ~ educación/religión; diagnóstico del modelo.” from pydataset import data; df=data('swiss')
21 Yina Paola Garrido Mercado trees Agrícola Regresión alométrica “Volume ~ Girth + Height, evaluación del ajuste.” from pydataset import data; df=data('trees')
22 Andrés Gómez Martínez cars Civil Regresión simple “Distancia frenado ~ velocidad; residuales.” from pydataset import data; df=data('cars')
23 Andrés Gómez Martínez pressure Civil Transformación y ajuste “Relacionar presión vs temp, linealizar y comparar.” from pydataset import data; df=data('pressure')
24 Karla Daniela Guerrero Posada faithful Civil Esperas erupciones “Correlación waiting–eruptions, regresión simple.” from pydataset import data; df=data('faithful')
25 Luisa Fernanda Hérnández Ávila faithfuld Civil Superficie 2D “Mapa de densidad bivariante; interpretación.” from pydataset import data; df=data('faithfuld')
26 Jorge Alfredo Luna Pineda beaver1 Agrícola Series fisiológicas “Serie de temp corporal, detección de cambios.” from pydataset import data; df=data('beaver1')
27 Jesus Eduardo Manjarrez González beaver2 Agrícola Series fisiológicas “Comparar con beaver1; ACF y cambios.” from pydataset import data; df=data('beaver2')
28 Luis Manuel Martínez Vergara sunspot.year Civil Series solares “Modelar ciclo solar con descomposición + ARIMA.” from pydataset import data; df=data('sunspot.year')
29 Luis Mejía Valderrama airmiles Civil Series transporte “Tendencia/crecimiento; comparar modelos ETS.” from pydataset import data; df=data('airmiles')
30 Kiara Miranda Montiel lynx Agrícola Series poblacionales “Modelo AR( p ) para ciclos ecológicos.” from pydataset import data; df=data('lynx')
31 Cristian Molano Obregón Orange Agrícola Curvas de crecimiento “Ajustar crecimiento no lineal por árbol.” from pydataset import data; df=data('Orange')
32 Jonatan David Montaño Vergel Seatbelts Civil Serie con intervención “Evaluar efecto de cinturones sobre muertes.” from pydataset import data; df=data('Seatbelts')
33 Julian Andrés Montesino Monterroza UCBAdmissions Civil χ² + odds ratio “Admisiones por género/depto; prueba de independencia.” from pydataset import data; df=data('UCBAdmissions')
34 Keiner Moreno Gómez VADeaths Civil Tasas y ANOVA “Comparar mortalidad por grupo; intervalos.” from pydataset import data; df=data('VADeaths')
35 Verónica Navarro Blanco esoph Civil Tablas 3D + χ² “Asociación alcohol/tabaco vs cáncer esófago.” from pydataset import data; df=data('esoph')
36 Lucas David Oviedo Polo rock Civil PCA + regresión “Textura de roca: PCA y predicción area.” from pydataset import data; df=data('rock')
37 Juan David Puertas Peralta Boston Civil Regresión múltiple “MEDV ~ crim/lstat/…; VIF y residuales.” from pydataset import data; df=data('Boston')
38 Jesús Danilo Quintero Soto Cars93 Agroindustrial Regresión + selección “Precio ~ specs; stepwise y métricas.” from pydataset import data; df=data('Cars93')
39 Juan José Rada Morales birthwt Civil Regresión logística “Bajo peso ~ factores maternos; AUC.” from pydataset import data; df=data('birthwt')
40 María Camila Ramírez Barragán quine Civil ANOVA “Ausentismo ~ etnia/sexo/clase; post-hoc.” from pydataset import data; df=data('quine')
41 Samuel David Romero Méndez survey Civil Descriptiva + tests “Hábitos/medidas; t-test o chi² según caso.” from pydataset import data; df=data('survey')
42 MANUEL SOLANO ATENCIA Insurance Civil GLM Poisson “Reclamaciones ~ factores; ajustar GLM.” from pydataset import data; df=data('Insurance')
43 Kenin David Suarez Angel Rubber Agroindustrial Regresión no lineal “Tensión vs estiramiento; comparar modelos.” from pydataset import data; df=data('Rubber')
44 Ángel Manuel Tapia Zúñiga Duncan Agroindustrial Regresión “Prestigio ocupacional ~ ingreso/educ.” from pydataset import data; df=data('Duncan')
45 Pedro Daniel Torres Leguía Prestige Agroindustrial Regresión múltiple “Prestige ~ income + education; VIF.” from pydataset import data; df=data('Prestige')
46 Jean Carlos Torres Rodríguez Soils Agrícola Regresión múltiple “Propiedades del suelo ~ predictores químicos.” from pydataset import data; df=data('Soils')
47 Luis Fernando Varela Díaz Wage1 Civil Regresión “Salario ~ educación/experiencia; diagnóstico.” from pydataset import data; df=data('Wage1')
48 TOMAS VEGA MARTINEZ Ozone Civil Regresión “Ozono ~ meteo; elección de modelo.” from pydataset import data; df=data('Ozone')
49 Joel David Villadiego González Auto Agroindustrial Regresión “MPG/price ~ features; métricas.” from pydataset import data; df=data('Auto')
50 María Daniela Villegas Hoyos Carseats Agroindustrial Regresión múltiple “Sales ~ Price/Adv/Comp; validación.” from pydataset import data; df=data('Carseats')
51 Rubén Darío Yepes Fernández Credit Agroindustrial Clasificación “Default ~ ingresos/estudiantes; logística.” from pydataset import data; df=data('Credit')
52 Juan Pablo Zarza Vital Hitters Agroindustrial Regresión “Salary ~ stats; seleccionar variables.” from pydataset import data; df=data('Hitters')
53 Jhostin Agámez Madera College Agroindustrial PCA + regresión “PCA de atributos y predicción Outstate.” from pydataset import data; df=data('College')
54 Moises Aguas De Hoyos Aids2 Civil Supervivencia (descr.) “EDA y tasas; sin datos personales.” from pydataset import data; df=data('Aids2')
55 María Almanza Ramos Melanoma Civil Supervivencia (descr.) “EDA y curvas descriptivas; ética de datos.” from pydataset import data; df=data('Melanoma')
56 Alexander Álvarez Avilés UKgas Civil Series energía “Gas quarterly: tendencia y estacionalidad.” from pydataset import data; df=data('UKgas')
57 Enzo Giusseppe Angarita Mendoza USJudgeRatings Civil PCA “PCA en calificaciones judiciales, biplot.” from pydataset import data; df=data('USJudgeRatings')
58 Andrés Felipe Barboza Flórez rivers Civil Descriptiva “Longitudes de ríos; distribución y outliers.” from pydataset import data; df=data('rivers')
59 María Bárcenas Lázaro co2 Civil Series climáticas “CO₂ mensual: tendencia/estacionalidad.” from pydataset import data; df=data('co2')
60 Donaldo Barragán Meza sunspots Civil Series solares “Modelar y pronosticar sunspots mensuales.” from pydataset import data; df=data('sunspots')
61 Valeria Bedoya Hernández. EuStockMarkets Civil Series financieras “Volatilidad y comparación de índices.” from pydataset import data; df=data('EuStockMarkets')
62 Juan David Berrio Teherán infert Civil Regresión logística “Infertilidad ~ factores; odds ratios.” from pydataset import data; df=data('infert')
63 Kendran Bertel Jiménez mtcars Civil Regresión múltiple “mpg ~ wt/hp/…; VIF y selección.” from pydataset import data; df=data('mtcars')
64 Yuliana Canchila Suarez iris Agrícola MANOVA/Clasificación “Clasificar especies; LDA y métricas.” from pydataset import data; df=data('iris')
65 Miguel Jesús Castillo Estrada attitude Agroindustrial Regresión “Actitud ~ factores; diagnóstico del modelo.” from pydataset import data; df=data('attitude')
66 Oscar De Hoyos Anaya airquality Civil Regresión “O₃ ~ meteo; imputación y modelo.” from pydataset import data; df=data('airquality')
67 Jesús Fuentes Del Águila quakes Civil Geoespacial (EDA) “Magnitud/profundidad; mapas y estadísticos.” from pydataset import data; df=data('quakes')
68 Daniela García Sepúlveda fdeaths Civil Series salud “Muertes femeninas: ETS y comparación.” from pydataset import data; df=data('fdeaths')
69 Daniel Isaac Gómez Gutierrez mdeaths Civil Series salud “Muertes masculinas: ETS y comparación.” from pydataset import data; df=data('mdeaths')
70 Kilman David Hernández Miranda deaths Civil Series salud “Total muertes: descomposición y pronóstico.” from pydataset import data; df=data('deaths')
71 SAMIR LEGUIA RIVERA nottem Civil Serie temperatura “Temp mensual: ciclo anual y tendencia.” from pydataset import data; df=data('nottem')
72 Dayanna Martínez López women Civil Regresión “Altura ~ peso; residuales y predicción.” from pydataset import data; df=data('women')
73 Sebastián Martínez Polanco warpbreaks Agroindustrial ANOVA 2-factores “Breaks ~ wool*tension; interacción.” from pydataset import data; df=data('warpbreaks')
74 Cristian Moreno Villegas sleep Civil t pareadas “Efecto de dos fármacos en sueño.” from pydataset import data; df=data('sleep')
75 Andrés Muñoz Tuiran stackloss Agroindustrial Regresión múltiple “Pérdida ~ flujo/temp/concentración.” from pydataset import data; df=data('stackloss')
76 Juan Pablo Ochoa González BJsales.lead Agroindustrial Series con lead “Usar indicador adelantado y evaluar mejora.” from pydataset import data; df=data('BJsales.lead')
77 Roberto Luis Ortega Junco UKDriverDeaths Civil Serie con intervención “Efecto cinturones/leyes en accidentes.” from pydataset import data; df=data('UKDriverDeaths')
78 Rosa María Ramírez Domínguez NHTemp Civil Serie temperatura anual “Analizar tendencia y variabilidad anual.” from pydataset import data; df=data('NHTemp')

Indicaciones para los estudiantes

  1. Reemplace el NombreDelDataset en el código por el dataset asignado.
  2. Desarrolle el análisis indicado, justificando la técnica elegida y validando supuestos.
  3. Use Gemini para generar y revisar el código, y documente los prompts en el notebook.

A continuación se presenta la Parte 3 del documento con las instrucciones de desarrollo, entrega y presentación de la tarea individual.


6. Instrucciones de desarrollo y entrega

6.1. Formato del trabajo

Cada estudiante deberá desarrollar su análisis en un Notebook de Google Colab titulado:

Tarea_Individual_Segundo50_Nombre_Apellido.ipynb

El notebook debe contener las siguientes secciones:

Sección Descripción
1. Encabezado y datos personales Nombre completo, programa académico, dataset asignado, tipo de análisis, fecha.
2. Objetivo del análisis Breve enunciado del propósito del estudio con relación al dataset asignado.
3. Descripción del dataset Describir las variables y su contexto, citando la fuente de pydataset.
4. Análisis exploratorio Mostrar tablas descriptivas, gráficos y correlaciones relevantes.
5. Aplicación del modelo estadístico Implementar el análisis indicado (regresión, ANOVA, series, etc.) en Python.
6. Interpretación de resultados Explicar los resultados del modelo de forma técnica y concisa.
7. Conclusiones e implicaciones ingenieriles Relacionar los resultados con una posible aplicación real en su campo de ingeniería.
8. Prompts usados en Gemini Registrar y comentar los prompts más útiles empleados durante el desarrollo.

6.2. Herramientas obligatorias

  • Lenguaje: Python (versión 3.10 o superior).

  • Entorno: Google Colab.

  • IA Asistente: Gemini (integrado en Colab o web).

  • Paquetes mínimos:

    from pydataset import data
    import pandas as pd
    import numpy as np
    import matplotlib.pyplot as plt
    import seaborn as sns
    import statsmodels.api as sm
    from scipy import stats
  • Cada notebook debe ejecutarse sin errores (Runtime → Run all).

  • Los gráficos deben estar debidamente titulados y comentados.


6.3. Video de sustentación

Cada estudiante grabará un video individual (duración 5–8 minutos), con los siguientes componentes:

Parte Contenido sugerido
1. Presentación personal Nombre, programa, dataset asignado y objetivo general.
2. Explicación técnica Mostrar las secciones del notebook mientras explica el proceso con Gemini.
3. Interpretación y conclusiones Enfatizar el valor ingenieril del análisis.
4. Reflexión breve Opinión sobre el uso responsable de la IA en el aprendizaje.

Formato de entrega del video: Puede cargarse en Google Drive o YouTube (modo no listado) y enviar el enlace en el campo designado en Moodle o formulario de recolección.


6.4. Criterios de evaluación

  • Se aplicará la rúbrica institucional (escala 1–5) descrita en la Parte 4.
  • La calificación considera tanto la calidad técnica del análisis como la claridad de la exposición oral.
  • Se valorará especialmente el uso ético y reflexivo de la IA, así como la capacidad de interpretar resultados y conectarlos con problemas reales de ingeniería.

A continuación la Parte 4 del documento, con la rúbrica institucional (escala 1–5) adaptada a la tarea individual “Análisis Estadístico Asistido por IA con Python y R (usando Gemini en Google Colab)”.


7. Rúbrica de evaluación (escala 1–5)

TAREA INDIVIDUAL — SEGUNDO 50 %

“Análisis Estadístico Asistido por IA con Python y R (usando Gemini en Google Colab)”

Criterio 1 (Deficiente) 2 (Básico) 3 (Aceptable) 4 (Bueno) 5 (Excelente) Peso (%)
Estructura y claridad del Notebook Desorden total; sin secciones identificables ni coherencia. Presenta secciones mínimas, pero desorganizadas y con formato inadecuado. Secciones básicas presentes y parcialmente ordenadas. Notebook organizado, legible y con celdas correctamente etiquetadas. Estructura profesional, formato limpio, encabezado claro y celdas bien documentadas. 15
Programación y resultados Código incompleto o con errores que impiden ejecutar el notebook. Código funcional parcial con errores de cálculo o sintaxis. Cálculos correctos en la mayoría de secciones, aunque poco comentados. Código correcto, reproducible y con explicación del proceso. Código eficiente, modular, documentado y con verificación de resultados. 20
Comprensión teórica y aplicación del modelo Sin comprensión de los conceptos estadísticos. Aplica fórmulas sin justificación ni interpretación. Aplica el método estadístico de forma general pero con errores menores. Aplica correctamente el método, justificando su elección y resultados. Integra teoría, análisis y reflexión técnica con dominio conceptual. 15
Uso documentado de IA (Gemini) No utiliza Gemini o no registra interacción. Uso superficial, sin relación con el problema. Registra algunos prompts, sin análisis del aporte de la IA. Usa prompts adecuados, con comentarios y reflexiones claras. Prompts variados, estratégicos, precisos y con valoración crítica del apoyo de la IA. 15
Interpretación e impacto ingenieril de resultados No presenta conclusiones o son irrelevantes. Conclusiones generales sin relación con los resultados. Presenta conclusiones comprensibles, pero poco fundamentadas. Interpreta resultados correctamente y los vincula con la práctica profesional. Integra resultados, teoría y análisis crítico con enfoque ingenieril aplicado. 15
Presentación del video y comunicación técnica No presenta video o es ilegible. Video incompleto o con exposición desorganizada. Video comprensible, pero con lectura mecánica del notebook. Exposición fluida, con explicación clara del proceso y de los resultados. Presentación profesional, segura, creativa, con dominio del tema y lenguaje técnico preciso. 20

Cálculo de la nota final:

\[ \text{Nota final (1–5)} = \sum_i (\text{Nota}_i \times \frac{\text{Peso}_i}{100}) \]


Observaciones institucionales

  • La rúbrica promueve una evaluación formativa y transparente, visible al estudiante desde el inicio.
  • Se evalúan competencias técnicas, analíticas y comunicativas, integrando el uso responsable de la inteligencia artificial.
  • La presentación del video (20%) mantiene el mayor peso por su valor en la exposición oral y la argumentación profesional.
  • La nota final será publicada en la plataforma institucional, acompañada del feedback respectivo.

Notas de cierre para los estudiantes

“El uso de la inteligencia artificial no reemplaza la comprensión ni la autoría. Tu capacidad como ingeniero se evidencia en la interpretación, la crítica y la aplicación de los resultados.”