Esta es una propuesta de guía estructurada para estudiantes de Ingeniería Agrícola, Agroindustrial y Civil. Está diseñada para ser ejecutada en Google Colab, aprovechando tanto el entorno de Python como el de R.
Asignatura: Estadística Aplicada / Programación de Computadores
Docente: Justo Rafael Fuentes Cuello
Contexto: Análisis de la “materia prima” (datos) antes del modelado técnico.
En esta sección, utilizaremos statsmodels para traer un
dataset clásico de la comunidad de R al ecosistema de Python.
Instrucciones: Crea un nuevo cuaderno en Colab y ejecuta el siguiente bloque:
import pandas as pd
import statsmodels.api as sm
# 1. Carga del dataset 'Soils' del paquete 'carData'
dataset_suelos = sm.datasets.get_rdataset("Soils", "carData")
df = dataset_suelos.data
# 2. Origen y documentación del dataset
print("--- DOCUMENTACIÓN DEL DATASET ---")
print(dataset_suelos.__doc__)
# 3. Estructura y Tipos de Datos
print("\n--- INFO DE ESTRUCTURA (df.info) ---")
df.info()
# 4. Estadística Descriptiva
print("\n--- RESUMEN ESTADÍSTICO (df.describe) ---")
display(df.describe())
Reflexión para el Ingeniero: Al revisar
df.info(), verifica si el pH o el Calcio se leen como números (float64). Si el software los lee como texto (object), no podrás realizar cálculos de ingeniería.
Para este ejercicio, debes cambiar el entorno de ejecución. Ve a: Entorno de ejecución > Cambiar tipo de entorno de ejecución > R.
Instrucciones: Ejecuta el siguiente código para realizar la misma radiografía de datos en el lenguaje estadístico por excelencia.
# 1. Instalación y carga de la librería
if(!require(carData)) install.packages("carData")
library(carData)
# 2. Carga y documentación
data("Soils")
# En R, la ayuda se consulta con ? o help()
help("Soils")
# 3. Radiografía de los datos (Tipos de datos)
cat("--- ESTRUCTURA DE LOS DATOS (str) ---\n")
str(Soils)
# 4. Estadísticas descriptivas rápidas
cat("\n--- RESUMEN ESTADÍSTICO (summary) ---\n")
summary(Soils)
Reflexión para el Ingeniero: Observa que R identifica automáticamente las variables cualitativas como
Factor. Compara laMean(media) y laMedian(mediana); si hay mucha diferencia, tienes valores atípicos (outliers) que podrían ser errores de medición en campo.
Desde 2024, Google Colab incluye un botón de “Generar con IA” o una celda de código con asistencia. Pide a tus estudiantes que peguen el siguiente prompt para profundizar en el análisis:
“Actúa como un experto en ciencia de datos aplicada a la ingeniería agrícola. Acabo de cargar el dataset
SoilsdecarData. Explícame por qué para un ingeniero es peligroso confiar ciegamente en la media (mean) de una variable como el pH o el Sodio si elmaxo elminmuestran valores físicamente imposibles. Además, explícame por qué no tiene sentido calcular el promedio de la variable ‘Block’ o ‘Contour’ aunque aparezcan codificadas numéricamente.”
Para que los estudiantes escriban una conclusión técnica en su cuaderno, pídales que respondan lo siguiente basándose en los resultados obtenidos: