Esta es una propuesta de guía estructurada para estudiantes de Ingeniería Agrícola, Agroindustrial y Civil. Está diseñada para ser ejecutada en Google Colab, aprovechando tanto el entorno de Python como el de R.


Guía de Práctica: Exploración de Datos de Suelos con Python y R

Asignatura: Estadística Aplicada / Programación de Computadores

Docente: Justo Rafael Fuentes Cuello

Contexto: Análisis de la “materia prima” (datos) antes del modelado técnico.


1. Implementación en Python (Entorno Estándar)

En esta sección, utilizaremos statsmodels para traer un dataset clásico de la comunidad de R al ecosistema de Python.

Instrucciones: Crea un nuevo cuaderno en Colab y ejecuta el siguiente bloque:

import pandas as pd
import statsmodels.api as sm

# 1. Carga del dataset 'Soils' del paquete 'carData'
dataset_suelos = sm.datasets.get_rdataset("Soils", "carData")
df = dataset_suelos.data

# 2. Origen y documentación del dataset
print("--- DOCUMENTACIÓN DEL DATASET ---")
print(dataset_suelos.__doc__)

# 3. Estructura y Tipos de Datos
print("\n--- INFO DE ESTRUCTURA (df.info) ---")
df.info()

# 4. Estadística Descriptiva
print("\n--- RESUMEN ESTADÍSTICO (df.describe) ---")
display(df.describe())

Reflexión para el Ingeniero: Al revisar df.info(), verifica si el pH o el Calcio se leen como números (float64). Si el software los lee como texto (object), no podrás realizar cálculos de ingeniería.


2. Implementación en R (Entorno R en Colab)

Para este ejercicio, debes cambiar el entorno de ejecución. Ve a: Entorno de ejecución > Cambiar tipo de entorno de ejecución > R.

Instrucciones: Ejecuta el siguiente código para realizar la misma radiografía de datos en el lenguaje estadístico por excelencia.

# 1. Instalación y carga de la librería
if(!require(carData)) install.packages("carData")
library(carData)

# 2. Carga y documentación
data("Soils")
# En R, la ayuda se consulta con ? o help()
help("Soils") 

# 3. Radiografía de los datos (Tipos de datos)
cat("--- ESTRUCTURA DE LOS DATOS (str) ---\n")
str(Soils)

# 4. Estadísticas descriptivas rápidas
cat("\n--- RESUMEN ESTADÍSTICO (summary) ---\n")
summary(Soils)

Reflexión para el Ingeniero: Observa que R identifica automáticamente las variables cualitativas como Factor. Compara la Mean (media) y la Median (mediana); si hay mucha diferencia, tienes valores atípicos (outliers) que podrían ser errores de medición en campo.


3. Interacción con IA en el Cuaderno (Prompt para Gemini)

Desde 2024, Google Colab incluye un botón de “Generar con IA” o una celda de código con asistencia. Pide a tus estudiantes que peguen el siguiente prompt para profundizar en el análisis:

Prompt sugerido para el estudiante:

“Actúa como un experto en ciencia de datos aplicada a la ingeniería agrícola. Acabo de cargar el dataset Soils de carData. Explícame por qué para un ingeniero es peligroso confiar ciegamente en la media (mean) de una variable como el pH o el Sodio si el max o el min muestran valores físicamente imposibles. Además, explícame por qué no tiene sentido calcular el promedio de la variable ‘Block’ o ‘Contour’ aunque aparezcan codificadas numéricamente.”


Mini-Reto de Cierre: “La Trampa del Software”

Para que los estudiantes escriban una conclusión técnica en su cuaderno, pídales que respondan lo siguiente basándose en los resultados obtenidos:

  • Pregunta: Si el software te entrega una media de pH de 6.8, pero el valor máximo registrado es 16.2, ¿qué decisión técnica debes tomar como ingeniero antes de seguir con el análisis?