“Fundamentos Estadisticos”

1. ¿Qué es la Estadística Aplicada?

En lenguaje sencillo: Es el arte de usar los números para contar una historia real. No es solo sumar o promediar; es tomar datos de un cultivo, una obra o una fábrica y usarlos para entender qué está pasando y qué podría pasar en el futuro.
En lenguaje formal: Es la rama de la estadística que utiliza métodos matemáticos y modelos probabilísticos para analizar datos provenientes de observaciones o experimentos, con el fin de resolver problemas específicos y facilitar la toma de decisiones en contextos de incertidumbre.

2. Descriptiva vs. Inferencial

La estadística tiene dos “brazos” principales que trabajan en momentos distintos:

Tipo	Propósito	Herramientas
Descriptiva	Organizar y resumir lo que ya tenemos. Describe las características de un conjunto de datos sin sacar conclusiones sobre un grupo mayor.	Tablas de frecuencia, gráficas (histogramas), promedio, desviación estándar.
Inferencial	Generalizar y predecir. Usa una parte de los datos para sacar conclusiones sobre todo un grupo y medir el nivel de error.	Pruebas de hipótesis, intervalos de confianza, regresiones.

3. Conceptos Clave y su Relación

Para entender la estadística, debemos distinguir entre el “todo” y la “parte”:

Población ($N$): El conjunto total de individuos, objetos o medidas que poseen una característica común que deseamos estudiar.
Muestra ($n$): Un subconjunto representativo de la población. Se usa porque estudiar a toda la población suele ser costoso o imposible.
Parámetro: Un valor numérico que describe una característica de la población (ej. la media poblacional $\mu$).
Estadístico: Un valor numérico que describe una característica de la muestra (ej. la media muestral $\bar{x}$).

La Relación: Usamos los estadísticos (lo que medimos en la muestra) para estimar los parámetros (la verdad oculta de la población).

4. Tipos de Datos y Escalas de Medición

A. Datos Cualitativos (Atributos)

Escala Nominal: Solo categorías sin orden (ej. tipo de suelo: arcilloso, limoso, arenoso).
Escala Ordinal: Categorías con un orden lógico (ej. nivel de daño en una estructura: bajo, medio, alto).

B. Datos Cuantitativos (Numéricos)

Discretos: Conteo de números enteros (ej. número de tractores, cantidad de vigas).
Continuos: Pueden tomar cualquier valor en un rango, incluyen decimales (ej. presión de agua, pH del suelo, temperatura).
- Escala de Intervalo: El cero es relativo (ej. Temperatura en °C).
- Escala de Razón: El cero indica ausencia total de la variable (ej. Peso en kg, longitud en metros).

5. Ejemplos Aplicados a la Ingeniería

Ingeniería Agrícola

Un ingeniero desea evaluar la eficiencia de un nuevo sistema de riego por goteo en un lote de 50 hectáreas. * Población: Todas las plantas del lote de 50 hectáreas. * Muestra: 200 plantas seleccionadas aleatoriamente. * Dato Cuantitativo Continuo: El volumen de agua (litros) recibido por cada planta.

Ingeniería Civil

Se realizan pruebas de resistencia a la compresión en cilindros de concreto para un puente. * Población: Todo el concreto vertido en las vigas del puente. * Muestra: 10 cilindros de concreto tomados de diferentes mezcladoras. * Dato Cuantitativo Continuo: Resistencia a la rotura medida en MegaPascales (MPa).

Ingeniería Agroindustrial

Una planta procesadora de jugos busca controlar el contenido de azúcar (Brix) en su producción diaria. * Población: Todas las botellas de jugo producidas en un turno de 8 horas. * Muestra: 1 botella tomada cada 15 minutos. * Dato Cualitativo Ordinal: Calificación de sabor por un panel de expertos (Pobre, Aceptable, Excelente).

6. Verificación de Comprensión

Para cada una de las siguientes preguntas, recuerda estructurar tu respuesta identificando: Entradas – Proceso – Salidas.

Pregunta 1: Tipo de cultivo

Se registra el cultivo principal en diferentes lotes (ejemplo: Maíz, Yuca o Arroz).

Entradas: Los nombres de los productos (categorías).
Proceso: Clasificar si es un número o una palabra, y si tiene un orden específico.
Salidas: * Tipo de dato: Cualitativo.
- Escala de medición: Nominal (solo nombra la categoría, no hay un orden jerárquico entre el maíz y la yuca).

Respuesta a la Pregunta 1

Entradas: Los nombres de los productos sembrados (Maíz, Yuca, Arroz).
Proceso: Clasificar la información. Como son palabras (categorías) y no números, y además no hay un orden de “importancia” entre ellos, identificamos su naturaleza.
Salidas: * Tipo de dato: Cualitativo.
- Escala de medición: Nominal (porque solo son etiquetas o nombres).

Pregunta 2: Se cuenta el número de tractores que tiene una asociación de productores en Caimito (pueden ser 0, 1, 2, 5 tractores). ¿Qué tipo de dato es (discreto o continuo) y cuál es su escala de medición?

Recuerda: Entradas – Proceso – Salidas.

Respuesta a la pregunta 2:

Se registra la cantidad de tractores que tiene una asociación (0, 1, 2, 3…).

Entradas: El número de unidades físicas (tractores).
Proceso: Identificar si el dato permite valores intermedios (decimales) o solo números enteros. Como no puedes tener “medio tractor” funcionando, es un conteo exacto.
Salidas:
- Tipo de dato: Cuantitativo discreto.
- Escala de medición: Razón (porque el cero significa que no hay tractores).

1. Identificación de Datos en Python y R

Antes de calcular, hay que saber qué tenemos. Un error común es intentar promediar palabras.

En Python (Pandas)

import pandas as pd

# Supongamos un dataset de ingeniería
df = pd.DataFrame({
    'Lote': ['A', 'B', 'A', 'C'],      # Cualitativo Nominal
    'Resistencia_MPa': [25.5, 28.2, 24.8, 30.1], # Cuantitativo Continuo
    'Calidad': ['Media', 'Alta', 'Media', 'Alta'] # Cualitativo Ordinal
})

print(df.dtypes) # Identifica tipos: object (texto), float (decimal), int (entero)

En R

# Creando el dataframe
df <- data.frame(
  Lote = c("A", "B", "A", "C"),
  Resistencia_MPa = c(25.5, 28.2, 24.8, 30.1),
  Calidad = factor(c("Media", "Alta", "Media", "Alta"), levels=c("Baja", "Media", "Alta"))
)

str(df) # Muestra la estructura: num, factor (categorías), etc.

2. Cálculo de Estadísticos Descriptivos

Definiciones Matemáticas y en Código:

Media ($\bar{x}$): El promedio. Es sensible a valores extremos (outliers).
- Python: df['Resistencia'].mean() | R: mean(df$Resistencia)
Mediana: El valor central. Si un dato es muy “loco” (un error de sensor, por ejemplo), la mediana es más confiable que la media.
- Python: df['Resistencia'].median() | R: median(df$Resistencia)
Varianza ($s^2$): Qué tan dispersos están los datos respecto a la media en unidades al cuadrado.
- Python: df['Resistencia'].var() | R: var(df$Resistencia)
Desviación Estándar ($s$): La raíz cuadrada de la varianza. Nos da la dispersión en las mismas unidades que el dato original (ej. MPa o kg).
- Python: df['Resistencia'].std() | R: sd(df$Resistencia)

3. Interpretación en Contexto de Ingeniería

Supongamos que medimos la profundidad de siembra en un lote agrícola: * Media = 5 cm: En promedio, la sembradora está trabajando a la profundidad deseada. * Desviación Estándar = 0.2 cm: ¡Excelente control! La mayoría de las semillas están muy cerca de los 5 cm. Hay uniformidad. * Desviación Estándar = 2.5 cm: ¡Problema técnico! Hay mucha variabilidad; algunas semillas quedaron muy profundas y otras casi en la superficie. El cultivo nacerá desparejo.

4. ¿Qué pasa si los datos son Categóricos?

Si los datos son nombres (ej. “Tipo de Suelo”), no puedes calcular media ni desviación.

¿Qué calculamos? La Moda (el valor que más se repite) y la Frecuencia (porcentajes).
En Python: df['Lote'].value_counts()
Interpretación: “El 60% de las fallas en la obra ocurrieron en el material tipo Arcilla”. Aquí la estadística ayuda a identificar el foco del problema.

5. Errores Comunes al Interpretar

Confiar solo en la Media: Si tienes 9 vigas que resisten 30 MPa y una que resiste 0 MPa (se rompió), la media bajará a 27 MPa. La media te miente sobre la calidad general; por eso siempre mira la Desviación Estándar.
Confundir Correlación con Causalidad: Que el uso de más fertilizante coincida con más plagas no significa que el fertilizante atraiga plagas (podría ser el clima).
Ignorar el tamaño de la muestra ($n$): Tomar decisiones sobre un puente midiendo solo 1 cilindro de concreto es un suicidio profesional.

Verificación de Comprensión

Escenario: Tienes un dataset de 100 sensores de humedad en un cultivo. La media de humedad es 20%, pero la desviación estándar es de 15%.

Identifica: Entradas – Proceso – Salidas para el cálculo de la Desviación Estándar.
Interpretación: ¿Dirías que el sistema de riego está funcionando de manera uniforme? ¿Por qué?
Acción: Si un sensor marca 95% de humedad mientras los demás marcan 20%, ¿qué estadístico se verá más afectado: la media o la mediana?

Resumen: Fundamentos de Estadística en Ingeniería

A) Idea Central

La estadística aplicada es la herramienta técnica que transforma datos brutos en decisiones precisas, permitiendo gestionar la incertidumbre y la variabilidad en procesos de ingeniería.

B) Conceptos Clave (Viñetas)

Población ($N$): Universo total de elementos a estudiar (ej. todos los bultos de una cosecha).
Muestra ($n$): Subconjunto representativo de la población donde realmente medimos.
Dato Cuantitativo: Medida numérica; puede ser discreta (conteo) o continua (medición con decimales).
Dato Cualitativo: Categoría o atributo; puede ser nominal (sin orden) u ordinal (con jerarquía).
Media ($\bar{x}$): Centro de gravedad de los datos; muy sensible a valores extremos.
Mediana: Valor central que divide los datos al 50%; ideal cuando hay valores “locos” o atípicos.
Desviación Estándar ($s$): Indica qué tan dispersos están los datos respecto al promedio (mide la uniformidad).
Estadística Inferencial: El paso de usar lo que sé de la muestra para predecir lo que pasa en la población.

C) Relaciones Clave (El “Por qué” y “Cómo”)

Muestra $\rightarrow$ Población: Relacionamos el estadístico con el parámetro para ahorrar costos y tiempo en pruebas de campo o laboratorio.
Media vs. Desviación: Una media alta no sirve sin una desviación baja; la ingeniería busca precisión (cerca del objetivo) y exactitud (poca variabilidad).
Tipo de Dato $\rightarrow$ Herramienta: El tipo de dato dicta el proceso; no puedes promediar suelos (nominal), solo puedes contar cuál es el más frecuente (moda).

D) Ejemplo Aplicado (Ingeniería Agrícola)

Escenario: Evaluación de compactación de suelo en un lote de 10 ha. * Entradas: 20 lecturas de un penetrómetro (Datos cuantitativos continuos). * Proceso: Cálculo de media (resistencia promedio) y desviación (¿es igual de duro en todo el lote?). * Salidas: Decisión técnica de si es necesario usar un subsolador (maquinaria) en todo el lote o solo en manchas específicas.

E) Autoevaluación

P: ¿Si mido el pH del suelo, qué tipo de dato es?
- R: Cuantitativo continuo (escala de razón).
P: ¿Por qué la desviación estándar es mejor que la varianza para un informe técnico?
- R: Porque la desviación está en las mismas unidades que medimos (ej. metros, kg, MPa), facilitando la interpretación.
P: ¿Cuándo uso la mediana en lugar de la media?
- R: Cuando tengo datos extremos que sesgan el promedio (ej. un sensor fallido que marca un valor imposible).

F) Cierre

Hoy aprendí que la estadística no es solo calcular promedios, sino entender la variabilidad de los datos para garantizar que mis diseños y procesos de ingeniería sean confiables y eficientes.