1. ¿Qué es la Estadística Aplicada?
- En lenguaje sencillo: Es el arte de usar los
números para contar una historia real. No es solo sumar o promediar; es
tomar datos de un cultivo, una obra o una fábrica y usarlos para
entender qué está pasando y qué podría pasar en el futuro.
- En lenguaje formal: Es la rama de la estadística
que utiliza métodos matemáticos y modelos probabilísticos para analizar
datos provenientes de observaciones o experimentos, con el fin de
resolver problemas específicos y facilitar la toma de decisiones en
contextos de incertidumbre.
2. Descriptiva vs. Inferencial
La estadística tiene dos “brazos” principales que trabajan en
momentos distintos:
| Descriptiva |
Organizar y resumir lo que ya tenemos.
Describe las características de un conjunto de datos sin sacar
conclusiones sobre un grupo mayor. |
Tablas de frecuencia, gráficas (histogramas), promedio,
desviación estándar. |
| Inferencial |
Generalizar y predecir. Usa una parte
de los datos para sacar conclusiones sobre todo un grupo y medir el
nivel de error. |
Pruebas de hipótesis, intervalos de confianza,
regresiones. |
3. Conceptos Clave y su Relación
Para entender la estadística, debemos distinguir entre el “todo” y la
“parte”:
- Población (\(N\)):
El conjunto total de individuos, objetos o medidas que poseen una
característica común que deseamos estudiar.
- Muestra (\(n\)):
Un subconjunto representativo de la población. Se usa porque estudiar a
toda la población suele ser costoso o imposible.
- Parámetro: Un valor numérico que describe una
característica de la población (ej. la media
poblacional \(\mu\)).
- Estadístico: Un valor numérico que describe una
característica de la muestra (ej. la media muestral
\(\bar{x}\)).
La Relación: Usamos los
estadísticos (lo que medimos en la muestra) para
estimar los parámetros (la verdad oculta de la
población).
4. Tipos de Datos y Escalas de Medición
A. Datos Cualitativos (Atributos)
- Escala Nominal: Solo categorías sin orden (ej. tipo
de suelo: arcilloso, limoso, arenoso).
- Escala Ordinal: Categorías con un orden lógico (ej.
nivel de daño en una estructura: bajo, medio, alto).
B. Datos Cuantitativos (Numéricos)
- Discretos: Conteo de números enteros (ej. número de
tractores, cantidad de vigas).
- Continuos: Pueden tomar cualquier valor en un
rango, incluyen decimales (ej. presión de agua, pH del suelo,
temperatura).
- Escala de Intervalo: El cero es relativo (ej. Temperatura
en °C).
- Escala de Razón: El cero indica ausencia total de la
variable (ej. Peso en kg, longitud en metros).
5. Ejemplos Aplicados a la Ingeniería
Ingeniería Agrícola
Un ingeniero desea evaluar la eficiencia de un nuevo sistema de riego
por goteo en un lote de 50 hectáreas. * Población:
Todas las plantas del lote de 50 hectáreas. * Muestra:
200 plantas seleccionadas aleatoriamente. * Dato Cuantitativo
Continuo: El volumen de agua (litros) recibido por cada
planta.
Ingeniería Civil
Se realizan pruebas de resistencia a la compresión en cilindros de
concreto para un puente. * Población: Todo el concreto
vertido en las vigas del puente. * Muestra: 10
cilindros de concreto tomados de diferentes mezcladoras. * Dato
Cuantitativo Continuo: Resistencia a la rotura medida en
MegaPascales (MPa).
Ingeniería Agroindustrial
Una planta procesadora de jugos busca controlar el contenido de
azúcar (Brix) en su producción diaria. * Población:
Todas las botellas de jugo producidas en un turno de 8 horas. *
Muestra: 1 botella tomada cada 15 minutos. *
Dato Cualitativo Ordinal: Calificación de sabor por un
panel de expertos (Pobre, Aceptable, Excelente).
6. Verificación de Comprensión
Para cada una de las siguientes preguntas, recuerda estructurar tu
respuesta identificando: Entradas – Proceso –
Salidas.
Pregunta 1: Tipo de cultivo
Se registra el cultivo principal en diferentes lotes (ejemplo: Maíz,
Yuca o Arroz).
- Entradas: Los nombres de los productos
(categorías).
- Proceso: Clasificar si es un número o una palabra,
y si tiene un orden específico.
- Salidas: * Tipo de dato:
Cualitativo.
- Escala de medición: Nominal (solo nombra la
categoría, no hay un orden jerárquico entre el maíz y la yuca).
Respuesta a la Pregunta 1
- Entradas: Los nombres de los productos sembrados
(Maíz, Yuca, Arroz).
- Proceso: Clasificar la información. Como son
palabras (categorías) y no números, y además no hay un orden de
“importancia” entre ellos, identificamos su naturaleza.
- Salidas: * Tipo de dato:
Cualitativo.
- Escala de medición: Nominal (porque solo son
etiquetas o nombres).
Pregunta 2: Se cuenta el número de
tractores que tiene una asociación de productores en Caimito
(pueden ser 0, 1, 2, 5 tractores). ¿Qué tipo de dato es
(discreto o continuo) y cuál es su escala de medición?
Recuerda: Entradas – Proceso – Salidas.
Respuesta a la pregunta 2:
Se registra la cantidad de tractores que tiene una asociación (0, 1,
2, 3…).
- Entradas: El número de unidades físicas
(tractores).
- Proceso: Identificar si el dato permite valores
intermedios (decimales) o solo números enteros. Como no puedes tener
“medio tractor” funcionando, es un conteo exacto.
- Salidas:
- Tipo de dato: Cuantitativo discreto.
- Escala de medición: Razón (porque el cero significa
que no hay tractores).
1. Identificación de Datos en Python y R
Antes de calcular, hay que saber qué tenemos. Un error común es
intentar promediar palabras.
En Python (Pandas)
import pandas as pd
# Supongamos un dataset de ingeniería
df = pd.DataFrame({
'Lote': ['A', 'B', 'A', 'C'], # Cualitativo Nominal
'Resistencia_MPa': [25.5, 28.2, 24.8, 30.1], # Cuantitativo Continuo
'Calidad': ['Media', 'Alta', 'Media', 'Alta'] # Cualitativo Ordinal
})
print(df.dtypes) # Identifica tipos: object (texto), float (decimal), int (entero)
En R
# Creando el dataframe
df <- data.frame(
Lote = c("A", "B", "A", "C"),
Resistencia_MPa = c(25.5, 28.2, 24.8, 30.1),
Calidad = factor(c("Media", "Alta", "Media", "Alta"), levels=c("Baja", "Media", "Alta"))
)
str(df) # Muestra la estructura: num, factor (categorías), etc.
2. Cálculo de Estadísticos Descriptivos
Definiciones Matemáticas y en Código:
- Media (\(\bar{x}\)): El promedio. Es
sensible a valores extremos (outliers).
- Python:
df['Resistencia'].mean() |
R: mean(df$Resistencia)
- Mediana: El valor central. Si un dato es muy “loco”
(un error de sensor, por ejemplo), la mediana es más confiable que la
media.
- Python:
df['Resistencia'].median() |
R: median(df$Resistencia)
- Varianza (\(s^2\)): Qué tan dispersos están
los datos respecto a la media en unidades al cuadrado.
- Python:
df['Resistencia'].var() |
R: var(df$Resistencia)
- Desviación Estándar (\(s\)): La raíz cuadrada de la
varianza. Nos da la dispersión en las mismas unidades
que el dato original (ej. MPa o kg).
- Python:
df['Resistencia'].std() |
R: sd(df$Resistencia)
3. Interpretación en Contexto de Ingeniería
Supongamos que medimos la profundidad de siembra en
un lote agrícola: * Media = 5 cm: En promedio, la
sembradora está trabajando a la profundidad deseada. *
Desviación Estándar = 0.2 cm: ¡Excelente control! La
mayoría de las semillas están muy cerca de los 5 cm. Hay uniformidad. *
Desviación Estándar = 2.5 cm: ¡Problema técnico! Hay
mucha variabilidad; algunas semillas quedaron muy profundas y otras casi
en la superficie. El cultivo nacerá desparejo.
4. ¿Qué pasa si los datos son Categóricos?
Si los datos son nombres (ej. “Tipo de Suelo”), no puedes
calcular media ni desviación.
- ¿Qué calculamos? La Moda (el valor
que más se repite) y la Frecuencia (porcentajes).
- En Python:
df['Lote'].value_counts()
- Interpretación: “El 60% de las fallas en la obra
ocurrieron en el material tipo Arcilla”. Aquí la estadística ayuda a
identificar el foco del problema.
5. Errores Comunes al Interpretar
- Confiar solo en la Media: Si tienes 9 vigas que
resisten 30 MPa y una que resiste 0 MPa (se rompió), la media bajará a
27 MPa. La media te miente sobre la calidad general; por eso siempre
mira la Desviación Estándar.
- Confundir Correlación con Causalidad: Que el uso de
más fertilizante coincida con más plagas no significa que el
fertilizante atraiga plagas (podría ser el clima).
- Ignorar el tamaño de la muestra (\(n\)): Tomar decisiones sobre un
puente midiendo solo 1 cilindro de concreto es un suicidio
profesional.
Verificación de Comprensión
Escenario: Tienes un dataset de 100 sensores de
humedad en un cultivo. La media de humedad es 20%, pero la desviación
estándar es de 15%.
- Identifica: Entradas – Proceso –
Salidas para el cálculo de la Desviación Estándar.
- Interpretación: ¿Dirías que el sistema de riego
está funcionando de manera uniforme? ¿Por qué?
- Acción: Si un sensor marca 95% de humedad mientras
los demás marcan 20%, ¿qué estadístico se verá más afectado: la media o
la mediana?
Resumen: Fundamentos de Estadística en
Ingeniería
A) Idea Central
La estadística aplicada es la herramienta técnica que transforma
datos brutos en decisiones precisas, permitiendo gestionar la
incertidumbre y la variabilidad en procesos de ingeniería.
B) Conceptos Clave (Viñetas)
- Población (\(N\)):
Universo total de elementos a estudiar (ej. todos los bultos de una
cosecha).
- Muestra (\(n\)):
Subconjunto representativo de la población donde realmente medimos.
- Dato Cuantitativo: Medida numérica; puede ser
discreta (conteo) o continua (medición
con decimales).
- Dato Cualitativo: Categoría o atributo; puede ser
nominal (sin orden) u ordinal (con
jerarquía).
- Media (\(\bar{x}\)): Centro de gravedad de
los datos; muy sensible a valores extremos.
- Mediana: Valor central que divide los datos al 50%;
ideal cuando hay valores “locos” o atípicos.
- Desviación Estándar (\(s\)): Indica qué tan dispersos
están los datos respecto al promedio (mide la uniformidad).
- Estadística Inferencial: El paso de usar lo que sé
de la muestra para predecir lo que pasa en la población.
C) Relaciones Clave (El “Por qué” y “Cómo”)
- Muestra \(\rightarrow\)
Población: Relacionamos el estadístico con el
parámetro para ahorrar costos y tiempo en pruebas de
campo o laboratorio.
- Media vs. Desviación: Una media alta no sirve sin
una desviación baja; la ingeniería busca precisión
(cerca del objetivo) y exactitud (poca
variabilidad).
- Tipo de Dato \(\rightarrow\) Herramienta: El tipo
de dato dicta el proceso; no puedes promediar suelos (nominal), solo
puedes contar cuál es el más frecuente (moda).
D) Ejemplo Aplicado (Ingeniería Agrícola)
Escenario: Evaluación de compactación de suelo en un
lote de 10 ha. * Entradas: 20 lecturas de un
penetrómetro (Datos cuantitativos continuos). *
Proceso: Cálculo de media (resistencia promedio) y
desviación (¿es igual de duro en todo el lote?). *
Salidas: Decisión técnica de si es necesario usar un
subsolador (maquinaria) en todo el lote o solo en manchas
específicas.
E) Autoevaluación
- P: ¿Si mido el pH del suelo, qué tipo de dato es?
- R: Cuantitativo continuo (escala de razón).
- P: ¿Por qué la desviación estándar es mejor que la
varianza para un informe técnico?
- R: Porque la desviación está en las mismas unidades
que medimos (ej. metros, kg, MPa), facilitando la interpretación.
- P: ¿Cuándo uso la mediana en lugar de la media?
- R: Cuando tengo datos extremos que sesgan el
promedio (ej. un sensor fallido que marca un valor imposible).
F) Cierre
Hoy aprendí que la estadística no es solo calcular promedios, sino
entender la variabilidad de los datos para garantizar que mis diseños y
procesos de ingeniería sean confiables y eficientes.