La estadística inferencial es la parte de la estadística que trabaja con muestras, a partir de las cuales pretende inferir aspectos relevantes de toda la población (Gutiérrez González & Panteleeva, 2016). Su principal objetivo es apoyar la toma de decisiones bajo condiciones de incertidumbre.
Las dos actividades principales de la estadística inferencial son el uso de datos para:
En estadística, una hipótesis es una aseveración o afirmación acerca de una propiedad de una población. Una prueba de hipótesis (o prueba de significancia) es un procedimiento estándar para probar una aseveración acerca de una propiedad de una población (Triola, 2009).
Los contrastes de hipótesis tienen aplicaciones en física, química, ingeniería, medicina y muchas otras áreas científicas. En el contexto físico, permiten analizar fenómenos experimentales y validar modelos mediante datos recolectados.
Un contraste de hipótesis es un procedimiento estadístico utilizado para evaluar afirmaciones acerca de parámetros poblacionales. A partir de la evidencia de una muestra, se decide si existe suficiente razón estadística para rechazar o no una afirmación inicial sobre la población.
Se definen siempre dos hipótesis en oposición:
\[H_0: \mu = \mu_0\]
\[H_1: \mu \neq \mu_0\]
donde \(\mu\) representa la media poblacional y \(\mu_0\) representa el valor de referencia con el que se compara.
⚠️ La hipótesis nula siempre contiene una igualdad (=, ≤ o ≥). La hipótesis alternativa es la que contiene la desigualdad estricta (≠, < o >).
El procedimiento estándar para llevar a cabo un contraste de hipótesis se compone de los siguientes pasos:
Hipótesis nula \(H_0\): según Triola (2006), es la afirmación de que el valor de un parámetro de población (como una proporción, media o desviación estándar) es igual a un valor aseverado. Es el valor que queremos corroborar si es cierto o no.
Hipótesis alternativa \(H_1\), \(H_a\) o \(H_A\): es la afirmación de que el parámetro tiene un valor que, de alguna manera, difiere de la hipótesis nula (Triola, 2006).
Nivel de significancia \(\alpha\): es la probabilidad de que el estadístico de prueba caiga en la región crítica cuando la hipótesis nula es verdadera. Representa la probabilidad de cometer el error de tipo I: rechazar \(H_0\) cuando en realidad es verdadera.
Región crítica (o región de rechazo): es el conjunto de todos los valores del estadístico de prueba que provocan el rechazo de la hipótesis nula.
Estadístico de prueba: valor calculado a partir de los datos muestrales (convirtiéndolos en una puntuación como \(z\), \(t\) o \(\chi^2\)) bajo el supuesto de que \(H_0\) es verdadera. Se usa para tomar la decisión sobre \(H_0\).
Valor p (p-valor): es la probabilidad de obtener un valor del estadístico de prueba al menos tan extremo como el observado, suponiendo que \(H_0\) es verdadera. Un p-valor pequeño (< \(\alpha\)) constituye evidencia en contra de \(H_0\).
Los siguientes dos escenarios ilustran cómo un contraste de hipótesis permite responder preguntas concretas sobre fenómenos físicos medibles.
¿Difiere el punto de ebullición del valor estándar de 100 °C debido a la altitud?
Medellín se encuentra ubicada a una altitud de aproximadamente 1.495 metros sobre el nivel del mar. A mayor altitud, la presión atmosférica disminuye, lo que tiene un efecto directo sobre las propiedades fisicoquímicas del agua, en particular su punto de ebullición.
El valor estándar internacional del punto de ebullición del agua es 100 °C, definido a una presión de 1 atm (101.325 kPa) al nivel del mar. Sin embargo, en Medellín la presión atmosférica promedio es de aproximadamente 84 kPa, lo que físicamente sugiere que el agua hierve a una temperatura inferior.
Pregunta de investigación: ¿Es el punto de ebullición medio del agua en Medellín estadísticamente diferente de 100 °C?
Hipótesis estadísticas:
H₀ (Hipótesis nula): μ = 100 °C — El punto de ebullición medio del agua en Medellín es igual al valor estándar de 100 °C.
H₁ (Hipótesis alternativa): μ ≠ 100 °C — El punto de ebullición medio del agua en Medellín es diferente del valor estándar. Contraste bilateral.
μ₀ = 100 °C α = 0.05 Contraste: bilateral Nivel de confianza: 95%
| Variable | Descripción | Especificación |
|---|---|---|
| Temperatura de ebullición | Variable de interés principal (°C) | Medida en el momento de ebullición sostenida |
| Instrumento de medición | Termómetro de precisión | Calibrado, resolución ≥ 0.1 °C |
| Tamaño de muestra | Número de mediciones (n) | Se recomienda n ≥ 30 para aplicar el TCL |
| Fuente del agua | Agua destilada o desmineralizada | Controla variabilidad por impurezas |
| Presión atmosférica | kPa registrado en cada medición | Usando barómetro calibrado |
| Fecha y hora | Registro temporal | Para detectar variación diaria o estacional |
| Condiciones climáticas | Temperatura ambiente, humedad | Variables de control adicionales |
| Estadístico | ¿Qué mide? | Ventajas | Desventajas |
|---|---|---|---|
| Media muestral (x̄) | Promedio de temperaturas observadas | ✔ Intuitiva y base del contraste | ✘ Sensible a valores extremos |
| Desviación estándar (s) | Dispersión de las mediciones | ✔ Cuantifica variabilidad del proceso | ✘ Puede sobrestimarse con pocos datos |
| Mediana | Valor central sin influencia de extremos | ✔ Robusta ante outliers | ✘ No se usa directamente en el test t |
| Error estándar (SE) | Precisión de la media muestral | ✔ Entrada directa del estadístico de contraste | ✘ Depende simultáneamente de s y n |
| Intervalo de confianza 95% | Rango plausible para μ | ✔ Más informativo que el p-valor solo | ✘ Su interpretación suele confundirse |
| p-valor | Probabilidad bajo H₀ | ✔ Estándar universal de decisión | ✘ No indica magnitud del efecto |
| d de Cohen | Magnitud práctica de la diferencia | ✔ Complementa el p-valor | ✘ Requiere interpretación adicional |
Método 1 — Test t de Student para una muestra (recomendado)
Se aplica cuando σ poblacional es desconocida (situación más común en la práctica):
\[t = \frac{\bar{x} - \mu_0}{s / \sqrt{n}}\]
El estadístico sigue una distribución t con n − 1 grados de libertad.
Método 2 — Test Z para una muestra
Aplicable cuando σ es conocida o n ≥ 30:
\[Z = \frac{\bar{x} - \mu_0}{\sigma / \sqrt{n}}\]
Se compara con Z crítico = ±1.96 para α = 0.05.
Método 3 — Test de Wilcoxon (no paramétrico)
Alternativa que no exige normalidad; trabaja con los rangos de las diferencias respecto a μ₀ = 100 °C.
Comparación entre métodos:
| Criterio | Test t | Test Z | Wilcoxon |
|---|---|---|---|
| σ poblacional necesaria | No | Sí / n grande | No |
| Supone normalidad | Sí / n ≥ 30 | Sí / n ≥ 30 | No |
| Potencia estadística | Alta | Alta | Moderada |
| Facilidad de interpretación | Alta | Alta | Media |
| Recomendado aquí | ✔ Principal | Con n grande | Solo si no hay normalidad |
Se concluye que el punto de ebullición medio del agua en Medellín es estadísticamente diferente de 100 °C. Dado el efecto físico de la altitud sobre la presión, se espera un valor alrededor de 95–96 °C, confirmando que las condiciones atmosféricas locales reducen significativamente el punto de ebullición.
No se encontraría evidencia estadística suficiente para afirmar que el punto de ebullición difiere de 100 °C al nivel α = 0.05. Podría deberse a alta variabilidad en las mediciones o muestra insuficiente, no a que el fenómeno físico no exista.
El estudio demuestra cómo el contraste de hipótesis permite cuantificar y validar formalmente un fenómeno físico conocido, con aplicaciones en cocina, industria alimentaria, laboratorios de química y educación científica.
# Simulación de 40 mediciones del punto de ebullición en Medellín
set.seed(42)
mediciones <- rnorm(n = 40, mean = 95.5, sd = 0.8)
# Resumen descriptivo
cat("--- Estadísticos descriptivos ---\n")## --- Estadísticos descriptivos ---
## n : 40
## Media (x̄) : 95.468 °C
## Desv. est. : 0.978 °C
## Error est. : 0.155 °C
# Contraste t para una muestra (bilateral, μ₀ = 100)
resultado <- t.test(mediciones, mu = 100, alternative = "two.sided", conf.level = 0.95)
print(resultado)##
## One Sample t-test
##
## data: mediciones
## t = -29.308, df = 39, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 100
## 95 percent confidence interval:
## 95.15562 95.78112
## sample estimates:
## mean of x
## 95.46837
¿Difiere el valor local de g del estándar internacional de 9.8 m/s² debido a la altitud y latitud?
El valor estándar de la aceleración de la gravedad es g = 9.80665 m/s², definido para una latitud de 45° al nivel del mar. Sin embargo, este valor no es constante en toda la superficie terrestre: varía en función de dos factores físicos principales.
El primero es la altitud: a mayor altura sobre el nivel del mar, la distancia al centro de la Tierra aumenta, lo que reduce la intensidad del campo gravitacional. El segundo es la latitud: la Tierra no es una esfera perfecta sino un esferoide achatado en los polos, por lo que en latitudes ecuatoriales el radio terrestre es mayor y la aceleración gravitacional es menor. Además, la rotación de la Tierra genera una fuerza centrífuga que reduce levemente el peso aparente de los objetos en zonas tropicales.
Medellín combina ambos efectos: se encuentra a ~1.495 m de altitud y a una latitud de aproximadamente 6° Norte, lo que físicamente sugiere que el valor local de g es inferior al estándar internacional.
El valor teórico esperado para Medellín, calculado mediante la fórmula de Helmert, es aproximadamente 9.7732 m/s². Se desea verificar estadísticamente si las mediciones experimentales confirman esta diferencia respecto al valor estándar.
Pregunta de investigación: ¿Es la aceleración de la gravedad medida experimentalmente en Medellín estadísticamente diferente del valor estándar de 9.8 m/s²?
Hipótesis estadísticas:
H₀ (Hipótesis nula): μ = 9.8 m/s² — La aceleración media de la gravedad en Medellín es igual al valor estándar internacional.
H₁ (Hipótesis alternativa): μ ≠ 9.8 m/s² — La aceleración media de la gravedad en Medellín es diferente del valor estándar. Contraste bilateral.
⚠️ Aunque físicamente se espera que g < 9.8 m/s² en Medellín, se plantea un contraste bilateral (≠) para no condicionar la conclusión estadística con el conocimiento previo, y porque errores sistemáticos del instrumento podrían producir valores superiores al estándar.
μ₀ = 9.8 m/s² α = 0.05 Contraste: bilateral Nivel de confianza: 95%
Se proponen dos métodos experimentales para medir g localmente:
Método A — Caída libre: Se deja caer un objeto desde una altura conocida \(h\) y se mide el tiempo de caída \(t\). Se despeja g de la ecuación cinemática:
\[g = \frac{2h}{t^2}\]
Método B — Péndulo simple: Se mide el período de oscilación \(T\) de un péndulo de longitud \(L\) conocida. Se despeja g de:
\[g = \frac{4\pi^2 L}{T^2}\]
| Variable | Descripción | Especificación |
|---|---|---|
| Aceleración g medida | Variable de interés principal (m/s²) | Calculada a partir de cada experimento |
| Método de medición | Caída libre o péndulo simple | Se recomienda el péndulo por mayor precisión |
| Instrumento de tiempo | Cronómetro digital o fotopuerta | Resolución ≥ 0.001 s |
| Instrumento de longitud | Cinta métrica o regla metálica | Resolución ≥ 1 mm |
| Tamaño de muestra | n ≥ 30 mediciones independientes | Aplica el Teorema Central del Límite |
| Punto de medición | Lugar fijo en Medellín | Misma altitud en todas las réplicas |
| Fecha y hora | Registro temporal | Para detectar variación por condiciones |
| Operador | Persona que realiza la medición | Controla el sesgo humano en la cronometración |
Protocolo sugerido: Usar un péndulo de longitud fija L = 1.00 m, medir el período promedio de 10 oscilaciones completas, repetir el proceso al menos 30 veces en el mismo lugar, y calcular g en cada réplica. Registrar temperatura y humedad como variables de control.
| Estadístico | ¿Qué mide? | Ventajas | Desventajas |
|---|---|---|---|
| Media muestral (x̄) | Promedio de los valores de g calculados | ✔ Base directa del contraste; intuitiva | ✘ Sensible a errores de medición extremos |
| Desviación estándar (s) | Dispersión de los valores de g | ✔ Refleja la precisión del experimento | ✘ Puede inflarse por errores humanos en la cronometración |
| Mediana | Valor central sin efecto de outliers | ✔ Robusta ante errores aislados de medición | ✘ No entra directamente en el test t |
| Error estándar (SE = s/√n) | Precisión de la media muestral | ✔ Cuantifica cuánto varía x̄ entre muestras | ✘ Disminuye artificialmente con n grande aunque el error sea real |
| Intervalo de confianza 95% | Rango donde se espera que caiga μ | ✔ Permite ver si 9.8 queda dentro o fuera del intervalo | ✘ Interpretación frecuentemente confundida |
| p-valor | Probabilidad de los datos bajo H₀ | ✔ Criterio estándar de decisión | ✘ No informa la magnitud física de la diferencia |
| d de Cohen | Tamaño del efecto (magnitud de μ − μ₀ en unidades de s) | ✔ Indica si la diferencia es prácticamente relevante | ✘ Poco usado en física; requiere contexto para interpretarse |
Método 1 — Test t de Student para una muestra (recomendado)
Es el método más adecuado porque la desviación estándar poblacional de las mediciones de g es desconocida y debe estimarse desde la muestra:
\[t = \frac{\bar{x} - \mu_0}{s / \sqrt{n}} = \frac{\bar{g} - 9.8}{s / \sqrt{n}}\]
El estadístico sigue una distribución t con n − 1 grados de libertad. Se rechaza H₀ si \(|t| > t_{\alpha/2, \, n-1}\).
Método 2 — Test Z para una muestra
Aplicable si se asume que la variabilidad de las mediciones de g es conocida (por calibración previa del instrumento) o cuando n ≥ 30:
\[Z = \frac{\bar{g} - 9.8}{\sigma / \sqrt{n}}\]
Se compara con los valores críticos Z = ±1.96 para α = 0.05.
Método 3 — Test de Wilcoxon para una muestra (no paramétrico)
Alternativa cuando no se puede asumir normalidad en los datos, por ejemplo si el proceso de cronometración introduce sesgos sistemáticos o asimetría. Trabaja con los rangos de las diferencias \(g_i - 9.8\).
Comparación entre métodos:
| Criterio | Test t | Test Z | Wilcoxon |
|---|---|---|---|
| σ poblacional necesaria | No | Sí / n ≥ 30 | No |
| Supone normalidad | Sí / n ≥ 30 | Sí / n ≥ 30 | No |
| Potencia estadística | Alta | Alta | Moderada |
| Sensible a outliers de medición | Sí | Sí | No |
| Facilidad de cálculo en R | Alta | Alta | Media |
| Recomendado aquí | ✔ Principal | Con n ≥ 30 | Si hay asimetría marcada |
Se concluye que la aceleración de la gravedad en Medellín es estadísticamente diferente de 9.8 m/s². Dado el efecto combinado de la altitud (~1.495 m) y la latitud tropical (~6°N), se espera que el valor experimental se sitúe alrededor de 9.773–9.778 m/s², ligeramente inferior al estándar. Esto confirmaría que los factores geográficos locales tienen un efecto medible sobre g.
No habría evidencia estadística suficiente para concluir que g difiere de 9.8 m/s² al nivel α = 0.05. Esto podría deberse a imprecisión en los instrumentos de medición del tiempo, variabilidad excesiva entre réplicas, o un tamaño de muestra insuficiente para detectar una diferencia que, aunque real, es de pequeña magnitud (~0.03 m/s²).
Ambos escenarios comparten el mismo origen: las condiciones geográficas particulares de Medellín (altitud y latitud) modifican valores físicos que normalmente se asumen constantes. Mientras en el Escenario 1 la altitud reduce la presión y baja el punto de ebullición, en este escenario altitud y latitud reducen conjuntamente la aceleración gravitacional. El contraste de hipótesis permite, en ambos casos, cuantificar y validar formalmente esas diferencias con rigor estadístico.
Conocer el valor exacto de g en una ubicación es relevante para ingeniería civil (cálculo de cargas), metrología (calibración de balanzas), geofísica (exploración de recursos), y experimentos de laboratorio que dependen de la gravedad local como valor de referencia.
# Simulación de 35 mediciones de g mediante péndulo simple en Medellín
# Valor esperado teórico: ~9.7732 m/s²
set.seed(7)
mediciones_g <- rnorm(n = 35, mean = 9.774, sd = 0.015)
# Resumen descriptivo
cat("--- Estadísticos descriptivos ---\n")## --- Estadísticos descriptivos ---
## n : 35
## Media (ḡ) : 9.7789 m/s²
## Desv. est. : 0.0161 m/s²
## Error est. : 0.0027 m/s²
# Contraste t para una muestra (bilateral, μ₀ = 9.8)
resultado_g <- t.test(mediciones_g, mu = 9.8, alternative = "two.sided", conf.level = 0.95)
print(resultado_g)##
## One Sample t-test
##
## data: mediciones_g
## t = -7.7568, df = 34, p-value = 5.041e-09
## alternative hypothesis: true mean is not equal to 9.8
## 95 percent confidence interval:
## 9.773316 9.784395
## sample estimates:
## mean of x
## 9.778856