Estadística inferencial · Física probabilística · Diseño de producto
Análisis estadístico de la justicia de un dado físico y de la posible influencia del proceso de fabricación sobre sus resultados.
La estadística inferencial permite estudiar una población a partir de una muestra. En el caso de un dado físico, no es posible conocer de manera absoluta todas las condiciones que afectan cada lanzamiento; sin embargo, sí es posible observar muchos lanzamientos y analizar si sus resultados son compatibles con el comportamiento esperado de un dado justo.
Este trabajo aplica los contrastes de hipótesis al estudio físico-probabilístico de dados. El objetivo es evaluar si la distribución observada de las caras de un dado coincide con la distribución teórica esperada, y si un proceso de fabricación, como la impresión 3D, podría alterar la probabilidad de aparición de cada cara.
Desde una perspectiva física y de diseño industrial, un dado no es solamente un objeto geométrico. Su comportamiento depende de factores como la simetría, el centro de masa, la distribución del material, el desgaste de los bordes, la textura superficial, el rebote y la superficie sobre la que cae. Por eso, la estadística inferencial permite convertir una sospecha física en una pregunta evaluable con datos.
Un contraste de hipótesis es un procedimiento de la estadística inferencial que permite evaluar, con base en datos muestrales, si existe evidencia suficiente para rechazar una afirmación inicial sobre una población. OpenStax define la prueba de hipótesis como un proceso en el que se recolectan datos de una muestra, se evalúan y luego se decide si existe evidencia suficiente para rechazar una hipótesis nula.
En todo contraste se formulan dos hipótesis:
En el caso de un dado físico, la hipótesis nula puede afirmar que el dado es justo. Esto significa que cada cara tiene la misma probabilidad de aparecer:
\[ P(1)=P(2)=P(3)=P(4)=P(5)=P(6)=\frac{1}{6} \]
La hipótesis alternativa afirma que el dado no es justo, es decir, que al menos una cara tiene una probabilidad distinta de la esperada.
Un elemento central del contraste es el nivel de significancia, representado por \(\alpha\). El National Institute of Standards and Technology explica que el nivel de significancia define la sensibilidad de la prueba; por ejemplo, \(\alpha = 0.05\) implica aceptar un 5 % de probabilidad de rechazar la hipótesis nula cuando en realidad es verdadera. Este error se conoce como error tipo I.
Otro concepto clave es el valor p. Penn State STAT 500 lo define como la probabilidad de obtener un estadístico de prueba igual o más extremo que el observado, bajo el supuesto de que la hipótesis nula es verdadera.
La regla general de decisión es:
Es importante decir “no se rechaza \(H_0\)” y no “se demuestra que \(H_0\) es verdadera”, porque un contraste de hipótesis no prueba verdades absolutas; solamente evalúa si la muestra aporta evidencia suficiente contra la hipótesis nula.
| Parametro | Funcion | Aplicacion_en_dados |
|---|---|---|
| Hipótesis nula (H0) | Define el comportamiento esperado o de referencia. | El dado es justo. |
| Hipótesis alternativa (H1) | Define la posibilidad de diferencia, sesgo o efecto. | El dado no es justo. |
| Nivel de significancia (alpha) | Indica el riesgo máximo aceptado de cometer error tipo I. | Usualmente se usa 0.05. |
| Estadístico de prueba | Resume la distancia entre lo observado y lo esperado. | Chi-cuadrado para frecuencias por cara. |
| Valor p | Mide qué tan compatible es el resultado observado con H0. | Permite decidir si se rechaza o no H0. |
| Frecuencia observada | Cantidad real de veces que aparece cada cara. | Conteo de resultados 1, 2, 3, 4, 5 y 6. |
| Frecuencia esperada | Cantidad que se esperaría si H0 fuera cierta. | Total de lanzamientos dividido entre seis. |
| Grados de libertad | Número de valores independientes que pueden variar. | Para seis caras: 6 - 1 = 5. |
Se desea evaluar si un dado comercial de seis caras puede considerarse justo. Desde el punto de vista teórico, un dado ideal debería tener la misma probabilidad para cada cara. Sin embargo, en un dado real pueden existir pequeñas imperfecciones físicas relacionadas con el material, el desgaste, la simetría o el centro de masa.
¿La distribución de resultados de un dado comercial es compatible con la distribución esperada de un dado justo?
\[ H_0: P(1)=P(2)=P(3)=P(4)=P(5)=P(6)=\frac{1}{6} \]
\[ H_1: \text{Al menos una cara tiene una probabilidad diferente de } \frac{1}{6} \]
Para este escenario se necesita registrar el resultado de una gran cantidad de lanzamientos de un dado. La base de datos debe contener una columna con el resultado de cada lanzamiento, tomando valores de 1 a 6.
Para este trabajo se utiliza como referencia el conjunto de datos dice de OpenIntro, que contiene 10.000 lanzamientos simulados de un dado justo de seis caras.
url_dice <- "https://www.openintro.org/data/csv/dice.csv"
# Se intenta cargar la base dice de OpenIntro desde internet.
# Si el computador no tiene conexión, se genera una muestra simulada equivalente
# para que el documento pueda compilarse sin fallar.
dados_openintro <- tryCatch(
{
read.csv(url_dice)
},
error = function(e) {
data.frame(y = sample(1:6, size = 10000, replace = TRUE, prob = rep(1/6, 6)))
}
)
head(dados_openintro)
## y
## 1 3
## 2 6
## 3 4
## 4 1
## 5 1
## 6 2
# La variable del dataset se llama "y" y representa el resultado del lanzamiento.
dados_openintro$cara <- factor(dados_openintro$y, levels = 1:6)
tabla_dado_comercial <- table(dados_openintro$cara)
tabla_dado_comercial
##
## 1 2 3 4 5 6
## 1617 1683 1660 1714 1663 1663
| Cara | Frecuencia_observada | Frecuencia_esperada |
|---|---|---|
| 1 | 1617 | 1666.667 |
| 2 | 1683 | 1666.667 |
| 3 | 1660 | 1666.667 |
| 4 | 1714 | 1666.667 |
| 5 | 1663 | 1666.667 |
| 6 | 1663 | 1666.667 |
barplot(
tabla_escenario_1$Frecuencia_observada,
names.arg = tabla_escenario_1$Cara,
main = "Frecuencia observada por cara en el dado comercial",
xlab = "Cara del dado",
ylab = "Frecuencia observada"
)
abline(h = esperado_1[1], lty = 2)
Para este escenario se utiliza una prueba chi-cuadrado de bondad de ajuste, porque se compara una distribución observada con una distribución teórica esperada.
prueba_escenario_1 <- chisq.test(tabla_dado_comercial, p = rep(1/6, 6))
prueba_escenario_1
##
## Chi-squared test for given probabilities
##
## data: tabla_dado_comercial
## X-squared = 3.0272, df = 5, p-value = 0.6958
Si el valor p es mayor que 0.05, no se rechaza la hipótesis nula. Esto indicaría que los datos observados son compatibles con un dado justo.
Si el valor p es menor o igual que 0.05, se rechaza la hipótesis nula. Esto sugeriría que el dado presenta una desviación estadísticamente significativa respecto a la distribución esperada.
En este escenario se compara un dado comercial con un dado impreso en 3D. Desde la física del objeto, la impresión 3D puede generar variaciones en la distribución de masa, rugosidad superficial, relleno interno, capas de fabricación, desgaste de bordes o pequeñas asimetrías geométricas.
Estas diferencias podrían alterar el comportamiento probabilístico del dado al ser lanzado.
¿Existe diferencia estadísticamente significativa entre la distribución de resultados de un dado comercial y la de un dado impreso en 3D?
\[ H_0: \text{La distribución de resultados es igual para el dado comercial y el dado impreso en 3D.} \]
\[ H_1: \text{La distribución de resultados es diferente entre ambos dados.} \]
Se requiere una base de datos con dos variables:
En este trabajo se simula un dado impreso en 3D con un posible sesgo hipotético para representar una situación física donde la fabricación puede afectar la distribución de los resultados. Esta simulación es académica y sirve para mostrar cómo se aplicaría el contraste.
n <- 10000
dado_comercial <- data.frame(
tipo = "Comercial",
cara = sample(1:6, size = n, replace = TRUE, prob = rep(1/6, 6))
)
dado_3d <- data.frame(
tipo = "Impreso en 3D",
cara = sample(1:6, size = n, replace = TRUE, prob = c(0.13, 0.15, 0.16, 0.17, 0.18, 0.21))
)
datos_comparacion <- rbind(dado_comercial, dado_3d)
datos_comparacion$cara <- factor(datos_comparacion$cara, levels = 1:6)
head(datos_comparacion)
## tipo cara
## 1 Comercial 3
## 2 Comercial 3
## 3 Comercial 1
## 4 Comercial 3
## 5 Comercial 2
## 6 Comercial 4
tabla_escenario_2 <- table(datos_comparacion$tipo, datos_comparacion$cara)
tabla_escenario_2
##
## 1 2 3 4 5 6
## Comercial 1617 1728 1641 1729 1606 1679
## Impreso en 3D 1296 1557 1565 1649 1842 2091
| 1 | 2 | 3 | 4 | 5 | 6 | |
|---|---|---|---|---|---|---|
| Comercial | 1617 | 1728 | 1641 | 1729 | 1606 | 1679 |
| Impreso en 3D | 1296 | 1557 | 1565 | 1649 | 1842 | 2091 |
barplot(
tabla_escenario_2,
beside = TRUE,
legend.text = TRUE,
args.legend = list(x = "topright"),
main = "Comparación entre dado comercial y dado impreso en 3D",
xlab = "Cara del dado",
ylab = "Frecuencia"
)
Para este escenario se utiliza una prueba chi-cuadrado de independencia u homogeneidad, porque se analiza si la distribución de resultados depende del tipo de dado.
prueba_escenario_2 <- chisq.test(tabla_escenario_2)
prueba_escenario_2
##
## Pearson's Chi-squared test
##
## data: tabla_escenario_2
## X-squared = 109.15, df = 5, p-value < 2.2e-16
Si el valor p es mayor que 0.05, no se rechaza la hipótesis nula. Esto indicaría que no hay evidencia estadística suficiente para afirmar que la distribución de resultados cambia según el tipo de dado.
Si el valor p es menor o igual que 0.05, se rechaza la hipótesis nula. Esto sugeriría que el tipo de dado está asociado con diferencias en la frecuencia de aparición de las caras.
Desde el punto de vista físico, esta diferencia podría estar relacionada con variaciones en el centro de masa, imperfecciones geométricas, rugosidad, densidad del material o proceso de fabricación.
| Metodo | Uso | Ventajas | Desventajas |
|---|---|---|---|
| Chi-cuadrado de bondad de ajuste | Comparar las frecuencias observadas de un dado con las esperadas para un dado justo. | Es simple, directo y adecuado para variables categóricas con varias clases. | Requiere frecuencias esperadas suficientemente grandes. |
| Chi-cuadrado de independencia | Comparar si la distribución de resultados depende del tipo de dado o condición física. | Permite comparar dos o más grupos o condiciones experimentales. | No explica por sí sola cuál causa física produce la diferencia. |
| Prueba binomial | Evaluar una cara específica del dado, por ejemplo si el número 6 aparece más de lo esperado. | Es útil cuando interesa estudiar una cara particular. | No analiza simultáneamente las seis caras del dado. |
| Simulación Monte Carlo | Estimar la probabilidad de resultados extremos mediante simulaciones repetidas. | Es flexible y ayuda cuando los supuestos clásicos no son cómodos. | Puede requerir mayor coste computacional y una explicación más cuidadosa. |
Los resultados estadísticos no deben interpretarse de manera aislada. Si un dado presenta una distribución diferente a la esperada, el análisis físico debe considerar posibles causas materiales o geométricas.
Entre los factores relevantes se encuentran:
Por lo tanto, el contraste de hipótesis no reemplaza el análisis físico, pero sí permite detectar si los resultados observados son compatibles o no con el modelo probabilístico esperado.
En el primer escenario se espera que el dado comercial no muestre diferencias estadísticamente significativas frente a la distribución teórica de un dado justo. Si el valor p es mayor que 0.05, se concluye que los resultados observados son compatibles con un dado equilibrado.
En el segundo escenario se espera que el dado impreso en 3D pueda mostrar diferencias frente al dado comercial si se introduce un sesgo físico hipotético. Si el valor p es menor o igual que 0.05, se concluye que la distribución de resultados depende del tipo de dado.
En términos generales, este trabajo muestra que los contrastes de hipótesis permiten evaluar problemas físicos a partir de datos muestrales. En el caso de los dados, la estadística permite estudiar si un objeto aparentemente simétrico se comporta de acuerdo con el modelo de probabilidad esperado.
La aplicación tiene relevancia para la física probabilística y para el diseño de producto, porque permite analizar cómo la forma, el material y el proceso de fabricación pueden influir en el comportamiento funcional de un objeto.
National Institute of Standards and Technology. (n.d.). Engineering Statistics Handbook: Critical values and p values. https://www.itl.nist.gov/div898/handbook/prc/section1/prc131.htm
OpenIntro. (n.d.). Data sets. https://www.openintro.org/data/
OpenStax. (2023). Introductory Statistics 2e. Rice University. https://openstax.org/books/introductory-statistics-2e/pages/9-introduction
Penn State Eberly College of Science. (n.d.). STAT 500: Applied Statistics. Lesson 6: Hypothesis testing. https://online.stat.psu.edu/stat500/Lesson06.html
Thompson Rivers University. (2023). Software Lab 2.1. In Introduction to Probability and Statistics. https://introprobabilityandstatistics.pressbooks.tru.ca/chapter/software-lab-2-1/