Estadística inferencial · Física probabilística · Diseño de producto

Análisis estadístico de la justicia de un dado físico y de la posible influencia del proceso de fabricación sobre sus resultados.

1 Introducción

La estadística inferencial permite estudiar una población a partir de una muestra. En el caso de un dado físico, no es posible conocer de manera absoluta todas las condiciones que afectan cada lanzamiento; sin embargo, sí es posible observar muchos lanzamientos y analizar si sus resultados son compatibles con el comportamiento esperado de un dado justo.

Este trabajo aplica los contrastes de hipótesis al estudio físico-probabilístico de dados. El objetivo es evaluar si la distribución observada de las caras de un dado coincide con la distribución teórica esperada, y si un proceso de fabricación, como la impresión 3D, podría alterar la probabilidad de aparición de cada cara.

Desde una perspectiva física y de diseño industrial, un dado no es solamente un objeto geométrico. Su comportamiento depende de factores como la simetría, el centro de masa, la distribución del material, el desgaste de los bordes, la textura superficial, el rebote y la superficie sobre la que cae. Por eso, la estadística inferencial permite convertir una sospecha física en una pregunta evaluable con datos.

2 ¿Qué es un contraste de hipótesis?

Un contraste de hipótesis es un procedimiento de la estadística inferencial que permite evaluar, con base en datos muestrales, si existe evidencia suficiente para rechazar una afirmación inicial sobre una población. OpenStax define la prueba de hipótesis como un proceso en el que se recolectan datos de una muestra, se evalúan y luego se decide si existe evidencia suficiente para rechazar una hipótesis nula.

En todo contraste se formulan dos hipótesis:

  • Hipótesis nula \((H_0)\): representa la afirmación inicial, el estado de referencia o la ausencia de efecto.
  • Hipótesis alternativa \((H_1)\): representa la posibilidad de que exista una diferencia, desviación o efecto.

En el caso de un dado físico, la hipótesis nula puede afirmar que el dado es justo. Esto significa que cada cara tiene la misma probabilidad de aparecer:

\[ P(1)=P(2)=P(3)=P(4)=P(5)=P(6)=\frac{1}{6} \]

La hipótesis alternativa afirma que el dado no es justo, es decir, que al menos una cara tiene una probabilidad distinta de la esperada.

Un elemento central del contraste es el nivel de significancia, representado por \(\alpha\). El National Institute of Standards and Technology explica que el nivel de significancia define la sensibilidad de la prueba; por ejemplo, \(\alpha = 0.05\) implica aceptar un 5 % de probabilidad de rechazar la hipótesis nula cuando en realidad es verdadera. Este error se conoce como error tipo I.

Otro concepto clave es el valor p. Penn State STAT 500 lo define como la probabilidad de obtener un estadístico de prueba igual o más extremo que el observado, bajo el supuesto de que la hipótesis nula es verdadera.

La regla general de decisión es:

  • Si \(p \leq \alpha\), se rechaza \(H_0\).
  • Si \(p > \alpha\), no se rechaza \(H_0\).

Es importante decir “no se rechaza \(H_0\)” y no “se demuestra que \(H_0\) es verdadera”, porque un contraste de hipótesis no prueba verdades absolutas; solamente evalúa si la muestra aporta evidencia suficiente contra la hipótesis nula.

3 Algoritmo general para realizar un contraste de hipótesis

  1. Definir el problema físico o estadístico.
  2. Identificar la población o proceso que se desea estudiar.
  3. Formular la hipótesis nula \((H_0)\).
  4. Formular la hipótesis alternativa \((H_1)\).
  5. Definir el nivel de significancia \((\alpha)\).
  6. Determinar qué datos deben recogerse.
  7. Elegir el estadístico de contraste adecuado.
  8. Calcular las frecuencias observadas.
  9. Calcular las frecuencias esperadas bajo \(H_0\).
  10. Calcular el estadístico de prueba.
  11. Obtener el valor p.
  12. Comparar el valor p con \(\alpha\).
  13. Tomar una decisión estadística.
  14. Interpretar la conclusión en términos físicos.

4 Parámetros principales del contraste

Parámetros centrales en un contraste de hipótesis aplicado a dados.
Parametro Funcion Aplicacion_en_dados
Hipótesis nula (H0) Define el comportamiento esperado o de referencia. El dado es justo.
Hipótesis alternativa (H1) Define la posibilidad de diferencia, sesgo o efecto. El dado no es justo.
Nivel de significancia (alpha) Indica el riesgo máximo aceptado de cometer error tipo I. Usualmente se usa 0.05.
Estadístico de prueba Resume la distancia entre lo observado y lo esperado. Chi-cuadrado para frecuencias por cara.
Valor p Mide qué tan compatible es el resultado observado con H0. Permite decidir si se rechaza o no H0.
Frecuencia observada Cantidad real de veces que aparece cada cara. Conteo de resultados 1, 2, 3, 4, 5 y 6.
Frecuencia esperada Cantidad que se esperaría si H0 fuera cierta. Total de lanzamientos dividido entre seis.
Grados de libertad Número de valores independientes que pueden variar. Para seis caras: 6 - 1 = 5.

5 Escenario 1: Evaluación de la justicia probabilística de un dado comercial

5.1 Planteamiento del problema

Se desea evaluar si un dado comercial de seis caras puede considerarse justo. Desde el punto de vista teórico, un dado ideal debería tener la misma probabilidad para cada cara. Sin embargo, en un dado real pueden existir pequeñas imperfecciones físicas relacionadas con el material, el desgaste, la simetría o el centro de masa.

5.2 Pregunta de investigación

¿La distribución de resultados de un dado comercial es compatible con la distribución esperada de un dado justo?

5.3 Hipótesis

\[ H_0: P(1)=P(2)=P(3)=P(4)=P(5)=P(6)=\frac{1}{6} \]

\[ H_1: \text{Al menos una cara tiene una probabilidad diferente de } \frac{1}{6} \]

5.4 Tipo de información que debe recogerse

Para este escenario se necesita registrar el resultado de una gran cantidad de lanzamientos de un dado. La base de datos debe contener una columna con el resultado de cada lanzamiento, tomando valores de 1 a 6.

Para este trabajo se utiliza como referencia el conjunto de datos dice de OpenIntro, que contiene 10.000 lanzamientos simulados de un dado justo de seis caras.

url_dice <- "https://www.openintro.org/data/csv/dice.csv"

# Se intenta cargar la base dice de OpenIntro desde internet.
# Si el computador no tiene conexión, se genera una muestra simulada equivalente
# para que el documento pueda compilarse sin fallar.
dados_openintro <- tryCatch(
  {
    read.csv(url_dice)
  },
  error = function(e) {
    data.frame(y = sample(1:6, size = 10000, replace = TRUE, prob = rep(1/6, 6)))
  }
)

head(dados_openintro)
##   y
## 1 3
## 2 6
## 3 4
## 4 1
## 5 1
## 6 2
# La variable del dataset se llama "y" y representa el resultado del lanzamiento.
dados_openintro$cara <- factor(dados_openintro$y, levels = 1:6)

tabla_dado_comercial <- table(dados_openintro$cara)
tabla_dado_comercial
## 
##    1    2    3    4    5    6 
## 1617 1683 1660 1714 1663 1663

5.5 Frecuencias observadas y esperadas

Frecuencias observadas y esperadas para el dado comercial.
Cara Frecuencia_observada Frecuencia_esperada
1 1617 1666.667
2 1683 1666.667
3 1660 1666.667
4 1714 1666.667
5 1663 1666.667
6 1663 1666.667

5.6 Gráfica de resultados

barplot(
  tabla_escenario_1$Frecuencia_observada,
  names.arg = tabla_escenario_1$Cara,
  main = "Frecuencia observada por cara en el dado comercial",
  xlab = "Cara del dado",
  ylab = "Frecuencia observada"
)
abline(h = esperado_1[1], lty = 2)

5.7 Estadístico de contraste

Para este escenario se utiliza una prueba chi-cuadrado de bondad de ajuste, porque se compara una distribución observada con una distribución teórica esperada.

prueba_escenario_1 <- chisq.test(tabla_dado_comercial, p = rep(1/6, 6))
prueba_escenario_1
## 
##  Chi-squared test for given probabilities
## 
## data:  tabla_dado_comercial
## X-squared = 3.0272, df = 5, p-value = 0.6958

5.8 Interpretación esperada

Si el valor p es mayor que 0.05, no se rechaza la hipótesis nula. Esto indicaría que los datos observados son compatibles con un dado justo.

Si el valor p es menor o igual que 0.05, se rechaza la hipótesis nula. Esto sugeriría que el dado presenta una desviación estadísticamente significativa respecto a la distribución esperada.

6 Escenario 2: Comparación entre un dado comercial y un dado impreso en 3D

6.1 Planteamiento del problema

En este escenario se compara un dado comercial con un dado impreso en 3D. Desde la física del objeto, la impresión 3D puede generar variaciones en la distribución de masa, rugosidad superficial, relleno interno, capas de fabricación, desgaste de bordes o pequeñas asimetrías geométricas.

Estas diferencias podrían alterar el comportamiento probabilístico del dado al ser lanzado.

6.2 Pregunta de investigación

¿Existe diferencia estadísticamente significativa entre la distribución de resultados de un dado comercial y la de un dado impreso en 3D?

6.3 Hipótesis

\[ H_0: \text{La distribución de resultados es igual para el dado comercial y el dado impreso en 3D.} \]

\[ H_1: \text{La distribución de resultados es diferente entre ambos dados.} \]

6.4 Tipo de información que debe recogerse

Se requiere una base de datos con dos variables:

  • Tipo de dado: comercial o impreso en 3D.
  • Resultado del lanzamiento: número entre 1 y 6.

En este trabajo se simula un dado impreso en 3D con un posible sesgo hipotético para representar una situación física donde la fabricación puede afectar la distribución de los resultados. Esta simulación es académica y sirve para mostrar cómo se aplicaría el contraste.

n <- 10000

dado_comercial <- data.frame(
  tipo = "Comercial",
  cara = sample(1:6, size = n, replace = TRUE, prob = rep(1/6, 6))
)

dado_3d <- data.frame(
  tipo = "Impreso en 3D",
  cara = sample(1:6, size = n, replace = TRUE, prob = c(0.13, 0.15, 0.16, 0.17, 0.18, 0.21))
)

datos_comparacion <- rbind(dado_comercial, dado_3d)
datos_comparacion$cara <- factor(datos_comparacion$cara, levels = 1:6)

head(datos_comparacion)
##        tipo cara
## 1 Comercial    3
## 2 Comercial    3
## 3 Comercial    1
## 4 Comercial    3
## 5 Comercial    2
## 6 Comercial    4

6.5 Tabla de contingencia

tabla_escenario_2 <- table(datos_comparacion$tipo, datos_comparacion$cara)
tabla_escenario_2
##                
##                    1    2    3    4    5    6
##   Comercial     1617 1728 1641 1729 1606 1679
##   Impreso en 3D 1296 1557 1565 1649 1842 2091
Tabla de contingencia: tipo de dado frente a cara obtenida.
1 2 3 4 5 6
Comercial 1617 1728 1641 1729 1606 1679
Impreso en 3D 1296 1557 1565 1649 1842 2091

6.6 Gráfica comparativa

barplot(
  tabla_escenario_2,
  beside = TRUE,
  legend.text = TRUE,
  args.legend = list(x = "topright"),
  main = "Comparación entre dado comercial y dado impreso en 3D",
  xlab = "Cara del dado",
  ylab = "Frecuencia"
)

6.7 Estadístico de contraste

Para este escenario se utiliza una prueba chi-cuadrado de independencia u homogeneidad, porque se analiza si la distribución de resultados depende del tipo de dado.

prueba_escenario_2 <- chisq.test(tabla_escenario_2)
prueba_escenario_2
## 
##  Pearson's Chi-squared test
## 
## data:  tabla_escenario_2
## X-squared = 109.15, df = 5, p-value < 2.2e-16

6.8 Interpretación esperada

Si el valor p es mayor que 0.05, no se rechaza la hipótesis nula. Esto indicaría que no hay evidencia estadística suficiente para afirmar que la distribución de resultados cambia según el tipo de dado.

Si el valor p es menor o igual que 0.05, se rechaza la hipótesis nula. Esto sugeriría que el tipo de dado está asociado con diferencias en la frecuencia de aparición de las caras.

Desde el punto de vista físico, esta diferencia podría estar relacionada con variaciones en el centro de masa, imperfecciones geométricas, rugosidad, densidad del material o proceso de fabricación.

7 Estadísticos y métodos posibles

Comparación de métodos estadísticos posibles.
Metodo Uso Ventajas Desventajas
Chi-cuadrado de bondad de ajuste Comparar las frecuencias observadas de un dado con las esperadas para un dado justo. Es simple, directo y adecuado para variables categóricas con varias clases. Requiere frecuencias esperadas suficientemente grandes.
Chi-cuadrado de independencia Comparar si la distribución de resultados depende del tipo de dado o condición física. Permite comparar dos o más grupos o condiciones experimentales. No explica por sí sola cuál causa física produce la diferencia.
Prueba binomial Evaluar una cara específica del dado, por ejemplo si el número 6 aparece más de lo esperado. Es útil cuando interesa estudiar una cara particular. No analiza simultáneamente las seis caras del dado.
Simulación Monte Carlo Estimar la probabilidad de resultados extremos mediante simulaciones repetidas. Es flexible y ayuda cuando los supuestos clásicos no son cómodos. Puede requerir mayor coste computacional y una explicación más cuidadosa.

8 Análisis físico de los resultados

Los resultados estadísticos no deben interpretarse de manera aislada. Si un dado presenta una distribución diferente a la esperada, el análisis físico debe considerar posibles causas materiales o geométricas.

Entre los factores relevantes se encuentran:

  • Centro de masa desplazado.
  • Distribución irregular del material.
  • Caras con diferente textura.
  • Bordes desgastados o redondeados de manera desigual.
  • Defectos de impresión.
  • Diferencias en el relleno interno del dado impreso en 3D.
  • Superficie de lanzamiento.
  • Altura y técnica de lanzamiento.

Por lo tanto, el contraste de hipótesis no reemplaza el análisis físico, pero sí permite detectar si los resultados observados son compatibles o no con el modelo probabilístico esperado.

9 Conclusiones esperadas

En el primer escenario se espera que el dado comercial no muestre diferencias estadísticamente significativas frente a la distribución teórica de un dado justo. Si el valor p es mayor que 0.05, se concluye que los resultados observados son compatibles con un dado equilibrado.

En el segundo escenario se espera que el dado impreso en 3D pueda mostrar diferencias frente al dado comercial si se introduce un sesgo físico hipotético. Si el valor p es menor o igual que 0.05, se concluye que la distribución de resultados depende del tipo de dado.

En términos generales, este trabajo muestra que los contrastes de hipótesis permiten evaluar problemas físicos a partir de datos muestrales. En el caso de los dados, la estadística permite estudiar si un objeto aparentemente simétrico se comporta de acuerdo con el modelo de probabilidad esperado.

La aplicación tiene relevancia para la física probabilística y para el diseño de producto, porque permite analizar cómo la forma, el material y el proceso de fabricación pueden influir en el comportamiento funcional de un objeto.

10 Referencias

National Institute of Standards and Technology. (n.d.). Engineering Statistics Handbook: Critical values and p values. https://www.itl.nist.gov/div898/handbook/prc/section1/prc131.htm

OpenIntro. (n.d.). Data sets. https://www.openintro.org/data/

OpenStax. (2023). Introductory Statistics 2e. Rice University. https://openstax.org/books/introductory-statistics-2e/pages/9-introduction

Penn State Eberly College of Science. (n.d.). STAT 500: Applied Statistics. Lesson 6: Hypothesis testing. https://online.stat.psu.edu/stat500/Lesson06.html

Thompson Rivers University. (2023). Software Lab 2.1. In Introduction to Probability and Statistics. https://introprobabilityandstatistics.pressbooks.tru.ca/chapter/software-lab-2-1/