Hipótesis estadística

En muchos estudios estadísticos, el objetivo, más que estimar el valor de un parámetro desconocido en la población, es comprobar la veracidad de una hipótesis formulada sobre la población objeto de estudio.

El investigador, de acuerdo a su experiencia o a estudios previos, suele tener conjeturas sobre la población estudiada que expresa en forma de hipótesis.

¿Que es?

Una hipótesis estadística es cualquier afirmación o conjetura que determina, total o parcialmente, la distribución de una o varias variables de la población.

Ejemplo

Para contrastar el rendimiento académico de un grupo de alumnos en una determinada asignatura, podríamos platear la hipótesis de si el porcentaje de aprobados es mayor del 50%.

Contraste de hipótesis

En general nunca se sabrá con absoluta certeza si una hipótesis estadística es cierta o falsa, ya que para ello habría que estudiar a todos los individuos de la población.

Para comprobar la veracidad o falsedad de estas hipótesis hay que contrastarlas con los resultados empíricos obtenidos de las muestras. Si los resultados observados en las muestras coinciden, dentro del margen de error admisible debido al azar, con lo que cabría esperar en caso de que la hipótesis fuese cierta, la hipótesis se aceptará como verdadera, mientras que en caso contrario se rechazará como falsa y se buscarán nuevas hipótesis capaces de explicar los datos observados.

Como las muestras se obtienen aleatoriamente, la decisión de aceptar o rechazar una hipótesis estadística se tomará sobre una base de probabilidad.

La metodología que se encarga de contrastar la veracidad de las hipótesis estadísticas se conoce como contraste de hipótesis.

Tipos de contrastes de hipótesis

Planteamiento de un contraste de hipótesis

Hipótesis nula e hipótesis alternativa

En un contraste supone tomar una decisión entre dos hipótesis antagonistas:

Hipótesis nula: Es la hipótesis conservadora, ya que se mantendrá mientras que los datos de las muestras no reflejen claramente su falsedad.
Hipótesis alternativa: Es la negación de la hipótesis nula y generalmente representa la afirmación que se pretende probar.

Errores

Cuando se efectúa pues un contraste de hipótesis pueden ocurrir varias situaciones que conllevan a los denominados errores:

  • Aceptar la hipótesis nula siendo cierta (CORRECTO).
  • Aceptar la hipótesis alternativa siendo cierta (CORRECTO).
  • Rechazar la hipótesis nula siendo cierta (ERROR TIPO I O ERROR ALFA) la probabilidad de cometer este error es el nivel de significación del contraste.
  • Aceptar la hipótesis nula siendo falsa (ERROR TIPO II O ERROR BETA). No se conoce, al valor de uno menos beta se le denomina potencia del contraste.

En la siguiente tabla se resumen todas las situaciones y errores posibles al realizar una prueba de contraste de hipótesis.

Errores en los contrastes de hipótesis

Ejemplo de contraste de hipótesis en código

#####################################################################################
#                                                                                   #
# Están midiendo la altura de dos equipos de baloncesto, se quiere verificar si     #
# el promedio de las alturas de cada equipo es diferente. Se usará la prueba T      #
# para realizar el contrastse de hipótesis.                                         #
#                                                                                   #
# H0: no hay diferencia signiticativa entre los promedios de los equipos.           #
# Ha: hay diferencia signiticativa entre los promedios de los equipos.              #
#                                                                                   #
#####################################################################################

# crear los vectores de altura de cada equipo
equipo1 <- c(170, 175, 165, 172, 180)
equipo2 <- c(160, 155, 165, 162, 170)

# contraste de hipótesis utilizando la función t.test
resp <- t.test(equipo1, equipo2, alternative = "two.sided")

# resultado del contraste de hipótesis
resp
## 
##  Welch Two Sample t-test
## 
## data:  equipo1 and equipo2
## t = 2.8262, df = 8, p-value = 0.02228
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##   1.840524 18.159476
## sample estimates:
## mean of x mean of y 
##     172.4     162.4
#####################################################################################
#                                                                                   #
# Decisión: se muestra el p - valor de 0.02228, es menor que 0.05.                  #
#           por lo que no hay evidencia suficiente para rechazar H0.                #
#                                                                                   #
# En conclusión, no hay diferencia signiticativa entre los promedios de los equipos #
#                                                                                   #
#####################################################################################

Gráfico

# crear un dataframe
datos <- data.frame(Altura = c(equipo1, equipo2), 
                    Grupo = rep(c("Equipo 1", "Equipo 2"), each = 5))

# Graficar los datos utilizando un boxplot
library(ggplot2)
ggplot(datos, aes(x = Grupo, y = Altura, fill = Grupo)) +
  geom_boxplot() +
  labs(x = "Grupo", y = "Altura", title = "Comparación de alturas por equipo") +
  theme_minimal()