En muchos estudios estadísticos, el objetivo, más que estimar el valor de un parámetro desconocido en la población, es comprobar la veracidad de una hipótesis formulada sobre la población objeto de estudio.
El investigador, de acuerdo a su experiencia o a estudios previos, suele tener conjeturas sobre la población estudiada que expresa en forma de hipótesis.
Una hipótesis estadística es cualquier afirmación o conjetura que determina, total o parcialmente, la distribución de una o varias variables de la población.
Para contrastar el rendimiento académico de un grupo de alumnos en una determinada asignatura, podríamos platear la hipótesis de si el porcentaje de aprobados es mayor del 50%.
En general nunca se sabrá con absoluta certeza si una hipótesis estadística es cierta o falsa, ya que para ello habría que estudiar a todos los individuos de la población.
Para comprobar la veracidad o falsedad de estas hipótesis hay que contrastarlas con los resultados empíricos obtenidos de las muestras. Si los resultados observados en las muestras coinciden, dentro del margen de error admisible debido al azar, con lo que cabría esperar en caso de que la hipótesis fuese cierta, la hipótesis se aceptará como verdadera, mientras que en caso contrario se rechazará como falsa y se buscarán nuevas hipótesis capaces de explicar los datos observados.
Como las muestras se obtienen aleatoriamente, la decisión de aceptar o rechazar una hipótesis estadística se tomará sobre una base de probabilidad.
La metodología que se encarga de contrastar la veracidad de las hipótesis estadísticas se conoce como contraste de hipótesis.
Tipos de contrastes de hipótesis
En un contraste supone tomar una decisión entre dos hipótesis antagonistas:
Cuando se efectúa pues un contraste de hipótesis pueden ocurrir varias situaciones que conllevan a los denominados errores:
En la siguiente tabla se resumen todas las situaciones y errores posibles al realizar una prueba de contraste de hipótesis.
Errores en los contrastes de hipótesis
#####################################################################################
# #
# Están midiendo la altura de dos equipos de baloncesto, se quiere verificar si #
# el promedio de las alturas de cada equipo es diferente. Se usará la prueba T #
# para realizar el contrastse de hipótesis. #
# #
# H0: no hay diferencia signiticativa entre los promedios de los equipos. #
# Ha: hay diferencia signiticativa entre los promedios de los equipos. #
# #
#####################################################################################
# crear los vectores de altura de cada equipo
equipo1 <- c(170, 175, 165, 172, 180)
equipo2 <- c(160, 155, 165, 162, 170)
# contraste de hipótesis utilizando la función t.test
resp <- t.test(equipo1, equipo2, alternative = "two.sided")
# resultado del contraste de hipótesis
resp
##
## Welch Two Sample t-test
##
## data: equipo1 and equipo2
## t = 2.8262, df = 8, p-value = 0.02228
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## 1.840524 18.159476
## sample estimates:
## mean of x mean of y
## 172.4 162.4
#####################################################################################
# #
# Decisión: se muestra el p - valor de 0.02228, es menor que 0.05. #
# por lo que no hay evidencia suficiente para rechazar H0. #
# #
# En conclusión, no hay diferencia signiticativa entre los promedios de los equipos #
# #
#####################################################################################
# crear un dataframe
datos <- data.frame(Altura = c(equipo1, equipo2),
Grupo = rep(c("Equipo 1", "Equipo 2"), each = 5))
# Graficar los datos utilizando un boxplot
library(ggplot2)
ggplot(datos, aes(x = Grupo, y = Altura, fill = Grupo)) +
geom_boxplot() +
labs(x = "Grupo", y = "Altura", title = "Comparación de alturas por equipo") +
theme_minimal()