Pruebas de hipótesis

#Paramétricas Los datos se distribuyen normalmente:

Prueba t de Student: Utilizada para comparar las medias de dos grupos independientes.

ANOVA (Análisis de Varianza): Utilizada para comparar las medias de tres o más grupos independientes.

*Regresión lineal: Utilizada para modelar la relación lineal entre una variable dependiente y una o más variables independientes.

*Prueba F: Utilizada en análisis de varianza y regresión lineal para comparar varianzas entre grupos.

*Regresión logística: Utilizada para modelar la relación entre una variable binaria dependiente y una o más variables independientes.

Prueba TStudent:

También conocida como la prueba t, es una prueba estadística utilizada para comparar las medias de dos grupos de datos y determinar si hay una diferencia significativa entre ellas. Fue desarrollada por William Sealy Gosset y publicada bajo el seudónimo “Student” en 1908. La prueba t es una herramienta fundamental en estadística y se utiliza comúnmente en diversas disciplinas científicas.

Por ejemplo, si tenemos dos grupos de estudiantes, uno que tomó clases de matemáticas y otro que no, podemos utilizar la prueba para determinar si el grupo que tomó clases de matemáticas tiene un promedio significativamente mayor en una prueba de matemáticas en comparación con el grupo que no tomó clases de matemáticas.

Al aplicar la prueba t, podemos obtener un valor llamado «valor t» que nos indica si la diferencia entre las medias de los dos grupos es significativa o no.

Comandos: \(rnorm\) se utiliza para generar datos aleatorios con una distribución normal. \(t.test\) realiza la prueba t de Student en los dos grupos.

La prueba t de Student se utiliza cuando tienes dos grupos de datos y deseas determinar si las medias de estos grupos son estadísticamente diferentes. La hipótesis nula \((H_0)\) es que no hay diferencia significativa entre las medias de los dos grupos, mientras que la hipótesis alternativa \((H_1)\) es que hay una diferencia significativa.

fórmula:

\[ t = \frac{(\bar{X}_1 - \bar{X}_2)}{s \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}} \]

Donde: - \(\bar{X}_1\) y \(\bar{X}_2\) son las medias de los dos grupos. - \(s\) es la desviación estándar combinada de los dos grupos. - \(n_1\) y \(n_2\) son los tamaños de las muestras de los dos grupos.

Ejemplo de Uso

Supongamos que tenemos dos conjuntos de datos:

Se desea comparar la velocidad de dos métodos de producción en una fábrica, uno nuevo (grupo de tratamiento) y el método actual (grupo de control).

# Generar datos ficticios
set.seed(987)  # Para reproducibilidad
velocidades_tratamiento <- rnorm(30, mean = 120, sd = 15)
velocidades_control <- rnorm(30, mean = 110, sd = 12)
var(velocidades_tratamiento)
## [1] 187.6555
var(velocidades_control)
## [1] 138.5729
# Realizar la prueba t de Student
resultado_prueba_velocidades <- t.test(velocidades_tratamiento, velocidades_control)
resultado_prueba_velocidadesvar <- t.test(velocidades_tratamiento, velocidades_control, var.equal = T)

# Mostrar el resultado
print(resultado_prueba_velocidades)
## 
##  Welch Two Sample t-test
## 
## data:  velocidades_tratamiento and velocidades_control
## t = 0.42659, df = 56.716, p-value = 0.6713
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -5.197339  8.010824
## sample estimates:
## mean of x mean of y 
##  117.0305  115.6238
print(resultado_prueba_velocidadesvar)
## 
##  Two Sample t-test
## 
## data:  velocidades_tratamiento and velocidades_control
## t = 0.42659, df = 58, p-value = 0.6713
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -5.194156  8.007641
## sample estimates:
## mean of x mean of y 
##  117.0305  115.6238
# Análisis de resultados
if (resultado_prueba_velocidades$p.value < 0.05) {
  cat("Hay una diferencia significativa entre la velocidad de produccion de los 2 procesos.")
} else {
  cat("No hay diferencia significativa entre la velocidad de produccion de los 2 procesos.")
}
## No hay diferencia significativa entre la velocidad de produccion de los 2 procesos.

Interpretación: De los dos grupos de estudio que contienen datos sobre la velocidad de produccion de 2 procesos independientes, se tiene que la Ho=Entre los 2 grupos no existen diferencias significativas en la velocidad de producción. Nuestra hipotesis alternativa H1=Si existe diferencia significativa entre la velocidad de produccion de los 2 procesos.

En la prueba T student al igual que en la otras pruebas obtenemos el valor p-value que se debe comparar contra la significancia dada por el IC estandard de 95%.

Al no rechazar la hipotesis nula, se infiere que el nuevo proceso de producción no generaria un cambio o mejora en los tiempos del mismo.

Cuándo se aplica: La prueba t de Student se aplica cuando se cumplen ciertos supuestos, tales como:

Normalidad de los datos: Los datos en cada grupo deben seguir una distribución normal. En casos de muestras grandes, la prueba t es robusta ante desviaciones de la normalidad.

Homogeneidad de varianzas: Se asume que las varianzas de los dos grupos son iguales. Si esta suposición no se cumple, se puede usar la versión corregida de Welch de la prueba t, que es más apropiada cuando las varianzas no son iguales.

Datos independientes: Las observaciones en un grupo no deben influir en las observaciones del otro grupo.

Tipos de prueba T Student:

  1. Prueba t de dos muestras para datos independientes: Esta prueba se utiliza cuando se quieren comparar las medias de dos grupos independientes, es decir, cuando las observaciones en un grupo no están relacionadas de ninguna manera con las observaciones en el otro grupo. Por ejemplo, se podría usar para comparar las calificaciones promedio de dos grupos de estudiantes que tomaron diferentes cursos.

  2. Prueba t de dos muestras para datos relacionados o emparejados: En este caso, se comparan las medias de dos grupos que están relacionados de alguna manera, como las mediciones antes y después de un tratamiento en el mismo grupo de individuos. También se conoce como «prueba t de muestras relacionadas» o «prueba t emparejada».

  3. Prueba t de una muestra: Esta prueba se utiliza cuando se quiere comparar la media de una sola muestra con un valor de referencia conocido o hipotético (por ejemplo, la media poblacional). Se utiliza para determinar si la muestra difiere significativamente de la media hipotética.

Prueba ANOVA

El Análisis de Varianza (ANOVA) es una técnica estadística utilizada para comparar las medias de tres o más grupos independientes. La idea principal es analizar si hay diferencias significativas en las medias de los grupos, considerando tanto las variaciones dentro de cada grupo como las variaciones entre los grupos.

En que consiste ANOVA

El ANOVA compara la varianza entre los grupos con la varianza dentro de los grupos. Si la varianza entre los grupos es mayor que la varianza dentro de los grupos, entonces es probable que exista una diferencia significativa en las medias. Si la varianza dentro de los grupos es mayor que la varianza entre los grupos, entonces cualquier diferencia observada en las medias podría ser simplemente aleatoria.

La fórmula general del modelo ANOVA se expresa como:

\[ Y_{ij} = \mu + \alpha_i + \epsilon_{ij} \]

Donde: - \(Y_{ij}\) es la observación \(j\) en el grupo \(i\). - \(\mu\) es la media global. - \(\alpha_i\) es el efecto del grupo \(i\). - \(\epsilon_{ij}\) es el error aleatorio asociado con la observación \(ij\).

La hipótesis nula (\(H_0\)) en ANOVA es que no hay diferencias significativas entre las medias de los grupos (\(\alpha_1 = \alpha_2 = \ldots = \alpha_k\), donde \(k\) es el número de grupos). La hipótesis alternativa (\(H_1\)) es que al menos dos medias son diferentes.

La prueba estadística ANOVA utiliza el estadístico \(F\), que se calcula dividiendo la variabilidad entre grupos por la variabilidad dentro de los grupos. Un valor \(F\) grande comparado con la distribución \(F\) indica que hay diferencias significativas entre las medias.

Casos de uso:

  1. Comparación de medias: El ANOVA se utiliza para comparar la media de tres o más grupos y determinar si existen diferencias significativas entre ellas.

  2. Experimentos controlados: Se utiliza en experimentos controlados para analizar los efectos de diferentes tratamientos o intervenciones en los resultados.

  3. Investigación de mercados: Se usa en investigación de mercados para analizar la preferencia de los consumidores por diferentes productos o servicios.

  4. Ciencias sociales: Para analizar la relación entre diferentes variables, como la edad, la educación y los ingresos. Investigación médica: El ANOVA se utiliza en investigación médica para analizar los efectos de diferentes tratamientos en pacientes con una determinada enfermedad.

Ejemplo:

Evaluar el rendimiento de tres diferentes métodos de enseñanza (A, B y C) en términos de los puntajes promedio obtenidos por los estudiantes en un examen. Queremos determinar si hay alguna diferencia significativa en los puntajes promedio entre los métodos de enseñanza.

# Generar datos ficticios
set.seed(123)  # Para reproducibilidad
grupo_A <- rnorm(30, mean = 75, sd = 10)
grupo_B <- rnorm(30, mean = 80, sd = 12)
grupo_C <- rnorm(30, mean = 78, sd = 11)

# Crear un data frame
datos <- data.frame(
  Metodo = rep(c("A", "B", "C"), each = 30),
  Puntajes = c(grupo_A, grupo_B, grupo_C)
)

# Realizar el ANOVA
resultado_anova <- aov(Puntajes ~ Metodo, data = datos)

# Mostrar el resultado
summary(resultado_anova)
##             Df Sum Sq Mean Sq F value Pr(>F)  
## Metodo       2    869   434.5   4.523 0.0135 *
## Residuals   87   8358    96.1                 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Df (Degrees of Freedom):

Para “Metodo” (Between Groups): 2 grados de libertad. Para “Residuals” (Within Groups): 87 grados de libertad. Sum Sq (Suma de Cuadrados):

Para “Metodo” (Between Groups): 781.1. Para “Residuals” (Within Groups): 4601.6. Mean Sq (Media de Cuadrados):

Para “Metodo” (Between Groups): 390.6 (781.1 / 2). Para “Residuals” (Within Groups): 52.8 (4601.6 / 87). F Value (Valor F):

El valor F es 4.331. Pr(>F): El valor p asociado con “Metodo” es 0.0183.

La hipótesis nula \((H_0)\) sería que no hay diferencias significativas entre las medias de los grupos.

El valor p asociado con “Metodo” (0.0183) es menor que el nivel de significancia típico de 0.05.

Por lo tanto, rechazaríamos la hipótesis nula y concluiríamos que hay diferencias significativas entre al menos dos de las medias de los grupos.