Pruebas de hipótesis

Métodos Cuantitativos

Diego Solís Delgadillo

Prueba de hipótesis

  • Consiste en una prueba entre dos hipótesis en competencia
    • Hipótesis nula
    • Hipótesis alternativa
  • La hipótesis nula sostiene que no existe un efecto

Ejemplo hipótesis

\(H_0\): Los hombres y mujeres tienen salarios iguales⚖️

\(H_A\): Los hombres tienen salarios superiores a la mujeres 🧔⬆️

  • Las hipótesis alternativas pueden ser direccionadas o no direccionadas

  • Un estudio quiere saber si hay sesgo en la promoción de trabajadores
    • H1. Se prefieren hombres a mujeres
  • Se les entregó a supervisores de banco resúmenes (cvs) idénticos

Note

  • Solo eran distintos en el sexo de la persona
  • 24 resumenes con nombres de hombre y 24 con nombres de mujeres

La base de datos

  • El paquete moderndive contiene la información
library(moderndive)

promotions %>%
sample_n(size = 6) %>%
arrange(id)
# A tibble: 6 × 3
     id decision gender
  <int> <fct>    <fct> 
1     6 promoted male  
2     8 promoted male  
3    22 promoted female
4    31 promoted female
5    36 not      male  
6    39 not      female

Visualización de la base

ggplot(promotions, aes(x = gender, fill = decision)) +
geom_bar() +
labs(x = "Género en el currículum")

Comparación entre géneros

Important

  • Menos mujeres fueron promovidas
promotions %>%
group_by(gender, decision) %>%
tally()
# A tibble: 4 × 3
# Groups:   gender [2]
  gender decision     n
  <fct>  <fct>    <int>
1 male   not          3
2 male   promoted    21
3 female not         10
4 female promoted    14

Tip

  • 21 de 24 hombres promovidos (87.5%)
  • 14 de 24 mujeres (58.3%)

  • ¿Es posible haber obtenido este resultado solo por muestreo?

Variación muestral

  • En los datos hay una diferencia de 29% en las promociones

Diferencia sin discriminación

  • Si en la población no hubiese discriminación esa diferencia sería igual a 0
    • Un mundo sin discriminación

Estimador y ruido

  • 📌 Pero es posible que obtengamos valores distintos a 0 solo por muestreo (por azar)

Prueba de hipótesis

  • En el ejercicio de promociones lo que nos interesa es la diferencia de proporciones

\[ p_{h}-p_{m}\]

  • Comparamos dos hipótesis
    • Hipótesis nula \(H_{0}\)
    • Hipótesis alternativa \(H_{A}\)

Hipótesis nula

¿Qué indica?

  • La hipótesis nula afirma que no existe un efecto o diferencia de interés

Ejemplo

  • \(H_{0}\): Los hombres y mujeres son promovidos por igual
  • \(H_{A}\): Los hombres son promovidos a tasa mayor

Estimador y distribución nula

  • Nuestro estimador es la diferencia observada en los datos

\[ \hat{p}_{h}-\hat{p}_{m}= 0.875-0.583=0.292=29.2%\]

¿Qué es la distribución nula?

  • La distribución nula es la distribución muestral asumiendo que el valor del parámetro es igual a 0

P-value

  • Es la probabilidad de obtener un estimador dado que \(H_{0}\) es verdadera

Tip

  • Si es una probabilidad es muy pequeña rechazamos la hipótesis nula

Nivel de significancia

  • Es el umbral establecido para rechazar \(H_{0}\)
    • Generalmente 95%

¿Qué implica?

  • Una significancia de 95% implica que solo habría un 5% de obtener los resultados que tenemos dado que \(H_{0}\) es verdadera

No rechazar \(H_0\) no implica aceptarla

  • No rechazar \(H_0\) no significa que se acepte como verdadera
    • Solo indica que la evidencia disponible no es suficiente para rechazarla con el nivel de significancia establecido.

Advertencia

  • Es un error común interpretar el no rechazo de \(H_0\) como una prueba de su veracidad.

Errores Tipo I y Tipo II

Error Tipo I

Rechazar una hipótesis nula verdadera (falso positivo).

Error Tipo II

No rechazar una hipótesis nula falsa (falso negativo).

Error Tipo I

  • Un juez declara culpable a una persona inocente.
  • Un test da positivo a una persona no infectada

Error Tipo II

  • Un juez declara inocente a una persona culpable.
  • Un test da negativo para una persona que está infectada.

Diferencia de proporciones

Comparación de proporciones

  • Un método de comparación de grupos es la prueba de significancia

  • Partimos de una hipótesis nula donde las proporciones son iguales para los grupos

\[H_0= \hat{p}_1=\hat{p}_2\]

📌 Esto significa no efecto

Paso 1. Proporción agregada

  • El primer paso para la prueba es crear una proporción agregada

  • Por ejemplo, el Grupo 1 tiene 20 observaciones con 7 éxitos:

    • \(n_1 = 20\)
    • \(\hat{p}_1 = 0.35\)
  • El Grupo 2 tiene 10 observaciones y 5 éxitos:

    • \(n_2 = 10\)
    • \(\hat{p}_2 = 0.5\)
  • Proporción agregada: \(\hat{p} = \frac{7 + 5}{20 + 10} = \frac{12}{30} = 0.4\)

Paso 2: Error estándar

  • En segundo lugar calculamos el error estándar para la hipótesis nula
    • Utilizando la proporción agregada

\[ se=\sqrt{{\hat{p}(1-\hat{p})}(\frac{1}{n_1}} + \frac{1}{n_2})\] \[ se=\sqrt{{0.4(1-0.4)}(\frac{1}{20}} + \frac{1}{10})=0.24\]

Paso 3: Puntuación Z

  • Con la información podemos calcular la puntuación Z

\[ Z= \frac{Estimador- H_0}{se_0}\] \[ Z= \frac{(\hat{p}_1-\hat{p}_2)- 0}{se_0}\]

\[ Z= \frac{(0.35-0.5)- 0}{0.24}=-0.62\]

Tabla Z

Tip

  • La probabilidad acumulada a 0.62 es de 76.42
  • Quiere decir que el resultado no es significativo
  • Esta diferencia no sería atípica dada que la \(H_0\) fuese verdadera

Ejemplo 2

  • 📺 Un estudio quiere saber si hay relación entre ver televisión y cometer actos violentos
    • El estudio se enfoca en adolescentes
    • Parten de una muestra aleatoria de 707 familias

Ejemplo 2

Horas de TV Comportamiento agresivo Sin comportamiento agresivo Total
Menos de 1 hr 5 83 88
Al menos 1 hr 154 435 619

Ejemplo 2

Calculamos las proporciones

📌 Grupo 1 \[n_1=88\] \[\hat{p}_1=\frac{5}{88}=0.057\]

📌 Grupo 2 \[n_2=619\] \[\hat{p}_2=\frac{154}{619}=0.249\]

Paso 1:Proporción agregada

  • En primer lugar calculamos la proporción agregada

\[\hat{p}= \frac{5+154}{88+619}=\frac{159}{707}=0.224\]

Paso 2: Error estándar

  • Con la proporción agregada calculamos el error estándar considerando \(H_0\) como verdadera

\[ se=\sqrt{{\hat{p}(1-\hat{p})}(\frac{1}{n_1}} +\frac{1}{n_2}) \]

\[ se=\sqrt{{0.224(1-0.224)}(\frac{1}{88}} + \frac{1}{619})=0.047 \]

Paso 3: Estimar puntuación Z

\[ Z= \frac{(\hat{p}_1-\hat{p}_2)- 0}{se_0}\] \[ Z= \frac{(0.057-0.249)- 0}{0.047}=-4.08\] - Una puntuación de -4.08 es significativa al 99%

Diferencia de medias

Diferencia de medias

  • Cuando la respuesta es cuantitativa comparamos sus medias
  • Analizamos en qué medida la diferencia entre las medias de la muestra \((\bar{x}_1− \bar{x}_2)\)
  • Representan a la diferencia entre las medias de la población \((\bar{\mu}_1− \bar{\mu}_2)\)

Error estándar

  • El error estándar de la distribución muestral para diferencia de medias es

\[se(\bar{x}_1 - \bar{x}_2) = \sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}\]

  • Donde \(s\) es la desviación estándar y \(n\) el número de observaciones

Ejemplo 3

  • Tenemos un experimento que quiere ver el efecto de reportar resultados acompañados de un gráfico

  • Un grupo de tratamiento lee sobre la efectividad de un medicamento con gráficos

  • Un grupo de control lee sobre la efectividad de un medicamento sin gráficos

  • Al final hacen una valoración del 1 al 10 sobre la efectividad del medicamento

Ejemplo 3

Grupo Tamaño de la muestra Media Desviación estándar
Texto y gráfico 30 6.83 1.18
Solo texto 31 6.13 1.43
  • La diferencia entre las muestras es \((\bar{x}_1− \bar{x}_2)= (6.83)-(6.13)=0.7\)

Calculando el error estándar

\[se= \sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}\] \[se= \sqrt{\frac{1.18^2}{30} + \frac{1.43^2}{31}}=0.335\]

T test con dos muestras

  • Compara si forman parte de la misma distribución
  • Podemos obtener diferentes medias simplemente por muestreo
  • Qué tan atípica serían los valores para los grupos si su media fuese la misma

Prueba t

  • Para poner a prueba si la diferencia es significativa calculamos puntuaciones \(t\)

\[ t=\frac{(\bar{x}_1− \bar{x}_2)-0}{se}\] - En el ejemplo previo \[\hat{x}_1=6.83\] \[\hat{x}_2=6.13\]

Prueba t

\[ t=\frac{(6.83− 6.13)-0}{0.335}= 2.08\]

  • Al revisar la tabla \(t\) vemos que supera el umbral de 95%
  • El resultado es significativo

¿Cuándo usamos prueba de diferencia de medias?

  • Cuando queremos comparar si dos grupos tienen promedios distintos
  • Ejemplos:
    • ¿Tienen las mujeres y los hombres salarios diferentes?
    • ¿Los estudiantes que toman café tienen mejor promedio?
  • Las variables deben ser cuantitativas (como salario, altura, ingresos)

Fórmula para diferencia de medias

\[t = \frac{\bar{x}_1 - \bar{x}_2}{\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}} \]

  • \(\bar{x}_1, \bar{x}_2\): medias muestrales
  • \(s_1^2, s_2^2\): varianzas
  • \(n_1, n_2\): tamaños de muestra

Interpretación del resultado

  • Se obtiene un valor t y un valor p
  • Si el valor p < 0.05, se rechaza \(H_0\)
  • Concluimos que las medias son diferentes

Ejemplo Becas

  • Queremos saber si los estudiantes que reciben beca tienen un promedio distinto a quienes no la reciben.

Hipótesis:

  • \(H_0\): No hay diferencia en los promedios (\(\mu_1 = \mu_2\)))
  • \(H_A\): Hay diferencia en los promedios (\(\mu_1 \ne \mu_2\) )

Datos

Tenemos la siguiente información:

  • Estudiantes con beca:
    \(n_1 = 30\), \(\bar{x}_1 = 8.4\), \(s_1 = 0.5\)

  • Estudiantes sin beca:
    \(n_2 = 30\), \(\bar{x}_2 = 8.0\), \(s_2 = 0.6\)

Paso 1:Error estándar

\[t = \frac{\bar{x}_1 - \bar{x}_2}{se} \]

\[se={\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}}\]

\[se={\sqrt{\frac{0.5^2}{30} + \frac{0.6^2}{30}}}=0.142 \]

Paso 2: Cálculo del estadístico t

\[t = \frac{\bar{x}_1 - \bar{x}_2}{se} \] \[t = \frac{8.4 - 8.0}{0.142}= 2.81 \]}

Paso 3: Grados de libertad

\[df = n_1 + n_2 - 2 = 30 + 30 - 2 = 58 \]

Paso 4: Decisión

  • Como \(t_{calculado} = 2.81 > 2.00\), rechazamos la hipótesis nula.

Tip

  • Hay evidencia estadística para afirmar que sí hay una diferencia significativa en el promedio de calificaciones entre quienes reciben beca y quienes no.

¿Qué es el análisis tabular?

  • El análisis tabular nos permite comparar variables categóricas
  • Este análisis compara lo que esperaríamos sin asociación con lo que presentan los datos
  • Nos ayuda a evaluar si hay relación entre dos variables

Ejemplo de análisis

  • Queremos saber si el género (X) está relacionado con el voto (Y) en las elecciones de EE.UU.
  • En una muestra sabemos que:
    • 45% votó por McCain
    • 55% votó por Obama

Suposición sin asociación

  • Si el voto se distribuyera de la misma forma entre hombres y mujeres, observaríamos la misma proporción de votos en ambos grupos
  • Es decir, tanto hombres como mujeres deberían tener un 45%-55% en sus votos

Nuestra muestra

  • Número de personas en cada grupo:
    • Hombres: 1,379
    • Mujeres: 1,810

¿Qué esperaríamos?

  • Si no hay asociación, el voto se reparte igual:
    • McCain: 45%
    • Obama: 55%
  • Esperaríamos que:
    • Hombres:
      • McCain: 1,379 × 0.45
      • Obama: 1,379 × 0.55
    • Mujeres:
      • McCain: 1,810 × 0.45
      • Obama: 1,810 × 0.55

Prueba Chi Cuadrada (χ²)

  • Comparamos los valores esperados con los observados
  • Nos ayuda a saber si las diferencias entre grupos son estadísticamente significativas
  • Requiere:
    • Tabla de contingencia
    • Cálculo de frecuencias esperadas
    • Fórmula de Chi cuadrada

Asumiendo un voto igual

Distribución esperada del voto

Candidato Hombre Mujer Total
McCain 45 45 45
Obama 55 55 55
Total 100 100 100

Distribución hombres y mujeres

Candidato Hombre Mujer Total
McCain ? ? 1,434
Obama ? ? 1,755
Total 1,379 1,810 3,189

Frecuencias esperadas

Candidato Hombre Mujer Total
McCain 1,379 × .45 = 620.55 1,810 × .45 = 814.5 1,434
Obama 1,379 × .55 = 758.45 1,810 × .55 = 995.5 1,755
Total 1,379 1,810 3,189

Frecuencias observadas

Candidato Hombre Mujer Total
McCain 682 752 1,434
Obama 697 1,058 1,755
Total 1,379 1,810 3,189

Observado vs Esperado

Candidato Hombre Mujer Total
McCain O = 682, E = 620.55 O = 752, E = 814.5 1,434
Obama O = 697, E = 748.55 O = 1,058, E = 995.5 1,755
Total 1,379 1,810 3,189

Prueba de Chi Cuadrada

  • Para saber si las diferencias son significativas utilizamos una prueba de Chi cuadrada
  • La prueba se utiliza para probar la independencia de los grupos

Tip

  • Compara la distancia entre lo observado y lo esperado bajo la hipótesis nula

Fórmula de la prueba χ²

\[ \chi^2 = \sum \frac{(O_i - E_i)^2}{E_i}\]

Sustituyendo

  • Sustituimos los valores:

\[ \chi^2 = \frac{(682 - 620.55)^2}{620.55} + \frac{(752 - 814.5)^2}{814.5} \\ \quad\;\; + \frac{(697 - 748.55)^2}{748.55} + \frac{(1058 - 995.5)^2}{995.5} \]

  • Resultado:

\[ \chi^2 = 19.79 \]

  • Ese valor es comparado con un valor crítico de χ²

Cálculo de grados de libertad en una prueba \(\chi^2\)

  • Necesitamos calcular los grados de libertad

\[ gl = (filas - 1) \times (columnas - 1) = (2 - 1)(2 - 1) = 1\]

Interpretación del valor de \(\chi^2\)

  • Dado que la \(\chi^2\) es igual a 19.7,
    podemos decir que es significativa
    porque supera los valores críticos

Niveles de significancia

  • 95%\(\chi^2 > 3.8\)
  • 99%\(\chi^2 > 6.6\)
  • 99.9%\(\chi^2 > 10.8\)

Interpretación del valor de \(\chi^2\)

  • Como 19.7 > 10.8, la relación es altamente significativa

Tip

  • Si tuviéramos tres filas y tres columnas:

\[df = (3 - 1) \times (3 - 1) = 2 \times 2 = 4\]

  • Esto se compara con la Tabla de valores críticos de \(\chi^2\)