Two Sample t-test
data: grupo_beca and grupo_sinbeca
t = 1.8668, df = 48, p-value = 0.06805
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-0.03605174 0.97178240
sample estimates:
mean of x mean of y
8.170003 7.702137
Ajuste de Welch
Se usa cuando comparamos dos medias y:
Las varianzas son diferentes
Los tamaños de muestra son pequeños o desiguales
👉 En este caso, usamos la prueba t de Welch, que:
Ajusta el error estándar
Ajusta los grados de libertad
Es más conservadora y segura cuando no hay homogeneidad de varianzas.
Fórmulas del test de Welch
1. Estadístico t
\[
t = \frac{\bar{x}_1 - \bar{x}_2}{\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}}
\]
Fisher's Exact Test for Count Data
data: tabla
p-value = 0.1698
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
0.6026805 79.8309210
sample estimates:
odds ratio
5.430473
Conclusión
✅ Usa la prueba de Fisher cuando: - Tu tabla es 2x2 - Tu muestra es pequeña - No se cumplen los supuestos del chi-cuadrado
📌 Es exacta, conservadora y válida siempre.
Visualización Prueba Fisher
library(ggstatsplot)# Datosdatos <- data.frame( Grupo = c(rep("Campaña", 20), rep("Sin campaña", 20)), Voto = c(rep("Votó", 18), rep("No votó", 2), rep("Votó", 4), rep("No votó", 16)))# Visualización + pruebaggbarstats( data = datos, x = Grupo, y = Voto, results.subtitle = TRUE, bf.message = FALSE, title = "¿La campaña influye en la participación?", subtitle = "Prueba de Chi-cuadrado o exacta de Fisher si es necesario")
Visualización Prueba Fisher
Diferencia de proporciones con ggbarstats
library(ggstatsplot)# Datos simulados: campaña para incentivar el votodatos_prop <- data.frame( Grupo = c(rep("Campaña", 10), rep("Sin campaña", 10)), Voto = c(rep("Votó", 8), rep("No votó", 2), rep("Votó", 4), rep("No votó", 6)))# Visualización con prueba estadísticaggbarstats( data = datos_prop, x = Grupo, y = Voto, title = "¿La campaña influyó en el voto?", results.subtitle = TRUE)
Diferencia de proporciones con ggbarstats
Diferencia de medias con ggbetweenstats
# Simular datos: estudiantes con y sin becaset.seed(123)datos_medias <- data.frame( grupo = rep(c("Con beca", "Sin beca"), each = 25), promedio = c(rnorm(25, mean = 8.2, sd = 0.9), rnorm(25, mean = 7.6, sd = 1.0)))# Visualización con prueba tggbetweenstats( data = datos_medias, x = grupo, y = promedio, type = "parametric", # prueba t var.equal = TRUE, # asume varianzas iguales title = "¿Las becas mejoran el rendimiento académico?", results.subtitle = TRUE)
Diferencia de medias con ggbetweenstats
¿Qué muestran estas funciones?
ggbarstats:
Relación entre 2 variables categóricas
Prueba Chi-cuadrado o Fisher
Visualización clara de proporciones
ggbetweenstats:
Comparación de medias entre grupos
Prueba t (con o sin varianzas iguales)
Visualización con boxplot + puntos
Correlación
Estadística para las Ciencias Sociales
Diego Solís Delgadillo
¿Qué es correlación?
Correlación
El grado en que dos eventos ocurren al mismo tiempo
Se representa con el coeficiente de correlación (r) de Pearson
Si ocurre \(X\) y al mismo tiempo \(Y\) decimos que están positivamente correlacioandas
Si ocurre \(X\) y \(Y\) tiende a no ocurrir están negativamente correlacionadas
¿Para qué sirve la correlación?
Una forma de explorar una correlación es con un gráfico de dispersión
Estos gráficos muestran puntos que representan los valores para dos variables
Su posición es relativa a los valores de \(x\) y \(y\)
¿Para qué sirve la correlación?
Describir
Predecir
Inferencia causal
¿Cómo se interpreta el coeficiente r?
Va de -1 a 1:
r ≈ 1: correlación positiva fuerte
r ≈ -1: correlación negativa fuerte
r ≈ 0: no hay correlación
Correlación y causalidad
La correlación no implica causalidad
Tip
Observamos una correlación entre tomar clases de cálculo y graduarse de universidad
Pero, las personas que toman cálculo pueden estar más motivadas académicamente.
Covarianza
Es una medida de correlación entre variables
Paso 1. Covarianza
Calculamos la desviación entre cada observación y la media \[(X_i - \bar{X})\]
Hacemos lo mismo para \(Y\)\[(Y_i-\bar{Y})\]
Paso 2. Covarianza
Posteriormente mulitplicamos las dos desviaciones\[(X_i - \bar{X})(Y_i-\bar{Y})\]
Paso 3. Covarianza
Finalmente, calculamos el promedio de este producto\[cov_{X,Y}=\frac{\sum_{i=1}^{N}(X_{i}-\bar{X})(Y_{i}-\bar{Y})}{N}\]
Coeficiente de correlación
La covarianza es dificil de interpretar
El coeficiente de correlación es la covarianza dividida entre el producto de las desviaciones estándar\[corr_{X,Y}=\frac{cov (X, Y)}{\sigma_X\sigma_y}\]
Toma un valor entre -1 y 1
Ejemplo
Temperatura y crímenes (1 de 2)
Día
Temperatura
Crímenes
1
-2.7
847
2
-0.9
555
3
14.2
568
4
6.3
600
5
5.4
660
6
7.5
585
7
25.4
535
8
33.9
618
9
30.1
653
10
44.9
709
11
51.7
698
12
21.6
705
13
12.3
617
14
15.7
563
15
16.8
528
Temperatura y crímenes (2 de 2)
Día
Temperatura
Crímenes
16
14.6
612
17
14.7
644
18
25.6
621
19
34.8
707
20
40.4
724
21
42.9
716
22
48.9
722
23
32.3
716
24
29.2
610
25
35.5
640
26
46.0
759
27
45.6
754
28
35.0
668
29
25.2
650
30
24.7
632
31
37.6
708
Media
26.3
655.6
Varianza
220.3
5183.0
Desviación estándar
14.8
72.0
Cálculo
Calcular las medias: \(\bar{X} = 14.25\), \(\bar{Y} = 8.5\)