Pruebas de hippotesis II

Estadística para las Ciencias Sociales

Diego Solís Delgadillo

Ejemplo prueba H

  • Conducimos una encuesta donde el candidato republicano obtiene una preferencia de 0.532 (53.2%)

  • ¿Qué tan confiados podemos estar de qué va ganar la elección? -¿Qué tan confiados podemos estar que gane más del 50% de los votos?

Ejemplo prueba H

  • Tenemos evidencia que el candidato republicano es más popular
  • Pero queremos saber qué tan buena es la evidencia

  • ¿Cuál es la probabilidad de haber obtenido esa evidencia si el republicano no es más popular que el demócrata?

Ejemplo prueba H

  • La no relación en este caso es la hipótesis nula
  • En pruebas de hipótesis asumimos \(H_0\) como verdadera
    • Los candidatos son igualmente populares 0.50

  • Ahora ¿qué tan probable es obtener de 0.532 si \(H_0\) es verdadera?

Ejemplo prueba H

  • Con un valor verdadero de 0.50 y mil entrevistados el error estándar es de 1.6

  • Nuestro estimador de 0.532 está a dos errores estándar por encima de \(H_0\)

  • El Teorema de Límite Central nos dice que 95% de las estimaciones se encuentran a aproximadamente 2 se de la media

Ejemplo prueba H

  • Si \(H_0\) fuese cierta entonces la probabilidad de obtener una resultados tan bueno como 0.53 es de 2.5%

p-value

  • La probabilidad de obtener un resultado tan favorable siendo que \(H_0\) es verdadera
  • Cuando sus valores son muy pequeños concluimos es que es probable que \(H_0\) NO sea verdadera

Comparación de dos grupos

Tipo de comparación ¿Cuándo usarla? Error estándar (se) Estadístico de prueba
Diferencia de medias (Z) Dos medias, σ conocida, n grande \(\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}\) \(Z = \frac{(\bar{x}_1 - \bar{x}_2) - H_0}{se}\)
Diferencia de medias (t) Dos medias, σ desconocida, n pequeño \(\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}\) \(t = \frac{(\bar{x}_1 - \bar{x}_2) - H_0}{se}\)
Diferencia de proporciones (Z) Dos proporciones \(\sqrt{{\hat{p}(1-\hat{p})}(\frac{1}{n_1}} + \frac{1}{n_2})\) \(Z = \frac{(\hat{p_1} - \hat{p_2}) - H_0}{se}\)

Campaña educativa

Objetivo: Evaluar si una campaña aumentó el registro de niñas en secundaria.

Comunidad Registradas Total Proporción
A (tratamiento) 68 100 \(\hat{p}_1 = 0.68\)
B (control) 50 100 \(\hat{p}_2 = 0.50\)

Hipótesis nula: \(H_0: \hat{p}_1 - \hat{p}_2 = 0\)

Paso 1: Proporción combinada

\[ \hat{p} = \frac{\hat{p_1} + \hat{p_2}}{n_1 + n_2} = \frac{68 + 50}{200} = 0.59 \]

Paso 2: Error estándar

\[ se = \sqrt{ \hat{p}(1 - \hat{p}) \left( \frac{1}{n_1} + \frac{1}{n_2} \right) } = \\ \sqrt{0.59 \cdot 0.41 \cdot 0.02} = \sqrt{0.004838} \approx 0.0695 \]

Paso 3: Estadístico Z

\[ Z = \frac{(\hat{p}_1 - \hat{p}_2) - H_0}{SE} = \frac{0.18}{0.0695} \approx 2.59 \]

Solución en R

prop.test(x = c(68, 50), n = c(100, 100), correct = FALSE)

# Grupo tratamiento= 68
# Grupo control= 50
# Observaciones G1=100
# Observaciones G2=100

    2-sample test for equality of proportions without continuity correction

data:  c(68, 50) out of c(100, 100)
X-squared = 6.697, df = 1, p-value = 0.009658
alternative hypothesis: two.sided
95 percent confidence interval:
 0.04597515 0.31402485
sample estimates:
prop 1 prop 2 
  0.68   0.50 

Conclusión

  • \(Z = 2.59 > 1.96\) (umbral para \(\alpha = 0.05\))
  • Rechazamos (H_0): hay evidencia de que la campaña aumentó el registro de niñas.

¿Funcionan las becas? 🎓

  • Una universidad implementa un programa de becas para estudiantes de bajos ingresos

  • Queremos saber si el programa mejoró el rendimiento académico (promedio final del semestre).

  • Se comparan dos grupos:

    • Con beca: 25 estudiantes
    • Sin beca: 25 estudiantes
  • ¿Es significativa la diferencia de promedios?

Datos del estudio

Grupo Promedio Desv. estándar Tamaño
Con beca 8.2 0.9 25
Sin beca 7.6 1.0 25

Hipótesis

  • \(H_0: \mu_1 = \mu_2\)
  • \(H_1: \mu_1 \ne \mu_2\)

Asumimos que las varianzas son iguales.

Paso 1: Error estándar

\[ se = \sqrt{ \frac{s_1^2}{n_1} + \frac{s_2^2}{n_2} } = \sqrt{ \frac{0.9^2}{25} + \frac{1.0^2}{25} } = \\ \sqrt{ \frac{0.81 + 1.00}{25} } = \sqrt{0.0724} \approx 0.269 \]

Paso 2: Estadístico t

\(t = \frac{8.2 - 7.6}{0.269} = \frac{0.6}{0.269} \approx 2.23\)

Paso 3: Grados de libertad

\(df = n_1 + n_2 - 2 = 25 + 25 - 2 = 48\)

Con \(t = 2.23\) y \(df = 48\), consultamos una tabla \(t\) (o software).

¿Es significativa la diferencia?

Con \(t = 2.23\), \(df = 48\), y nivel de significancia \(\alpha = 0.05\):

  • Valor crítico \(t \approx 2.01\)
  • Como \(t = 2.23 > 2.01\), rechazamos \(H_0\)

✅ Conclusión:

Hay evidencia de que el programa de becas mejora el promedio académico.

Resolver en R

set.seed(123)

grupo_beca <- rnorm(25, mean = 8.2, sd = 0.9)
grupo_sinbeca <- rnorm(25, mean = 7.6, sd = 1.0)

t.test(grupo_beca, grupo_sinbeca, var.equal = TRUE)

    Two Sample t-test

data:  grupo_beca and grupo_sinbeca
t = 1.8668, df = 48, p-value = 0.06805
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -0.03605174  0.97178240
sample estimates:
mean of x mean of y 
 8.170003  7.702137 

Ajuste de Welch

  • Se usa cuando comparamos dos medias y:

    • Las varianzas son diferentes
    • Los tamaños de muestra son pequeños o desiguales
  • 👉 En este caso, usamos la prueba t de Welch, que:

    • Ajusta el error estándar
    • Ajusta los grados de libertad
  • Es más conservadora y segura cuando no hay homogeneidad de varianzas.

Fórmulas del test de Welch

1. Estadístico t

\[ t = \frac{\bar{x}_1 - \bar{x}_2}{\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}} \]

2. Grados de libertad (Welch)

\[ df = \frac{\left( \frac{s_1^2}{n_1} + \frac{s_2^2}{n_2} \right)^2} {\frac{\left( \frac{s_1^2}{n_1} \right)^2}{n_1 - 1} + \frac{\left( \frac{s_2^2}{n_2} \right)^2}{n_2 - 1}} \]

  • ❗ Este valor no suele ser entero, y se usa con la distribución t para encontrar el valor crítico o el p-valor.

Ejemplo

  • Se comparan promedios de calificaciones entre:

  • Estudiantes con tutoría: \(\bar{X}_1 = 8.4\), \(s_1 = 0.6\), \(n_1 = 20\)

  • Estudiantes sin tutoría: \(\bar{X}_2 = 7.5\), \(s_2 = 1.2\), \(n_2 = 15\)

  • ¿La diferencia es estadísticamente significativa?

Paso 1: Cálculo de t

\[ se = \sqrt{\frac{0.6^2}{20} + \frac{1.2^2}{15}} =\\ \sqrt{\frac{0.36}{20} + \frac{1.44}{15}} = \sqrt{0.018 + 0.096} =\\ \sqrt{0.114} \approx 0.337 \]

\[ t = \frac{8.4 - 7.5}{0.337} \approx \frac{0.9}{0.337} \approx 2.67 \]

Paso 2: Grados de libertad (Welch)

\[ df = \frac{(0.018 + 0.096)^2}{\frac{0.018^2}{19} + \frac{0.096^2}{14}} = \frac{0.114^2}{\frac{0.000324}{19} + \frac{0.009216}{14}} \approx\\ \frac{0.013}{0.000017 + 0.000658} \approx \frac{0.013}{0.000675} \]

\[ df \approx 19.26 \]

  • ✅ Usamos este valor con la distribución t para buscar el p-valor o comparar con el valor crítico.

¿Por qué usar Welch?

  • Es más precisa cuando las varianzas son diferentes

  • No requiere asumir homogeneidad de varianzas

  • Ajusta los grados de libertad (pueden ser decimales)

  • 📌 En software como R, t.test(..., var.equal = FALSE) realiza esta prueba por defecto

✅ Recomendado siempre que: - Las varianzas son distintas - Los tamaños de muestra son muy desiguales

Asociación variables categóricas

Estadística para las Ciencias Sociales

Diego Solís Delgadillo

Ejemplo de análisis

  • Queremos saber si el género (X) está relacionado con el voto (Y) en las elecciones de EE.UU.
  • En una muestra sabemos que:
    • 45% votó por McCain
    • 55% votó por Obama

Suposición sin asociación

  • Si el voto se distribuyera de la misma forma entre hombres y mujeres, observaríamos la misma proporción de votos en ambos grupos
  • Es decir, tanto hombres como mujeres deberían tener un 45%-55% en sus votos

Nuestra muestra

  • Número de personas en cada grupo:
    • Hombres: 1,379
    • Mujeres: 1,810

¿Qué esperaríamos?

  • **Si no hay asociación, el voto se reparte igua*l**:
    • McCain: 45%
    • Obama: 55%
  • Esperaríamos que:
    • Hombres:
      • McCain: 1,379 × 0.45
      • Obama: 1,379 × 0.55
    • Mujeres:
      • McCain: 1,810 × 0.45
      • Obama: 1,810 × 0.55

Prueba Chi Cuadrada (χ²)

  • Comparamos los valores esperados con los observados
  • Nos ayuda a saber si las diferencias entre grupos son estadísticamente significativas
  • Requiere:
    • Tabla de contingencia
    • Cálculo de frecuencias esperadas
    • Fórmula de Chi cuadrada

Asumiendo un voto igual

Distribución esperada del voto

Candidato Hombre Mujer Total
McCain 45 45 45
Obama 55 55 55
Total 100 100 100

Distribución hombres y mujeres

Candidato Hombre Mujer Total
McCain ? ? 1,434
Obama ? ? 1,755
Total 1,379 1,810 3,189

Frecuencias esperadas

Candidato Hombre Mujer Total
McCain 1,379 × .45 = 620.55 1,810 × .45 = 814.5 1,434
Obama 1,379 × .55 = 758.45 1,810 × .55 = 995.5 1,755
Total 1,379 1,810 3,189

Frecuencias observadas

Candidato Hombre Mujer Total
McCain 682 752 1,434
Obama 697 1,058 1,755
Total 1,379 1,810 3,189

Observado vs Esperado

Candidato Hombre Mujer Total
McCain O = 682, E = 620.55 O = 752, E = 814.5 1,434
Obama O = 697, E = 748.55 O = 1,058, E = 995.5 1,755
Total 1,379 1,810 3,189

Prueba de Chi Cuadrada

  • Para saber si las diferencias son significativas utilizamos una prueba de Chi cuadrada
  • La prueba se utiliza para probar la independencia de los grupos

Tip

  • Compara la distancia entre lo observado y lo esperado bajo la hipótesis nula

Fórmula de la prueba χ²

\[ \chi^2 = \sum \frac{(O_i - E_i)^2}{E_i} \]

Sustituyendo

  • Sustituimos los valores:

\[ \chi^2 = \frac{(682 - 620.55)^2}{620.55} + \frac{(752 - 814.5)^2}{814.5} \\ \quad\;\; + \frac{(697 - 748.55)^2}{748.55} + \frac{(1058 - 995.5)^2}{995.5} \]

  • Resultado:

\[ \chi^2 = 19.79 \]

  • Ese valor es comparado con un valor crítico de χ²

Cálculo de grados de libertad en una prueba \(\chi^2\)

  • Necesitamos calcular los grados de libertad

\[ gl = (filas - 1) \times (columnas - 1) = (2 - 1)(2 - 1) = 1\]

Interpretación del valor de \(\chi^2\)

  • Dado que la \(\chi^2\) es igual a 19.7,
    podemos decir que es significativa
    porque supera los valores críticos

Niveles de significancia

  • 95%\(\chi^2 > 3.8\)
  • 99%\(\chi^2 > 6.6\)
  • 99.9%\(\chi^2 > 10.8\)

Interpretación del valor de \(\chi^2\)

  • Como 19.7 > 10.8, la relación es altamente significativa

Tip

  • Si tuviéramos tres filas y tres columnas:

\[df = (3 - 1) \times (3 - 1) = 2 \times 2 = 4\]

  • Esto se compara con la Tabla de valores críticos de \(\chi^2\)

Prueba Exacta de Fisher

¿Qué es?

  • Prueba no paramétrica para evaluar la asociación entre dos variables categóricas
  • Se aplica en tablas 2x2 cuando hay muestras pequeñas o frecuencias esperadas bajas

Prueba Exacta de Fisher

Independencia o asociación

  • \(H_0\): Las variables son independientes
  • \(H_1\): Hay asociación entre las variables

Note

  • Se basa en el modelo hipergeométrico para calcular la probabilidad exacta de obtener la tabla observada (o más extrema).

¿Cuándo se usa la prueba de Fisher?

  • ✅ Cuando tienes una tabla 2x2
  • ✅ Cuando las frecuencias esperadas son menores a 5
    ✅ Cuando la muestra es pequeña (ej. n < 30)
    ❌ Cuando la prueba chi-cuadrado no es confiable

Ejemplo típico

Evaluar si una campaña de información afecta si las personas votan o no.

Ejemplo

Votó No votó
Campaña 8 2
Sin campaña 4 6
  • Queremos saber si la campaña está asociada con un mayor nivel de participación electoral.

Fórmula de Fisher

  • La probabilidad de obtener una tabla como la observada es:

\[ P = \frac{{a + b \choose a} \cdot {c + d \choose c}}{{n \choose a + c}} \]

Donde:

  • \(a\): éxitos en grupo 1
  • \(b\): fracasos en grupo 1
  • \(c\): éxitos en grupo 2
  • \(d\): fracasos en grupo 2
  • \(n = a + b + c + d\): total de observaciones

Aplicación paso a paso

Votó No votó
Campaña (a/b) 8 2
Sin campaña (c/d) 4 6

Paso 1: Sustituimos en la fórmula

\[ P = \frac{{10 \choose 8} \cdot {10 \choose 4}}{{20 \choose 12}} = \frac{45 \cdot 210}{125970} = \frac{9450}{125970} \approx 0.075 \]

  • Nota: Esa es la probabilidad exacta de esta tabla
  • Para el p-valor de la prueba, se suman las probabilidades de todas las tablas tan extremas o más extremas que esta bajo \(H_0\)

Resultado en R

tabla <- matrix(c(8, 2, 4, 6), nrow = 2, byrow = TRUE)
fisher.test(tabla)

    Fisher's Exact Test for Count Data

data:  tabla
p-value = 0.1698
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
  0.6026805 79.8309210
sample estimates:
odds ratio 
  5.430473 

Conclusión

✅ Usa la prueba de Fisher cuando: - Tu tabla es 2x2 - Tu muestra es pequeña - No se cumplen los supuestos del chi-cuadrado

📌 Es exacta, conservadora y válida siempre.

Visualización Prueba Fisher


library(ggstatsplot)

# Datos
datos <- data.frame(
  Grupo = c(rep("Campaña", 20), rep("Sin campaña", 20)),
  Voto = c(rep("Votó", 18), rep("No votó", 2),
           rep("Votó", 4), rep("No votó", 16))
)

# Visualización + prueba
ggbarstats(
  data = datos,
  x = Grupo,
  y = Voto,
  results.subtitle = TRUE,
  bf.message = FALSE,
  title = "¿La campaña influye en la participación?",
  subtitle = "Prueba de Chi-cuadrado o exacta de Fisher si es necesario"
)

Visualización Prueba Fisher

Diferencia de proporciones con ggbarstats

library(ggstatsplot)

# Datos simulados: campaña para incentivar el voto
datos_prop <- data.frame(
  Grupo = c(rep("Campaña", 10), rep("Sin campaña", 10)),
  Voto = c(rep("Votó", 8), rep("No votó", 2),
           rep("Votó", 4), rep("No votó", 6))
)

# Visualización con prueba estadística
ggbarstats(
  data = datos_prop,
  x = Grupo,
  y = Voto,
  title = "¿La campaña influyó en el voto?",
  results.subtitle = TRUE
)

Diferencia de proporciones con ggbarstats

Diferencia de medias con ggbetweenstats

# Simular datos: estudiantes con y sin beca
set.seed(123)
datos_medias <- data.frame(
  grupo = rep(c("Con beca", "Sin beca"), each = 25),
  promedio = c(rnorm(25, mean = 8.2, sd = 0.9),
               rnorm(25, mean = 7.6, sd = 1.0))
)


# Visualización con prueba t
ggbetweenstats(
  data = datos_medias,
  x = grupo,
  y = promedio,
  type = "parametric",     # prueba t
  var.equal = TRUE,         # asume varianzas iguales
  title = "¿Las becas mejoran el rendimiento académico?",
  results.subtitle = TRUE
)

Diferencia de medias con ggbetweenstats

¿Qué muestran estas funciones?

  • ggbarstats:
    • Relación entre 2 variables categóricas
    • Prueba Chi-cuadrado o Fisher
    • Visualización clara de proporciones
  • ggbetweenstats:
    • Comparación de medias entre grupos
    • Prueba t (con o sin varianzas iguales)
    • Visualización con boxplot + puntos

Correlación

Estadística para las Ciencias Sociales

Diego Solís Delgadillo

¿Qué es correlación?

Correlación

  • El grado en que dos eventos ocurren al mismo tiempo
  • Se representa con el coeficiente de correlación (r) de Pearson
  • Si ocurre \(X\) y al mismo tiempo \(Y\) decimos que están positivamente correlacioandas
  • Si ocurre \(X\) y \(Y\) tiende a no ocurrir están negativamente correlacionadas

¿Para qué sirve la correlación?

  • Una forma de explorar una correlación es con un gráfico de dispersión
  • Estos gráficos muestran puntos que representan los valores para dos variables
  • Su posición es relativa a los valores de \(x\) y \(y\)

¿Para qué sirve la correlación?

  • Describir
  • Predecir
  • Inferencia causal

¿Cómo se interpreta el coeficiente r?

  • Va de -1 a 1:
    • r ≈ 1: correlación positiva fuerte
    • r ≈ -1: correlación negativa fuerte
    • r ≈ 0: no hay correlación

Correlación y causalidad

  • La correlación no implica causalidad

Tip

  • Observamos una correlación entre tomar clases de cálculo y graduarse de universidad
  • Pero, las personas que toman cálculo pueden estar más motivadas académicamente.

Covarianza

  • Es una medida de correlación entre variables

Paso 1. Covarianza

  • Calculamos la desviación entre cada observación y la media \[(X_i - \bar{X})\]
  • Hacemos lo mismo para \(Y\) \[(Y_i-\bar{Y})\]

Paso 2. Covarianza

  • Posteriormente mulitplicamos las dos desviaciones \[(X_i - \bar{X})(Y_i-\bar{Y})\]

Paso 3. Covarianza

  • Finalmente, calculamos el promedio de este producto \[cov_{X,Y}=\frac{\sum_{i=1}^{N}(X_{i}-\bar{X})(Y_{i}-\bar{Y})}{N}\]

Coeficiente de correlación

  • La covarianza es dificil de interpretar
  • El coeficiente de correlación es la covarianza dividida entre el producto de las desviaciones estándar \[corr_{X,Y}=\frac{cov (X, Y)}{\sigma_X\sigma_y}\]
  • Toma un valor entre -1 y 1

Ejemplo

Temperatura y crímenes (1 de 2)

Día Temperatura Crímenes
1 -2.7 847
2 -0.9 555
3 14.2 568
4 6.3 600
5 5.4 660
6 7.5 585
7 25.4 535
8 33.9 618
9 30.1 653
10 44.9 709
11 51.7 698
12 21.6 705
13 12.3 617
14 15.7 563
15 16.8 528

Temperatura y crímenes (2 de 2)

Día Temperatura Crímenes
16 14.6 612
17 14.7 644
18 25.6 621
19 34.8 707
20 40.4 724
21 42.9 716
22 48.9 722
23 32.3 716
24 29.2 610
25 35.5 640
26 46.0 759
27 45.6 754
28 35.0 668
29 25.2 650
30 24.7 632
31 37.6 708
Media 26.3 655.6
Varianza 220.3 5183.0
Desviación estándar 14.8 72.0

Cálculo

  1. Calcular las medias:
    \(\bar{X} = 14.25\), \(\bar{Y} = 8.5\)

  2. Calcular desviaciones: \[(X_i - \bar{X})\] \[(Y_i-\bar{Y})\]

Desviaciones

Día Temperatura Crímenes Desv_Temp Desv_Crimen
1 -2.7 847 -28.997 191.387
2 -0.9 555 -27.197 -100.613
3 14.2 568 -12.097 -87.613
4 6.3 600 -19.997 -55.613
5 5.4 660 -20.897 4.387
6 7.5 585 -18.797 -70.613
7 25.4 535 -0.897 -120.613
8 33.9 618 7.597 -37.613
9 30.1 653 3.797 -2.613
10 44.9 709 18.597 53.387
11 51.7 698 25.397 42.387
12 21.6 705 -4.703 49.387
13 12.3 617 -14.003 -38.613
14 15.7 563 -10.603 -92.613
15 16.8 528 -9.503 -127.613

Desviaciones (2 de 2)

Día Temperatura Crímenes Desv_Temp Desv_Crimen
16 14.6 612 -11.703 -43.613
17 14.7 644 -11.603 -11.613
18 25.6 621 -0.697 -34.613
19 34.8 707 8.497 51.387
20 40.4 724 14.097 68.387
21 42.9 716 16.597 60.387
22 48.9 722 22.597 66.387
23 32.3 716 6.097 60.387
24 29.2 610 3.097 -45.613
25 35.5 640 9.397 -15.613
26 46.0 759 19.897 103.387
27 45.6 754 19.497 98.387
28 35.0 668 8.897 12.387
29 25.2 650 -1.097 -5.613
30 24.7 632 -1.597 -23.613
31 37.6 708 11.297 52.387

Cálculo

  1. Multiplicación de las desviaciones \[(X_i - \bar{X})(Y_i-\bar{Y})\]
  2. Promedio del producto \[cov_{X,Y}=\frac{\sum_{i=1}^{N}(X_{i}-\bar{X})(Y_{i}-\bar{Y})}{N}\]

Multiplicación

Día Temperatura Crímenes Desv_Temp Desv_Crimen Producto
1 -2.7 847 -28.997 191.387 -5549.61
2 -0.9 555 -27.197 -100.613 2736.35
3 14.2 568 -12.097 -87.613 1059.83
4 6.3 600 -19.997 -55.613 1112.08
5 5.4 660 -20.897 4.387 -91.68
6 7.5 585 -18.797 -70.613 1326.34
7 25.4 535 -0.897 -120.613 108.27
8 33.9 618 7.597 -37.613 -285.33
9 30.1 653 3.797 -2.613 -9.92
10 44.9 709 18.597 53.387 992.32
11 51.7 698 25.397 42.387 1077.45
12 21.6 705 -4.703 49.387 -232.19
13 12.3 617 -14.003 -38.613 540.79
14 15.7 563 -10.603 -92.613 981.92
15 16.8 528 -9.503 -127.613 1213.33

Multiplicación

Día Temperatura Crímenes Desv_Temp Desv_Crimen Producto
16 14.6 612 -11.703 -43.613 510.47
17 14.7 644 -11.603 -11.613 134.77
18 25.6 621 -0.697 -34.613 24.13
19 34.8 707 8.497 51.387 436.37
20 40.4 724 14.097 68.387 963.39
21 42.9 716 16.597 60.387 1001.58
22 48.9 722 22.597 66.387 1499.93
23 32.3 716 6.097 60.387 368.04
24 29.2 610 3.097 -45.613 -141.33
25 35.5 640 9.397 -15.613 -146.61
26 46.0 759 19.897 103.387 2056.84
27 45.6 754 19.497 98.387 1917.45
28 35.0 668 8.897 12.387 110.23
29 25.2 650 -1.097 -5.613 6.16
30 24.7 632 -1.597 -23.613 37.73
31 37.6 708 11.297 52.387 591.19
Suma 20735.10
Promedio 668.87

Cálculo \(r\)

  1. Coeficiente de correlación

\[corr_{X,Y}=\frac{cov (X, Y)}{\sigma_X\sigma_y}\] \[ r = \frac{668.87}{15.09 \times 73.11} = \frac{668.87}{1103.45} \approx \mathbf{0.4187}\]

Tip

  • Esto indica una correlación positiva moderada entre la temperatura y el número de crímenes.