Práctica 7. Análisis de Correlación Lineal

Introducción

En la práctica anterior, aprendimos a comparar las medias de dos grupos. Ahora, exploraremos un tipo diferente de pregunta: “¿Cómo se relacionan dos variables numéricas (continuas) entre sí?”. Por ejemplo, a medida que aumenta el peso de un caballo, ¿aumenta también su alzada a la cruz? Cuando una variable cambia, ¿la otra tiende a cambiar de una manera predecible?

El análisis de correlación lineal es la herramienta estadística que nos permite medir la fuerza y la dirección de la relación lineal entre dos variables. Nos ayuda a entender patrones y asociaciones en nuestros datos, un paso fundamental antes de construir modelos más complejos como la regresión.

Objetivo

Al finalizar esta práctica, serás capaz de:

Comprender el concepto de correlación y sus propiedades: dirección y fuerza. Interpretar el coeficiente de correlación de Pearson (r). Crear e interpretar un diagrama de dispersión para visualizar la relación entre dos variables. Realizar una prueba de hipótesis de correlación en R. Entender la diferencia crucial entre correlación y causalidad.

Desarrollo de la Práctica

Marco Conceptual

A. ¿Qué es la Correlación?

La correlación mide la relación entre dos variables numéricas. Esta relación tiene dos componentes:

Dirección:

Positiva: Cuando una variable aumenta, la otra también tiende a aumentar. (Ej: Altura y peso de una persona). Negativa: Cuando una variable aumenta, la otra tiende a disminuir. (Ej: Horas de estudio y número de errores en un examen). Nula: No existe una tendencia clara en la relación.

Fuerza:

Se mide con el coeficiente de correlación de Pearson (r), que va de -1 a +1. r = +1: Correlación positiva perfecta. Los puntos forman una línea recta ascendente. r = -1: Correlación negativa perfecta. Los puntos forman una línea recta descendente. r = 0: No hay correlación lineal. Los puntos forman una nube sin patrón lineal.

Valores cercanos a 1 o -1 indican una correlación fuerte; valores cercanos a 0 indican una correlación débil. La mejor manera de visualizar una correlación es con un diagrama de dispersión (scatter plot).

B. Correlación NO Implica Causalidad

Este es el concepto más importante de la práctica. Que dos variables estén correlacionadas no significa que una cause a la otra. Pudo haber sido por azar, o (muy comúnmente) ambas variables pueden estar influenciadas por una tercera variable no medida.

Ejemplo clásico: Las ventas de helados y el número de ahogamientos en la playa están fuertemente correlacionados. ¿Comer helado causa que la gente se ahogue? No. La tercera variable es el calor del verano, que causa que más gente compre helados y que más gente vaya a nadar (aumentando el riesgo de ahogamiento). C. Prueba de Hipótesis para la Correlación

Al igual que con la prueba t, necesitamos determinar si la correlación que vemos en nuestra muestra es estadísticamente significativa.

Hipótesis Nula (H₀): No existe correlación lineal entre las dos variables en la población (el verdadero coeficiente de correlación, ρ, es cero). Hipótesis Alternativa (H₁): Sí existe una correlación lineal entre las dos variables en la población (ρ ≠ 0). Decisión: Usamos el valor p. Si p < 0.05, rechazamos H₀ y concluimos que la correlación es estadísticamente significativa.

Paso 1: Preparación de Datos y Visualización

Pregunta de investigación: ¿Existe una correlación entre el peso (Peso_Kg) y la alzada a la cruz (Cruz_cm) de los equinos?

Ingresaremos los datos directamente en R.

#CREACIÓN DE LOS DATOS
#Estos vectores contienen pares de observaciones para el peso y la alzada a la cruz de una muestra de caballos.
Peso_Kg <- c(550, 565, 540, 580, 530, 555, 520, 560, 545, 590, 535, 550)
Cruz_cm <- c(165, 170, 163, 175, 160, 168, 158, 172, 164, 178, 161, 166)

#El primer y más importante paso es visualizar los datos con un diagrama de dispersión.

#CREACIÓN DEL DIAGRAMA DE DISPERSIÓN
#La función plot() es ideal para esto. El primer argumento es la variable X, el segundo es la variable Y.
plot(Peso_Kg, Cruz_cm, 
     main = "Relación entre Peso y Alzada a la Cruz en Equinos", 
     xlab = "Peso (Kg)", 
     ylab = "Alzada a la Cruz (cm)", 
     pch = 19, # 'pch' controla el tipo de punto (19 es un círculo sólido)
     col = "blue") # Color de los puntos

#Añadimos una línea de tendencia (regresión lineal) para ver mejor el patrón
abline(lm(Cruz_cm ~ Peso_Kg), col = "red", lwd = 2) # 'lwd' es el grosor de la línea

Interpretación Visual: A simple vista, parece que sí hay una tendencia: a medida que el Peso_Kg aumenta (eje X), la Cruz_cm también tiende a aumentar (eje Y). Esto sugiere una correlación positiva.

Paso 2. Realizando la Prueba de Correlación en R

La función cor.test() calcula el coeficiente de correlación, realiza la prueba de hipótesis y nos da el intervalo de confianza.

#Realizamos la prueba de correlación de Pearson
resultado_corr <- cor.test(Peso_Kg, Cruz_cm, method = "pearson")

#Mostramos los resultados completos
print(resultado_corr)

Paso 3: Interpretación de los Resultados

Analicemos la salida clave de la consola:

Pearson’s product-moment correlation

data: Peso_Kg and Cruz_cm
t = 11.23, df = 10, p-value = 8.193e-07
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.8805374 0.9882959
sample estimates:
cor
0.9634934

Interpretación del Coeficiente de Correlación (r):

El cor (el coeficiente de correlación de la muestra, r) es 0.963.

Este valor es muy cercano a +1, lo que indica una correlación positiva muy fuerte entre el peso y la alzada a la cruz. Esto confirma lo que vimos en el gráfico.

Interpretación del valor p:

El p-value es 8.193e-07, que es un número extremadamente pequeño (0.0000008193).

Como este valor es muchísimo menor que 0.05, rechazamos la hipótesis nula (H₀) con mucha confianza.

Conclusión: “La correlación positiva fuerte que observamos entre el peso y la alzada a la cruz es estadísticamente significativa”. No es un hallazgo producto del azar.

Interpretación del Intervalo de Confianza:

Tenemos un 95% de confianza de que el verdadero coeficiente de correlación en la población (ρ) se encuentra entre 0.88 y 0.99.

Cuestionario:

Pregunta 1: Basado en el diagrama de dispersión que creaste, ¿qué pasaría con la alzada a la cruz si vieras un caballo que pesa 600 kg? ¿Esperarías que fuera alto o bajo? ¿Por qué?

Pregunta 2: Si el coeficiente de correlación (r) entre dos variables fuera -0.85, ¿qué te diría eso sobre la dirección y la fuerza de la relación? Describe cómo se vería el diagrama de dispersión.

Pregunta 3: Imagina que la prueba de correlación entre “horas de sueño” y “calificación en un examen” da un p-value de 0.28. ¿Qué concluirías sobre la relación entre estas dos variables?

Pregunta 4: Un investigador encuentra una correlación positiva entre el número de bomberos en un incendio y la cantidad de daños materiales. ¿Significa esto que enviar más bomberos causa más daños? Explica este resultado usando el principio de “correlación no implica causalidad”.

Pregunta 5: En la salida de cor.test(), ¿qué información te da el cor y qué información te da el p-value? ¿Por qué necesitas ambos para una conclusión completa?

“PROYECTO PAPIME PE215125 DESARROLLO DE MATERIAL DE PRÁCTICAS Y APOYO AUDIOVISUAL PARA LA ASIGNATURA DE MÉTODOS ESTADÍSTICOS EN MEDICINA VETERINARIA Y ZOOTECNIA”

Los autores y participantes agradecen al Programa de Apoyo a Proyectos para Innovar y Mejorar la Educación (PAPIME) de la Universidad Nacional Autónoma de México, por el apoyo brindado, el cual fue fundamental para el éxito de este proyecto. Así como a la Facultad de Medicina Veterinaria y Zootecnia y al Departamento de Genética y Bioestadística.

Héctor Alexander Camarena Ledesma, Jessica González Perea, Ángel Moisés Rentería López, Marco Antonio Alvarado Salas, Argelia Ximena Hernández Recio, Carlos Leonardo Pérez Cuenca, Fabiola Asunción Flores Figueroa, Braulio Herrera Ramírez, Areli Maldonado Fernández, Arenas Escamilla Daniel, Pineda Alatriste Saúl, Rogers Montoya Nathaniel Alec, Noé Orlando Juárez López, Daniel Alonso Domínguez Olvera.