Comprender e interpretar la relación entre dos variables cuantitativas mediante el análisis de correlación y regresión lineal simple, e implementar modelos básicos usando R.
La correlación es una medida estadística que evalúa la fuerza y dirección de la relación lineal entre dos variables cuantitativas. Se representa habitualmente mediante el coeficiente de correlación de Pearson (\(r\)), que toma valores entre -1 y 1:
Valor de \(r\) | Interpretación |
---|---|
\(r > 0.7\) | Correlación fuerte positiva |
\(0.4 < r \leq 0.7\) | Correlación moderada positiva |
\(0 < r \leq 0.4\) | Correlación débil positiva |
\(r \approx 0\) | Correlación nula |
\(-0.4 \leq r < 0\) | Correlación débil negativa |
\(-0.7 \leq r < -0.4\) | Correlación moderada negativa |
\(r < -0.7\) | Correlación fuerte negativa |
Tipo de Correlación | Uso Principal | Requisitos |
---|---|---|
Pearson | Variables continuas, relación lineal | Normalidad y escala de razón o intervalo |
Spearman (rho) | Datos ordinales o relaciones monótonas | No requiere normalidad |
Kendall (tau) | Muestras pequeñas o datos con empates | Datos ordinales o no paramétricos |
Muestra la informacion de la correlacion que existe entre todas las variables de la base de datos del proyecto de investigacion.
library(readxl)
library(ggplot2)
library(dplyr)
# Cargar base de datos de la tesis
datos <- read_excel("C:/Users/Nidia/Desktop/CODAZZI Y WILL/PROYECTO ESPECILIZACION EN ESTADISTICA/AVANCES PROYECTO/BASE _ DATOS _PROYECTO.xlsx")
# Asegurarse de que solo las variables numéricas se usen para la correlación
datos_num <- datos %>% select_if(is.numeric)
# Calcular la matriz de correlación
correlacion_completa <- cor(datos[, sapply(datos, is.numeric)], use = "complete.obs")
# Imprimir la matriz de correlación
print(correlacion_completa)
## ID EST1TEM EST2TEM EST1OXIG EST2OXIG
## ID 1.00000000 0.1638214144 0.121842421 -0.018417227 -0.51881387
## EST1TEM 0.16382141 1.0000000000 0.934270122 0.529127684 0.35748324
## EST2TEM 0.12184242 0.9342701217 1.000000000 0.533387179 0.41152224
## EST1OXIG -0.01841723 0.5291276839 0.533387179 1.000000000 0.65549690
## EST2OXIG -0.51881387 0.3574832406 0.411522236 0.655496896 1.00000000
## EST1PH 0.19820978 0.1008951311 0.122944910 -0.330045862 -0.03641168
## EST2PH 0.23957346 -0.0660979460 -0.075350759 -0.250376095 -0.31165946
## EST1AMNIO -0.08515294 -0.2303145472 -0.228122626 -0.055489999 0.03325434
## EST2AMNIO 0.65155206 0.0568777176 0.046777413 -0.217220077 -0.35072571
## EST1NITRA 0.38168249 -0.1536589991 -0.176192045 -0.166143258 -0.37151120
## EST2NITRA 0.44162300 0.0300614583 0.013350761 0.196135155 -0.08605212
## EST1NITRI 0.04882331 -0.1432628444 -0.150523827 -0.156692721 -0.18174405
## EST2NITRI 0.16790839 -0.0004720879 -0.001964312 0.036457175 -0.01546917
## EST1CANALIMTO 0.95317820 0.1765544237 0.152331814 -0.031462017 -0.42362291
## EST2CANALIMTO 0.95317820 0.1765544237 0.152331814 -0.031462017 -0.42362291
## EST1VALALIMTO 0.95083426 0.1857422501 0.162607984 -0.005892386 -0.39830012
## EST2VALALIMTO 0.95083426 0.1857422501 0.162607984 -0.005892386 -0.39830012
## EST1KG 0.98797863 0.2111939691 0.182502377 0.012467698 -0.45750980
## EST2KG 0.96297479 0.2393375548 0.217853016 0.049215413 -0.36364233
## EST1MRTLIDAD -0.32542165 -0.2517493041 -0.243422232 -0.239016437 0.03054324
## EST2MRTLIDAD -0.29323873 -0.0830220458 -0.049360107 -0.129518434 0.11077240
## EST1PH EST2PH EST1AMNIO EST2AMNIO EST1NITRA
## ID 0.19820978 0.23957346 -0.085152935 0.65155206 0.38168249
## EST1TEM 0.10089513 -0.06609795 -0.230314547 0.05687772 -0.15365900
## EST2TEM 0.12294491 -0.07535076 -0.228122626 0.04677741 -0.17619204
## EST1OXIG -0.33004586 -0.25037609 -0.055489999 -0.21722008 -0.16614326
## EST2OXIG -0.03641168 -0.31165946 0.033254341 -0.35072571 -0.37151120
## EST1PH 1.00000000 0.42002049 0.070616331 0.41847563 0.12003713
## EST2PH 0.42002049 1.00000000 0.337378866 0.57166160 0.39197001
## EST1AMNIO 0.07061633 0.33737887 1.000000000 0.43198783 0.64744909
## EST2AMNIO 0.41847563 0.57166160 0.431987826 1.00000000 0.51083360
## EST1NITRA 0.12003713 0.39197001 0.647449095 0.51083360 1.00000000
## EST2NITRA -0.06514665 0.19698792 0.383132124 0.55248119 0.41582221
## EST1NITRI 0.14097785 0.24548775 0.522684654 0.27766341 0.64544661
## EST2NITRI 0.07245523 0.07317229 0.450045293 0.32484902 0.54081285
## EST1CANALIMTO 0.29752658 0.32826022 0.006873403 0.75523813 0.37191005
## EST2CANALIMTO 0.29752658 0.32826022 0.006873403 0.75523813 0.37191005
## EST1VALALIMTO 0.30084672 0.31130506 0.020636305 0.74885526 0.37744805
## EST2VALALIMTO 0.30084672 0.31130506 0.020636305 0.74885526 0.37744805
## EST1KG 0.22636756 0.22801787 -0.069001079 0.67843978 0.36742825
## EST2KG 0.28943530 0.23426382 -0.024094607 0.70835088 0.36863445
## EST1MRTLIDAD 0.19746352 0.17217070 0.629718884 0.11436092 0.43043666
## EST2MRTLIDAD 0.15575986 0.27806500 0.248767247 0.14970217 0.05833814
## EST2NITRA EST1NITRI EST2NITRI EST1CANALIMTO EST2CANALIMTO
## ID 0.44162300 0.04882331 0.1679083852 0.953178204 0.953178204
## EST1TEM 0.03006146 -0.14326284 -0.0004720879 0.176554424 0.176554424
## EST2TEM 0.01335076 -0.15052383 -0.0019643119 0.152331814 0.152331814
## EST1OXIG 0.19613516 -0.15669272 0.0364571746 -0.031462017 -0.031462017
## EST2OXIG -0.08605212 -0.18174405 -0.0154691749 -0.423622910 -0.423622910
## EST1PH -0.06514665 0.14097785 0.0724552277 0.297526581 0.297526581
## EST2PH 0.19698792 0.24548775 0.0731722920 0.328260219 0.328260219
## EST1AMNIO 0.38313212 0.52268465 0.4500452932 0.006873403 0.006873403
## EST2AMNIO 0.55248119 0.27766341 0.3248490230 0.755238128 0.755238128
## EST1NITRA 0.41582221 0.64544661 0.5408128468 0.371910050 0.371910050
## EST2NITRA 1.00000000 0.21056764 0.5439687455 0.516235402 0.516235402
## EST1NITRI 0.21056764 1.00000000 0.6742135292 0.038299864 0.038299864
## EST2NITRI 0.54396875 0.67421353 1.0000000000 0.182050816 0.182050816
## EST1CANALIMTO 0.51623540 0.03829986 0.1820508159 1.000000000 1.000000000
## EST2CANALIMTO 0.51623540 0.03829986 0.1820508159 1.000000000 1.000000000
## EST1VALALIMTO 0.52040682 0.04685271 0.1976603343 0.998059192 0.998059192
## EST2VALALIMTO 0.52040682 0.04685271 0.1976603343 0.998059192 0.998059192
## EST1KG 0.45592999 0.04703702 0.1719059842 0.969713511 0.969713511
## EST2KG 0.49324044 0.07430070 0.2321422335 0.974092687 0.974092687
## EST1MRTLIDAD 0.08802098 0.52503498 0.4878060046 -0.277449658 -0.277449658
## EST2MRTLIDAD 0.25096214 0.14015943 0.0627671779 -0.177898221 -0.177898221
## EST1VALALIMTO EST2VALALIMTO EST1KG EST2KG EST1MRTLIDAD
## ID 0.950834255 0.950834255 0.98797863 0.96297479 -0.32542165
## EST1TEM 0.185742250 0.185742250 0.21119397 0.23933755 -0.25174930
## EST2TEM 0.162607984 0.162607984 0.18250238 0.21785302 -0.24342223
## EST1OXIG -0.005892386 -0.005892386 0.01246770 0.04921541 -0.23901644
## EST2OXIG -0.398300117 -0.398300117 -0.45750980 -0.36364233 0.03054324
## EST1PH 0.300846723 0.300846723 0.22636756 0.28943530 0.19746352
## EST2PH 0.311305060 0.311305060 0.22801787 0.23426382 0.17217070
## EST1AMNIO 0.020636305 0.020636305 -0.06900108 -0.02409461 0.62971888
## EST2AMNIO 0.748855263 0.748855263 0.67843978 0.70835088 0.11436092
## EST1NITRA 0.377448048 0.377448048 0.36742825 0.36863445 0.43043666
## EST2NITRA 0.520406821 0.520406821 0.45592999 0.49324044 0.08802098
## EST1NITRI 0.046852708 0.046852708 0.04703702 0.07430070 0.52503498
## EST2NITRI 0.197660334 0.197660334 0.17190598 0.23214223 0.48780600
## EST1CANALIMTO 0.998059192 0.998059192 0.96971351 0.97409269 -0.27744966
## EST2CANALIMTO 0.998059192 0.998059192 0.96971351 0.97409269 -0.27744966
## EST1VALALIMTO 1.000000000 1.000000000 0.97030119 0.97995000 -0.27563336
## EST2VALALIMTO 1.000000000 1.000000000 0.97030119 0.97995000 -0.27563336
## EST1KG 0.970301189 0.970301189 1.00000000 0.98635418 -0.35603881
## EST2KG 0.979950001 0.979950001 0.98635418 1.00000000 -0.32930288
## EST1MRTLIDAD -0.275633356 -0.275633356 -0.35603881 -0.32930288 1.00000000
## EST2MRTLIDAD -0.192364372 -0.192364372 -0.27192767 -0.26791368 0.28030781
## EST2MRTLIDAD
## ID -0.29323873
## EST1TEM -0.08302205
## EST2TEM -0.04936011
## EST1OXIG -0.12951843
## EST2OXIG 0.11077240
## EST1PH 0.15575986
## EST2PH 0.27806500
## EST1AMNIO 0.24876725
## EST2AMNIO 0.14970217
## EST1NITRA 0.05833814
## EST2NITRA 0.25096214
## EST1NITRI 0.14015943
## EST2NITRI 0.06276718
## EST1CANALIMTO -0.17789822
## EST2CANALIMTO -0.17789822
## EST1VALALIMTO -0.19236437
## EST2VALALIMTO -0.19236437
## EST1KG -0.27192767
## EST2KG -0.26791368
## EST1MRTLIDAD 0.28030781
## EST2MRTLIDAD 1.00000000
# Visualización de dispersión para la variable peso y nivel amonio estanque 2
ggplot(datos, aes(x = EST2KG, y = EST2AMNIO)) +
geom_point(size = 1) +
geom_smooth(method = "lm", se = FALSE, color = "blue") +
theme_minimal() +
labs(title = "Relación entre Peso estanque 2 y Nivel de Amonio estanque 2",
x = "PESO",
y = "Nivel de Amonio")
el gráfico de dispersión muestra una relación Moderadamente positiva, ya
que los puntos estan dispersos esto significa una relacion debil, como
los puntos no se ajustan en su mayoria a la linea se concluye que no es
lineal y talvez sean necesario usar un modelo no lineal.
A continuación, calculamos los coeficientes de correlación de Pearson, Spearman y Kendall utilizando R para las variables Peso y Amonio del estanque 2.
# Correlación de Pearson
cor.test(datos$EST2KG, datos$EST2AMNIO, method = "pearson")
##
## Pearson's product-moment correlation
##
## data: datos$EST2KG and datos$EST2AMNIO
## t = 7.7082, df = 59, p-value = 1.706e-10
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.5556446 0.8148252
## sample estimates:
## cor
## 0.7083509
Mide la fuerza y dirección de una relación lineal entre dos variables continuas. Un valor de 𝑟 cercano a 1 o -1 indica una fuerte relación lineal.
Un resultado de 0.7083509 indica una correlación positiva moderada a fuerte. Esto significa que, en general, a medida que una variable aumenta, la otra tiende a aumentar también, y la relación es bastante consistente, aunque no perfecta.
Positiva: El valor de 0.7083509 es positivo, lo que significa que ambas variables tienen una relación directa. Cuando una variable aumenta, la otra también tiende a aumentar (y viceversa).
Moderada a Fuerte: El valor de la correlación (0.71) se encuentra entre 0.5 y 1, lo que sugiere una correlación moderada, pero cercana a fuerte. Esto implica que existe una relación bastante significativa entre las dos variables, aunque no perfecta (una correlación perfecta sería 1).
# Correlación de Spearman
cor.test(datos$EST2KG, datos$EST2AMNIO, method = "spearman")
## Warning in cor.test.default(datos$EST2KG, datos$EST2AMNIO, method =
## "spearman"): Cannot compute exact p-value with ties
##
## Spearman's rank correlation rho
##
## data: datos$EST2KG and datos$EST2AMNIO
## S = 11685, p-value = 7.087e-10
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
## rho
## 0.6910372
#print(correlacion_spearman)
Sperman evalúa relaciones monótonas (crecientes o decrecientes), usando los rangos de los datos. Es menos sensible a valores atípicos.
El valor de 0.6910372 en el contexto de la correlación de Spearman indica una correlación positiva moderada.
Correlación positiva: Dado que el valor es positivo, significa que a medida que una variable aumenta, la otra también tiende a aumentar. La relación entre las dos variables es directa.
Moderada: Un valor de 0.691 es relativamente alto, pero no es una correlación perfecta. En general, se considera que los valores de Spearman siguen estas categorías aproximadas:
0.0 - 0.2: Correlación muy débil.
0.2 - 0.4: Correlación débil.
0.4 - 0.6: Correlación moderada.
0.6 - 0.8: Correlación fuerte.
0.8 - 1.0: Correlación muy fuerte.
Dado que 0.691 está en el rango de correlación moderada-fuerte, esto sugiere que las dos variables están relacionadas de manera consistente, pero no perfectamente. Aunque las variables tienden a aumentar juntas, hay algo de variabilidad o error en la relación.
Significa que existe una relación monotónica positiva entre las dos variables, lo que significa que, en general, cuando una de ellas aumenta, la otra también lo hace.
La relación no es perfectamente lineal, pero sí sigue una tendencia clara y consistente.
# Correlación de Kendall
cor.test(datos$EST2KG, datos$EST2AMNIO, method = "kendall")
##
## Kendall's rank correlation tau
##
## data: datos$EST2KG and datos$EST2AMNIO
## z = 5.6592, p-value = 1.521e-08
## alternative hypothesis: true tau is not equal to 0
## sample estimates:
## tau
## 0.5524253
Similar a Spearman, pero más robusto en presencia de datos con muchos empates o tamaños de muestra pequeños.
Un valor de 0.5524253 sugiere una relación moderada entre las dos variables. Esto significa que, aunque hay una tendencia general en la que ambas variables tienden a aumentar o disminuir juntas, no es una relación perfecta. Podría haber algunas fluctuaciones, pero aún se puede observar una tendencia significativa entre las dos variables.
Como el valor es positivo, esto indica que ambas variables tienden a aumentar o disminuir juntas. Es decir, cuando una variable aumenta, la otra también tiende a aumentar, y viceversa.
La regresión lineal simple busca modelar la relación entre una variable dependiente \(y\) y una variable independiente \(x\) mediante la ecuación:
\(𝑌=𝛽_0+𝛽_1+𝜀\) Donde:
\(𝛽_0\) es el intercepto (valor de \(y\) cuando \(x=0\)),
\(𝛽_1\) es la pendiente (cambio esperado en \(y\) por cada unidad de cambio en \(x\)),
\(𝜀\) es el término de error aleatorio.
Ejemplo Aplicado: GANANCIA DE PESO Y NIVEL DE AMONIOS EN AGUA
# Visualización del modelo ajustado
ggplot(datos, aes(x = EST2KG, y = EST2AMNIO)) +
geom_point() +
geom_smooth(method = "lm", se = FALSE) +
labs(title = "Modelo de Regresión Lineal: PESO ~ NIVEL AMONIO",
x = "GANANCIA DE PESO", y = "NIVEL DE AMONIO")
## `geom_smooth()` using formula = 'y ~ x'
Ajuste modelo de regresión
# Ajuste del modelo
modelo <- lm(EST2KG ~ EST2AMNIO, data = datos)
# Resumen del modelo
summary(modelo)
##
## Call:
## lm(formula = EST2KG ~ EST2AMNIO, data = datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -198.850 -38.850 9.199 90.118 117.500
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 174.007 17.093 10.180 1.31e-14 ***
## EST2AMNIO 33.969 4.407 7.708 1.71e-10 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 88.82 on 59 degrees of freedom
## Multiple R-squared: 0.5018, Adjusted R-squared: 0.4933
## F-statistic: 59.42 on 1 and 59 DF, p-value: 1.706e-10
Analisis
Mínimo: -198.850 1er Cuartil (1Q): -38.850 Mediana: 9.199 3er Cuartil (3Q): 90.118 Máximo: 117.500
Los residuos representan las diferencias entre los valores observados y los valores predichos por el modelo. La mediana de los residuos (9.199) es relativamente baja, lo que indica que, en general, las predicciones del modelo no están sesgadas.
Intercepto (β₀): 174.007 Esto significa que cuando EST2AMNIO es cero, el valor predicho para EST2KG es 174.007. Este valor representa la constante del modelo, la cual es el valor inicial antes de considerar la variable independiente (EST2AMNIO).
Es importante interpretar este valor en el contexto del problema (aunque a veces puede no ser realista).
Pendiente (\(𝛽_1\)): 33.969 Este coeficiente indica que por cada unidad que aumenta EST2AMNIO, EST2KG aumenta en promedio en 33.969 unidades. En otras palabras, existe una relación positiva entre las dos variables, lo que significa que al aumentar EST2AMNIO, también aumenta EST2KG.
Error estándar (Std. Error):
Para el intercepto: 17.093
Para EST2AMNIO: 4.407
El error estándar mide la variabilidad o la precisión del estimado del coeficiente. Los errores estándar relativamente bajos sugieren que los coeficientes están bien estimados.
Valor t y Valor p:
Para el intercepto: t = 10.180, p = 1.31e-14
Para EST2AMNIO: t = 7.708, p = 1.71e-10
Un valor t alto y un valor p muy pequeño indican que ambos coeficientes son altamente significativos. Es decir, tanto el intercepto como el coeficiente de EST2AMNIO son significativamente diferentes de cero.
El R-cuadrado indica qué proporción de la variabilidad de EST2KG es explicada por EST2AMNIO. En este caso, el modelo explica aproximadamente 50.18% de la variabilidad en EST2KG. Este es un valor moderado, lo que sugiere que el modelo tiene un ajuste razonable, pero hay espacio para mejorar.
El R-cuadrado ajustado toma en cuenta el número de predictores en el modelo y penaliza el ajuste cuando se agregan variables adicionales. Es útil para comparar modelos con diferentes números de variables.
Valor p del F-estadístico: 1.706e-10
El valor p del F-estadístico muy pequeño indica que el modelo es significativamente mejor que un modelo sin predictores. En otras palabras, la variable EST2AMNIO tiene un impacto significativo en la predicción de EST2KG.
La relación entre EST2AMNIO y EST2KG es significativa (valor p muy bajo tanto para el intercepto como para EST2AMNIO).
Por cada unidad que aumenta EST2AMNIO, el valor de EST2KG aumenta en promedio en 33.969 unidades.
El modelo explica aproximadamente el 50.18% de la variabilidad en EST2KG mediante EST2AMNIO.
El modelo de regresión es adecuado, ya que el F-estadístico muestra que el modelo es significativamente mejor que el modelo nulo.