Dos diagramas de cajas elaborados con ggplot2, donde se represente la variabilidad de cada variable asignada en función de cada finca.
Un diagrama de correlación de puntos entre las dos variables cuantitativas seleccionadas, adicionando la línea recta correspondiente al modelo de regresión lineal.
La ecuación de ajuste del modelo de regresión lineal.
El análisis de varianza de la regresión.
Una explicación de cada sección presentada, escrita con sus propias palabras.
# Borrar el environment
rm(list = ls())
# Librerías
library(readxl)
library(tidyverse)
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr 1.2.1 ✔ readr 2.2.0
## ✔ forcats 1.0.1 ✔ stringr 1.6.0
## ✔ ggplot2 4.0.2 ✔ tibble 3.3.1
## ✔ lubridate 1.9.5 ✔ tidyr 1.3.2
## ✔ purrr 1.2.1
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag() masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
# Cargar datos
suelo <- read_excel("Data_Regresión Lineal/DATOS PARCELAS_1-08-2022.xlsx")
head(suelo)
## # A tibble: 6 × 57
## ID Muestra Finca Descripcion pH MO P Ca Mg K CIC
## <dbl> <dbl> <chr> <chr> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 1 1 Las Veran… CAR001 4.44 5.51 4.87 0.77 0.27 0.07 17.7
## 2 2 2 Las Veran… CAR002 4.4 6.28 3.61 1.39 0.95 0.46 20.1
## 3 3 3 Las Veran… CAR003 5.09 7.39 7.96 1.66 0.29 0.42 24.4
## 4 4 4 Las Veran… CAR004 5.41 6.27 2.88 2.74 1.32 0.81 24.4
## 5 5 5 Las Veran… CAR005 5.03 5.80 1.75 0.49 0.73 0.09 22.0
## 6 6 6 Las Veran… CAR006 5.16 6.53 2.02 1.54 1.48 0.15 27.5
## # ℹ 46 more variables: Fe <dbl>, Mn <dbl>, Cu <dbl>, Zn <dbl>, B <dbl>,
## # S <dbl>, CE <dbl>, N <dbl>, D_APAREN <dbl>, D_REAL <dbl>, Porosidad <dbl>,
## # Macroporos <dbl>, Mesoporos <dbl>, Microporos <dbl>, Hum_campo <dbl>,
## # Hum_grav_Sat <dbl>, Hum_vol_Sat <dbl>, C.C <dbl>, PMP <dbl>, CHS <dbl>,
## # Infiltracion <dbl>, LAA <dbl>, `_>6.3 mm` <dbl>, `_6-4mm` <dbl>,
## # `_4-2mm` <dbl>, `_2-1mm` <dbl>, `_1-0.5mm` <dbl>, `_0.5-0.25mm` <dbl>,
## # `_0.25-0.125mm` <dbl>, `_<0.125mm` <dbl>, Est_agre_sin_arenas <dbl>, …
# Limpiar nombres
names(suelo) <- trimws(names(suelo))
# Renombrar % CO → CO
names(suelo)[names(suelo) == "% CO"] <- "CO"
# 1. Diagramas de cajas
# Boxplot Mo por Finca
suelo %>%
ggplot(aes(x = factor(Finca), y = MO, fill = factor(Finca))) +
geom_boxplot(alpha = 0.7) +
labs(title = "Variabilidad de Mo por Finca",
x = "Finca",
y = "Materia Orgánica (Mo)") +
theme_bw() +
theme(legend.position = "none",
axis.text.x = element_text(angle = 45, hjust = 1))
# Boxplot %CO por Finca
suelo %>%
ggplot(aes(x = factor(Finca), y = CO, fill = factor(Finca))) +
geom_boxplot(alpha = 0.7) +
labs(title = "Variabilidad de Carbono Orgánico (CO) por Finca",
x = "Finca",
y = "CO") +
theme_bw() +
theme(legend.position = "none",
axis.text.x = element_text(angle = 45, hjust = 1))
Variabilidad de Materia Orgánica (Mo) por Finca
Observando el gráfico de cajas nos muestra que existe una diferencia marcada en el contenido de Materia Orgánica entre las fincas. Las fincas Valmer Inferior, Valmer Superior y Los Naranjos con los que presentan unos valores más altos de Mo frendtes a las otras, con unas medianas notablemente superiores al resto, aunque Valmer Inferior y Valmer Superior muestran una dispersión considerable, lo que indica que sus suelos son heterogéneos, es decir, que dentro de la misma finca existen zonas con mucha y poca materia orgánica. En contraste, fincas como Los Guerra, Los Clímacos y El Encanto tienen los valores más bajos, con cajas muy pequeñas lo que nos indica que los suelos son más uniformes pero en cuanto a contenido orgánico son bastantes bajos. Las fincas Las Veraneras, El Recreo y Miraflores se ubican en un rango intermedio entre ambos grupos. En general, con el gráfico nos permite inferir que no todos los suelos tienen el mismo nivel de fertilidad orgánica, y que antes de hacer cualquier recomendación de manejo, es importante tener en cuenta esta variabilidad entre y dentro de cada finca.
Variabilidad de Carbono Orgánico (CO) por Finca
En el gráfico de cajas nos muestra diferencias notables en cuanto al contenido de Carbono Orgánico entre las fincas. Las fincas Valmer Inferior, Valmer Superior y Los Naranjos con los valores más altos de CO, con medianas más al resto, aunque las fincas Valmer muestran una alta dispersión, lo que indica heterogeneidad interna en sus suelos, ss decir, variaciones marcadas entre distintos puntos de muestreo dentro de la misma finca. En contraste, fincas como Los Guerra, El Recreo, Los Clímacos y El Encanto muestran los valores más bajos y una baja variabilidad, lo que refleja suelos más homogéneos pero con menor contenido de carbono orgánico. Las Veraneras y Miraflores se ubican en un nivel intermedio. Además, Los Guerra presenta un valor atípico, lo que sugiere la existencia de un punto con condiciones particulares frente al resto. En general, el comportamiento del CO es consistente con el de la Materia Orgánica, lo cual es esperado debido a su relación directa, confirmando una distribución similar entre fincas.
# 2. Correlación de pearson
pearson_cor <- cor(suelo$MO, suelo$CO, use = "complete.obs")
pearson_cor_r <- round(pearson_cor, 3)
cat("\nCoeficiente de correlación de Pearson (r):", pearson_cor_r, "\n")
##
## Coeficiente de correlación de Pearson (r): 0.83
El análisis de correlación de Pearson dio un valor de r = 0.83, esto nos esta indicando una relación positiva fuerte entre la Materia Orgánica y el Carbono Orgánico en los suelos de las diferentes fincas; es decir, a medida que aumenta una variable, la otra tiende a incrementarse en la misma proporción. Esto significa que las fincas con mayores contenidos de Materia Orgánica también presentan mayores niveles de Carbono Orgánico, lo cual es coherente, ya que el carbono constituye una fracción fundamental de la materia orgánica del suelo. Aunque la correlación no es perfecta, su magnitud confirma un comportamiento similar entre ambas variables, las desviaciones observadas pueden explicarse por la variabilidad intrínseca de los suelos, diferencias en el manejo agronómico, condiciones ambientales específicas y posibles errores asociados al muestreo o análisis.
# 3. Modelo de regresión lineal
mod <- lm(CO ~ MO, data = suelo)
# Resumen del modelo
summary(mod)
##
## Call:
## lm(formula = CO ~ MO, data = suelo)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.75927 -0.81526 0.04331 0.79359 1.95406
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -0.23731 0.18670 -1.271 0.206
## MO 0.44858 0.02383 18.827 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.027 on 160 degrees of freedom
## Multiple R-squared: 0.689, Adjusted R-squared: 0.6871
## F-statistic: 354.5 on 1 and 160 DF, p-value: < 2.2e-16
# ANOVA
anova_mod <- anova(mod)
anova_mod
## Analysis of Variance Table
##
## Response: CO
## Df Sum Sq Mean Sq F value Pr(>F)
## MO 1 373.70 373.70 354.47 < 2.2e-16 ***
## Residuals 160 168.68 1.05
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
# Coeficientes
intercepto <- round(coef(mod)[1], 4)
pendiente <- round(coef(mod)[2], 4)
# R² (desde el modelo)
r2 <- round(summary(mod)$r.squared, 4)
cat("\n Ecuación del modelo \n")
##
## Ecuación del modelo
cat(paste("CO =", intercepto, "+", pendiente, "* Mo\n"))
## CO = -0.2373 + 0.4486 * Mo
cat("\nR² =", r2, "\n")
##
## R² = 0.689
En la regresión lineal entre la Materia Orgánica (MO) y el Carbono Orgánico (CO) nos indica que es un modelo estadísticamente bastante robusto y altamente significativo. La ecuación obtenida, CO = -0.2373 + 0.4486 × MO, nos dice que por cada unidad de incremento en la Materia Orgánica, el Carbono Orgánico aumenta en aproximadamente 0.45 unidades, lo cual refleja una relación directa y coherente desde el punto de vista edáfico. El coeficiente de determinación (R² = 0.689) señala que el 68.9% de la variabilidad del CO es explicada por la MO, mientras que el 31.1% restante se asocia a otros factores no incluidos en el modelo, como variaciones en el manejo del suelo, condiciones ambientales o heterogeneidad espacial. El R² ajustado (0.6871) es muy cercano al R², lo que confirma la estabilidad del modelo y la adecuada inclusión de la variable explicativa. Por su parte, el análisis de varianza (ANOVA) muestra un valor F elevado (354.5) con un p-valor < 2.2e-16, indicando que el modelo es globalmente significativo y que la MO tiene un efecto real sobre el CO. En conjunto, estos resultados confirman que la Materia Orgánica es un predictor sólido del Carbono Orgánico en los suelos evaluados, en concordancia con la fuerte correlación previamente observada.
# 4. Diagrama de dispersion + regresión
suelo %>%
ggplot(aes(x = MO, y = CO)) +
geom_point(aes(color = factor(Finca)), size = 3, alpha = 0.8) +
geom_smooth(method = "lm", se = T, color = "blue") +
annotate("text",
x = quantile(suelo$MO, 0.1, na.rm = T),
y = quantile(suelo$CO, 0.9, na.rm = T),
label = paste("r =", pearson_cor_r,
"\nR² =", r2),
hjust = 0,
size = 4) +
labs(title = "Relación entre Mo y CO con modelo de regresión lineal",
x = "Materia Orgánica (Mo)",
y = "Carbono Orgánico (CO)",
color = "Finca") +
theme_bw()
## `geom_smooth()` using formula = 'y ~ x'
# Gráfico con la ecuación
suelo %>%
ggplot(aes(x = MO, y = CO)) +
geom_point(aes(color = factor(Finca)), size = 3, alpha = 0.8) +
geom_smooth(method = "lm", se = F, color = "green", linewidth = 1.2) +
annotate("text",
x = quantile(suelo$MO, 0.1, na.rm = T),
y = quantile(suelo$CO, 0.9, na.rm = T),
label = paste("CO =", intercepto, "+", pendiente, "* Mo",
"\nR² =", r2),
hjust = 0,
size = 4) +
labs(title = "Modelo de regresión lineal %CO vs Mo",
x = "Materia Orgánica (Mo)",
y = "Carbono Orgánico (CO)",
color = "Finca") +
theme_bw()
## `geom_smooth()` using formula = 'y ~ x'
Podemos observar en el gráfico de dispersión con ajuste de regresión lineal podemos visualizar de manera clara la relación entre la Materia Orgánica (MO) y el Carbono Orgánico (CO) en las diferentes fincas. Cada punto representa una muestra de suelo y evidencia que existe una tendencia positiva: a medida que aumenta la MO, también lo hace el CO, siguiendo la dirección de la recta de regresión. Esta relación se confirma tanto a nivel visual como estadísticamente, con un coeficiente de correlación alto (r = 0.83) y un coeficiente de determinación de R² = 0.689, lo que indica que el modelo explica una proporción importante de la variabilidad del CO. Con el uso de la ecuación del modelo, CO = -0.2373 + 0.4486 × MO, podemos mostrar que el CO incrementa aproximadamente 0.45 unidades por cada unidad adicional de MO, permitiendo además realizar predicciones. Al analizar los datos por finca, se observa que Valmer Inferior y Valmer Superior son con los valores más altos de MO y CO, mientras que fincas como Los Guerra, Los Clímacos y El Encanto se concentran en valores bajos, siendo esto coherente con los diagramas de caja previamente realizados. Aunque algunos puntos se alejan de la línea de regresión especialmente en valores intermedios y altos, esto evidencia la influencia que existe de otros factores no incluidos en el modelo, la tendencia general es clara. En conjunto, el análisis gráfico y el modelo confirman que la Materia Orgánica es un predictor sólido y estadísticamente válido del Carbono Orgánico en estos suelos.