Los suelos son la base de cualquier construcción, y entender sus propiedades es clave para evitar problemas en obras civiles. En este trabajo, usaremos el dataset Soils (del paquete carData en R), que contiene datos como densidad, pH y contenido de minerales, para analizar cómo estas variables se relacionan entre sí.
Aplicaremos regresión lineal (simple y múltiple) para predecir comportamientos del suelo y seleccionar el mejor modelo estadístico. Primero, exploraremos los datos con gráficos y medidas de correlación; luego, ajustaremos los modelos y compararemos su eficacia.
Este análisis no solo refuerza conceptos de estadística aplicada, sino que también muestra su utilidad en ingeniería civil, ayudando a tomar decisiones más informadas en proyectos reales.
El dataset Soils del paquete carData en R contiene información sobre propiedades físico-químicas de muestras de suelo, las cuales son críticas para aplicaciones en ingeniería civil.
Soils (carData) y su importancia
en ingeniería civilEl dataset Soils contiene propiedades físico-químicas de
suelos relevantes para aplicaciones en ingeniería civil. A continuación
se detalla cada variable:
pH
- Descripción: Medida de acidez/alcalinidad (escala
0-14).
- Importancia:
- Valores bajos (<5) pueden corroer estructuras metálicas
- Valores altos (>8.5) afectan la durabilidad del hormigón
Densidad (g/cm³)
- Descripción: Densidad aparente del suelo
- Importancia:
- Suelos densos (>1.6 g/cm³) tienen mayor capacidad portante
- Valores bajos indican necesidad de compactación
Porosidad (%)
- Descripción: Volumen de huecos en el suelo
- Importancia:
- Alta porosidad → Mayor permeabilidad (afecta drenaje)
- Baja porosidad → Mayor estabilidad para pavimentos
| Variable | Rango | Uso |
|---|---|---|
| Arcilla | <0.002 mm | Cohesión pero expansiva |
| Limo | 0.002-0.05 mm | Baja capacidad portante |
| Arena | 0.05-2 mm | Buena estabilidad |
Conductividad (dS/m):
- Indica salinidad, afecta corrosión de aceros
Carbono (%):
- Alto contenido → Suelos orgánicos menos estables
Minerales:
- Presencia de arcillas expansivas (ej. montmorillonita) requiere
tratamientos especiales
Densidad + Arcilla para elegir entre zapatas o
pilotesPorosidad +
Conductividad predicen riesgo de erosiónArena >50%) son ideales para bases## Group Contour Depth Gp Block pH N Dens P Ca Mg K Na Conduc
## 1 1 Top 0-10 T0 1 5.40 0.188 0.92 215 16.35 7.65 0.72 1.14 1.09
## 2 1 Top 0-10 T0 2 5.65 0.165 1.04 208 12.25 5.15 0.71 0.94 1.35
## 3 1 Top 0-10 T0 3 5.14 0.260 0.95 300 13.02 5.68 0.68 0.60 1.41
## 4 1 Top 0-10 T0 4 5.14 0.169 1.10 248 11.92 7.88 1.09 1.01 1.64
## 5 2 Top 10-30 T1 1 5.14 0.164 1.12 174 14.17 8.12 0.70 2.17 1.85
## 6 2 Top 10-30 T1 2 5.10 0.094 1.22 129 8.55 6.92 0.81 2.67 3.18
## Group Contour Depth Gp Block pH
## 1 : 4 Depression:16 0-10 :12 D0 : 4 1:12 Min. :3.740
## 2 : 4 Slope :16 10-30:12 D1 : 4 2:12 1st Qu.:4.058
## 3 : 4 Top :16 30-60:12 D3 : 4 3:12 Median :4.545
## 4 : 4 60-90:12 D6 : 4 4:12 Mean :4.669
## 5 : 4 S0 : 4 3rd Qu.:5.140
## 6 : 4 S1 : 4 Max. :6.670
## (Other):24 (Other):24
## N Dens P Ca
## Min. :0.03000 Min. :0.780 Min. : 79.0 Min. : 3.820
## 1st Qu.:0.05075 1st Qu.:1.127 1st Qu.:108.8 1st Qu.: 5.040
## Median :0.08450 Median :1.400 Median :131.0 Median : 7.305
## Mean :0.10194 Mean :1.316 Mean :166.2 Mean : 8.029
## 3rd Qu.:0.12925 3rd Qu.:1.502 3rd Qu.:214.2 3rd Qu.: 9.735
## Max. :0.29800 Max. :1.600 Max. :445.0 Max. :16.350
##
## Mg K Na Conduc
## Min. : 5.150 Min. :0.1400 Min. : 0.600 Min. : 0.670
## 1st Qu.: 7.537 1st Qu.:0.2750 1st Qu.: 2.545 1st Qu.: 2.790
## Median : 8.515 Median :0.4250 Median : 5.520 Median : 6.635
## Mean : 8.465 Mean :0.4662 Mean : 5.600 Mean : 6.589
## 3rd Qu.: 9.648 3rd Qu.:0.6425 3rd Qu.: 8.355 3rd Qu.: 9.852
## Max. :10.960 Max. :1.0900 Max. :11.040 Max. :13.320
##
| Parámetro | Valor | Implicación |
|---|---|---|
| Densidad máxima | 0.75 | Concentración de muestras en rango medio |
| Asimetría | Moderada (cola izquierda) | Posible presencia de suelos ácidos |
| Rango óptimo | 6.0-8.0 | Condiciones ideales para construcción |
| Rango problemático | <5.5 (ácido) o >8.5 (alcalino) | Riesgo de corrosión o deterioro |
| Característica | Valor | Significado |
|---|---|---|
| Densidad máxima | 0.12 | Menor concentración que el pH |
| Forma | Plana con cola derecha | Presencia de valores atípicos salinos |
| Nivel seguro | <2 dS/m | Suelos no salinos |
| Nivel crítico | >4 dS/m | Riesgo de deterioro acelerado |
| Variable | Distribución | Valor.crítico | Acción.recomendada | Materiales.afectados |
|---|---|---|---|---|
| pH | Asimétrica con cola izquierda | pH <5.5 | Encalado | Estructuras metálicas |
| Conductividad | Plana con cola derecha | Conduc >4 dS/m | Sistemas de drenaje | Concreto y acero |
Para control de pH: - Neutralización con cal (CaCO₃) para suelos ácidos - Uso de aditivos anti-corrosivos en concretos - Barreras geotextiles para aislamiento
Para manejo de salinidad:
## - Lavado de sales con sistemas de drenaje (requiere pendiente >2%)
##
## - Uso de cementos tipo HS (alta resistencia a sulfatos)
##
## - Recubrimientos epóxicos para estructuras metálicas
Medidas complementarias: - Muestreo adicional cada 6 meses en zonas críticas - Pruebas de velocidad de corrosión (ASTM G1) - Monitorización continua con sensores de pH/salinidad
Relación pH-Conductividad en suelos
| Variable1 | Variable2 | Correlación | Interpretación |
|---|---|---|---|
| pH | Conduc | -0.7648104 | Relación significativa entre variables |
| Dens | Conduc | 0.7625652 | Relación significativa entre variables |
| pH | Ca | 0.8086293 | El calcio disminuye en suelos alcalinos |
| Dens | Ca | -0.7914376 | Relación significativa entre variables |
| Conduc | Ca | -0.8320952 | Relación significativa entre variables |
| Situación | Solución | Materiales |
|---|---|---|
| pH bajo (<5.5) | Encalado con CaCO3 (2-5 ton/ha) | Cal agrícola, yeso |
| Alta conductividad (>4 dS/m) | Drenaje y lavado de sales | Geodrenes, membranas HDPE |
| Alta densidad (>1.6 g/cm³) | Aireación mecánica + materia orgánica | Turba, compost, vermiculita |
Análisis de Correlaciones Fuertes pH vs Conductividad (r = -0.76):
Existe una fuerte relación inversa: a medida que aumenta el pH, disminuye la conductividad eléctrica del suelo. Implicación práctica: Suelos alcalinos (pH alto) tienden a tener menor contenido de sales solubles. Densidad vs Conductividad (r = 0.76):Correlación positiva significativa: suelos más densos presentan mayor conductividad. Posible causa: Compactación que favorece acumulación de sales en horizontes superficiales. pH vs Calcio (r = 0.81): Relación directa importante: suelos con mayor pH contienen más calcio. Explicación técnica: El calcio se moviliza mejor en condiciones alcalinas (contrario a lo esperado, lo que sugiere un efecto de enmiendas calcáreas). Densidad vs Calcio (r = -0.79): Correlación negativa clara: suelos menos densos tienen mayor contenido de calcio. Interpretación: El calcio podría estar asociado a estructuras porosas (ej. agregados arcillosos). Conductividad vs Calcio (r = -0.83): Fuerte relación inversa: suelos con más calcio tienen menor salinidad. Importancia agronómica: El calcio compite con sodio en el complejo de intercambio, reduciendo toxicidad. Recomendaciones Técnicas Priorizadas Para suelos ácidos (pH <5.5): Acción inmediata: Aplicar 3-4 ton/ha de carbonato de calcio (CaCO₃). Beneficio: Neutraliza acidez y mejora disponibilidad de nutrientes. Material clave: Combinar cal agrícola con yeso (CaSO₄·2H₂O) para aportar calcio soluble. Control de salinidad (Conduc >4 dS/m):
Instalar drenes subsuperficiales cada 10m (pendiente 1-2%).
Aplicar riegos de lavado (20% por encima de capacidad de campo).
Materiales óptimos: Tubos de drenaje envueltos en geotextil no tejido.
##
## Call:
## lm(formula = Conduc ~ Na, data = Soils)
##
## Residuals:
## Min 1Q Median 3Q Max
## -2.29260 -0.70832 0.04578 0.43814 2.13464
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -0.01291 0.27008 -0.048 0.962
## Na 1.17892 0.04170 28.271 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.9403 on 46 degrees of freedom
## Multiple R-squared: 0.9456, Adjusted R-squared: 0.9444
## F-statistic: 799.3 on 1 and 46 DF, p-value: < 2.2e-16
## [1] "Group" "Contour" "Depth" "Gp" "Block" "pH" "N"
## [8] "Dens" "P" "Ca" "Mg" "K" "Na" "Conduc"
## pH Dens Conduc
## Min. :3.740 Min. :0.780 Min. : 0.670
## 1st Qu.:4.058 1st Qu.:1.127 1st Qu.: 2.790
## Median :4.545 Median :1.400 Median : 6.635
## Mean :4.669 Mean :1.316 Mean : 6.589
## 3rd Qu.:5.140 3rd Qu.:1.502 3rd Qu.: 9.852
## Max. :6.670 Max. :1.600 Max. :13.320
Conduc = -0.01291 + 1.17892*Na
Intercepto (-0.01291): Cuando Na = 0, el modelo predice una conductividad de -0.01291 dS/m (prácticamente 0, no significativamente diferente de cero)
Pendiente (1.17892): Por cada aumento de 1 unidad en Na, la conductividad (Conduc) aumenta en 1.17892 dS/m
Na (p < 2e-16): Extremadamente significativo (***)
El valor-p es mucho menor que 0.001, confirmando que Na es un excelente predictor de Conduc
Intercepto (p = 0.962): No significativo (p > 0.05)
Podríamos considerar un modelo sin intercepto si tiene sentido teórico
R² múltiple = 0.9456: El 94.56% de la variabilidad en Conduc es explicada por Na
R² ajustado = 0.9444: Similar al R² múltiple, confirmando que el modelo no está sobreajustado
***Error estándar residual = 0.9403: La desviación típica de los residuos es 0.9403 dS/mv
Rango de residuos: [-2.29, 2.13]
Mediana cerca de 0 (0.04578): Sugiere simetría en la distribución de residuos
1Q (-0.708) y 3Q (0.438): 50% central de residuos se encuentra entre -0.71 y 0.44
F-statistic = 799.3 (p < 2.2e-16): El modelo es altamente significativo en su conjunto
Implicaciones Prácticas Relación fuerte positiva: Na explica casi perfectamente (94.6%) la conductividad
Aplicación predictiva: P ara un suelo con Na = 5: Conduc = -0.01291 + 1.17892*5 ≈ 5.88 dS/m Control de salinidad: Reducir Na disminuirá proporcionalmente la conductividad
## Start: AIC=-23.77
## Conduc ~ pH + N + Dens + P + Ca + Mg + K + Na
##
## Df Sum of Sq RSS AIC
## - P 1 0.040 20.145 -25.675
## - Ca 1 0.132 20.237 -25.458
## <none> 20.105 -23.771
## - Dens 1 0.900 21.005 -23.668
## - N 1 0.988 21.093 -23.469
## - Mg 1 1.364 21.469 -22.619
## - K 1 3.787 23.892 -17.487
## - pH 1 4.164 24.269 -16.736
## - Na 1 112.490 132.595 64.773
##
## Step: AIC=-25.68
## Conduc ~ pH + N + Dens + Ca + Mg + K + Na
##
## Df Sum of Sq RSS AIC
## - Ca 1 0.100 20.245 -27.437
## <none> 20.145 -25.675
## - N 1 1.037 21.183 -25.265
## - Dens 1 1.122 21.267 -25.073
## - Mg 1 1.393 21.539 -24.465
## + P 1 0.040 20.105 -23.771
## - K 1 3.749 23.895 -19.483
## - pH 1 4.590 24.736 -17.822
## - Na 1 124.693 144.838 67.012
##
## Step: AIC=-27.44
## Conduc ~ pH + N + Dens + Mg + K + Na
##
## Df Sum of Sq RSS AIC
## <none> 20.245 -27.437
## - N 1 0.953 21.199 -27.229
## - Dens 1 1.266 21.511 -26.526
## - Mg 1 1.551 21.797 -25.894
## + Ca 1 0.100 20.145 -25.675
## + P 1 0.009 20.237 -25.458
## - K 1 4.249 24.495 -20.292
## - pH 1 8.638 28.883 -12.382
## - Na 1 125.443 145.688 65.293
##
## Call:
## lm(formula = Conduc ~ pH + N + Dens + Mg + K + Na, data = Soils)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.20385 -0.52459 -0.00915 0.40134 1.50754
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 5.04020 2.05533 2.452 0.018542 *
## pH -0.91000 0.21758 -4.182 0.000148 ***
## N 4.93184 3.54947 1.389 0.172194
## Dens 1.53105 0.95619 1.601 0.117012
## Mg -0.16353 0.09226 -1.772 0.083748 .
## K -2.00285 0.68274 -2.934 0.005465 **
## Na 0.99974 0.06272 15.939 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.7027 on 41 degrees of freedom
## Multiple R-squared: 0.9729, Adjusted R-squared: 0.9689
## F-statistic: 245.4 on 6 and 41 DF, p-value: < 2.2e-16
##
## Call:
## lm(formula = Conduc ~ pH + N + Dens + Mg + K + Na, data = Soils)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.20385 -0.52459 -0.00915 0.40134 1.50754
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 5.04020 2.05533 2.452 0.018542 *
## pH -0.91000 0.21758 -4.182 0.000148 ***
## N 4.93184 3.54947 1.389 0.172194
## Dens 1.53105 0.95619 1.601 0.117012
## Mg -0.16353 0.09226 -1.772 0.083748 .
## K -2.00285 0.68274 -2.934 0.005465 **
## Na 0.99974 0.06272 15.939 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.7027 on 41 degrees of freedom
## Multiple R-squared: 0.9729, Adjusted R-squared: 0.9689
## F-statistic: 245.4 on 6 and 41 DF, p-value: < 2.2e-16
El modelo final incluye las siguientes variables predictoras: pH, N, Dens, Mg, K y Na. El valor de R-cuadrado ajustado es de”, round(summary(modelo_final)\(adj.r.squared, 4), ", lo que indica que el modelo explica aproximadamente el", round(summary(modelo_final)\)adj.r.squared * 100, 2), “% de la variabilidad en la conductividad eléctrica del suelo.
Entre las variables más significativas se encuentran: (“- Na (p < 0.001): tiene un efecto positivo fuerte sobre la conductividad.”- pH (p < 0.001): tiene un efecto negativo significativo. “- K (p < 0.01): también tiene un efecto negativo relevante. Las variables N, Dens y Mg tienen menor significancia estadística, pero fueron retenidas en el modelo por su aporte conjunto al ajuste.
El modelo final seleccionado por la función stepAIC() tiene como
variable dependiente la conductividad eléctrica del suelo
(Conduc) y conserva las siguientes variables predictoras
cuantitativas: pH, N, Dens,
Mg, K y Na. Estas variables
fueron seleccionadas por su capacidad conjunta para explicar la
variabilidad de la conductividad, minimizando el criterio AIC (Akaike
Information Criterion). Las variables descartadas fueron P
y Ca, ya que su inclusión no mejoraba significativamente el
ajuste del modelo (según AIC). La eliminación de estas variables sugiere
que no aportan información estadísticamente relevante para predecir la
conductividad en presencia del resto de variables.
Las implicaciones del modelo final son las siguientes: La variable
Na tiene una influencia positiva muy fuerte y altamente
significativa sobre la conductividad (p < 0.001). La variable
pH tiene una influencia negativa significativa (p <
0.001), indicando que suelos más ácidos tienden a tener mayor
conductividad. K también muestra un efecto negativo
significativo (p < 0.01). Mg, Dens y
N tienen menor significancia, pero su presencia contribuye
al modelo explicativo global.
El modelo tiene un R-cuadrado ajustado de aproximadamente 0.969, lo que indica que explica cerca del 97% de la variabilidad de la conductividad. Esto implica que el modelo es muy efectivo para estimar esta propiedad del suelo con base en sus características químicas y físicas.
En términos prácticos para la ingeniería civil o agronomía, este modelo puede ser útil para diagnosticar la calidad del suelo, orientar practicas de fertilización o prever la salinidad con base en variables fácilmente medibles. ```
A través del análisis de regresión múltiple aplicado al conjunto de
datos ‘Soils’, aprendimos que la conductividad eléctrica del suelo está
fuertemente influenciada por variables como el contenido de sodio
(Na), el nivel de acidez (pH) y la
concentración de potasio (K). Estas relaciones reflejan
cómo los componentes químicos y físicos del suelo interactúan para
afectar su capacidad de conducción eléctrica.
La regresión múltiple es una herramienta clave para la toma de decisiones en ingeniería civil y agronómica, ya que permite modelar y cuantificar el impacto de múltiples factores sobre una variable de interés. En este caso, el modelo permite prever la conductividad del suelo a partir de mediciones básicas, lo que puede facilitar decisiones sobre riego, fertilización o estabilidad de terrenos
El uso del criterio de Akaike (AIC) ofrece una ventaja frente al uso exclusivo del R², ya que penaliza los modelos demasiado complejos. Mientras que un R² alto puede indicar un buen ajuste, el AIC busca un equilibrio entre ajuste y simplicidad del modelo, reduciendo el riesgo de sobreajuste y mejorando la capacidad de generalización del modelo.
En resumen, la aplicación de modelos de regresión múltiple con
selección por stepAIC() permitió identificar un conjunto
óptimo de predictores que explican la variabilidad de la conductividad
eléctrica del suelo con alta precisión. Esto refuerza la importancia de
utilizar métodos estadísticos adecuados para construir modelos
predictivos robustos, útiles en contextos técnicos y aplicados.