INTRODUCCIÓN

Los suelos son la base de cualquier construcción, y entender sus propiedades es clave para evitar problemas en obras civiles. En este trabajo, usaremos el dataset Soils (del paquete carData en R), que contiene datos como densidad, pH y contenido de minerales, para analizar cómo estas variables se relacionan entre sí.

Aplicaremos regresión lineal (simple y múltiple) para predecir comportamientos del suelo y seleccionar el mejor modelo estadístico. Primero, exploraremos los datos con gráficos y medidas de correlación; luego, ajustaremos los modelos y compararemos su eficacia.

Este análisis no solo refuerza conceptos de estadística aplicada, sino que también muestra su utilidad en ingeniería civil, ayudando a tomar decisiones más informadas en proyectos reales.

Exploración del dataset Soils

El dataset Soils del paquete carData en R contiene información sobre propiedades físico-químicas de muestras de suelo, las cuales son críticas para aplicaciones en ingeniería civil.

Variables del dataset Soils (carData) y su importancia en ingeniería civil

El dataset Soils contiene propiedades físico-químicas de suelos relevantes para aplicaciones en ingeniería civil. A continuación se detalla cada variable:

Variables principales

pH
- Descripción: Medida de acidez/alcalinidad (escala 0-14).
- Importancia:
- Valores bajos (<5) pueden corroer estructuras metálicas
- Valores altos (>8.5) afectan la durabilidad del hormigón

Densidad (g/cm³)
- Descripción: Densidad aparente del suelo
- Importancia:
- Suelos densos (>1.6 g/cm³) tienen mayor capacidad portante
- Valores bajos indican necesidad de compactación

Porosidad (%)
- Descripción: Volumen de huecos en el suelo
- Importancia:
- Alta porosidad → Mayor permeabilidad (afecta drenaje)
- Baja porosidad → Mayor estabilidad para pavimentos

Composición del suelo

Variables de textura del suelo
Variable Rango Uso
Arcilla <0.002 mm Cohesión pero expansiva
Limo 0.002-0.05 mm Baja capacidad portante
Arena 0.05-2 mm Buena estabilidad

Otras variables relevantes

Conductividad (dS/m):
- Indica salinidad, afecta corrosión de aceros

Carbono (%):
- Alto contenido → Suelos orgánicos menos estables

Minerales:
- Presencia de arcillas expansivas (ej. montmorillonita) requiere tratamientos especiales

Aplicaciones prácticas

  • Selección de cimentaciones: Combinar Densidad + Arcilla para elegir entre zapatas o pilotes
  • Estabilidad de taludes: Porosidad + Conductividad predicen riesgo de erosión
  • Diseño de pavimentos: Suelos arenosos (Arena >50%) son ideales para bases
##   Group Contour Depth Gp Block   pH     N Dens   P    Ca   Mg    K   Na Conduc
## 1     1     Top  0-10 T0     1 5.40 0.188 0.92 215 16.35 7.65 0.72 1.14   1.09
## 2     1     Top  0-10 T0     2 5.65 0.165 1.04 208 12.25 5.15 0.71 0.94   1.35
## 3     1     Top  0-10 T0     3 5.14 0.260 0.95 300 13.02 5.68 0.68 0.60   1.41
## 4     1     Top  0-10 T0     4 5.14 0.169 1.10 248 11.92 7.88 1.09 1.01   1.64
## 5     2     Top 10-30 T1     1 5.14 0.164 1.12 174 14.17 8.12 0.70 2.17   1.85
## 6     2     Top 10-30 T1     2 5.10 0.094 1.22 129  8.55 6.92 0.81 2.67   3.18
##      Group          Contour     Depth          Gp     Block        pH       
##  1      : 4   Depression:16   0-10 :12   D0     : 4   1:12   Min.   :3.740  
##  2      : 4   Slope     :16   10-30:12   D1     : 4   2:12   1st Qu.:4.058  
##  3      : 4   Top       :16   30-60:12   D3     : 4   3:12   Median :4.545  
##  4      : 4                   60-90:12   D6     : 4   4:12   Mean   :4.669  
##  5      : 4                              S0     : 4          3rd Qu.:5.140  
##  6      : 4                              S1     : 4          Max.   :6.670  
##  (Other):24                              (Other):24                         
##        N                Dens             P               Ca        
##  Min.   :0.03000   Min.   :0.780   Min.   : 79.0   Min.   : 3.820  
##  1st Qu.:0.05075   1st Qu.:1.127   1st Qu.:108.8   1st Qu.: 5.040  
##  Median :0.08450   Median :1.400   Median :131.0   Median : 7.305  
##  Mean   :0.10194   Mean   :1.316   Mean   :166.2   Mean   : 8.029  
##  3rd Qu.:0.12925   3rd Qu.:1.502   3rd Qu.:214.2   3rd Qu.: 9.735  
##  Max.   :0.29800   Max.   :1.600   Max.   :445.0   Max.   :16.350  
##                                                                    
##        Mg               K                Na             Conduc      
##  Min.   : 5.150   Min.   :0.1400   Min.   : 0.600   Min.   : 0.670  
##  1st Qu.: 7.537   1st Qu.:0.2750   1st Qu.: 2.545   1st Qu.: 2.790  
##  Median : 8.515   Median :0.4250   Median : 5.520   Median : 6.635  
##  Mean   : 8.465   Mean   :0.4662   Mean   : 5.600   Mean   : 6.589  
##  3rd Qu.: 9.648   3rd Qu.:0.6425   3rd Qu.: 8.355   3rd Qu.: 9.852  
##  Max.   :10.960   Max.   :1.0900   Max.   :11.040   Max.   :13.320  
## 

Análisis Químico del Suelo

Histogramas y Curvas de Densidad

Análisis Estadístico de las Distribuciones

Interpretación del Histograma de pH

Análisis de la distribución de pH
Parámetro Valor Implicación
Densidad máxima 0.75 Concentración de muestras en rango medio
Asimetría Moderada (cola izquierda) Posible presencia de suelos ácidos
Rango óptimo 6.0-8.0 Condiciones ideales para construcción
Rango problemático <5.5 (ácido) o >8.5 (alcalino) Riesgo de corrosión o deterioro

Interpretación del Histograma de Conductividad

Análisis de conductividad eléctrica
Característica Valor Significado
Densidad máxima 0.12 Menor concentración que el pH
Forma Plana con cola derecha Presencia de valores atípicos salinos
Nivel seguro <2 dS/m Suelos no salinos
Nivel crítico >4 dS/m Riesgo de deterioro acelerado

Comparativa Técnica

Comparación de parámetros químicos
Análisis Técnico
Variable Distribución Valor.crítico Acción.recomendada Materiales.afectados
pH Asimétrica con cola izquierda pH <5.5 Encalado Estructuras metálicas
Conductividad Plana con cola derecha Conduc >4 dS/m Sistemas de drenaje Concreto y acero

Recomendaciones de Ingeniería

Para control de pH: - Neutralización con cal (CaCO₃) para suelos ácidos - Uso de aditivos anti-corrosivos en concretos - Barreras geotextiles para aislamiento

Para manejo de salinidad:

## - Lavado de sales con sistemas de drenaje (requiere pendiente >2%)
## 
## - Uso de cementos tipo HS (alta resistencia a sulfatos)
## 
## - Recubrimientos epóxicos para estructuras metálicas

Medidas complementarias: - Muestreo adicional cada 6 meses en zonas críticas - Pruebas de velocidad de corrosión (ASTM G1) - Monitorización continua con sensores de pH/salinidad

Relación pH-Conductividad en suelos

Relación pH-Conductividad en suelos

Visualización de correlaciones

Explicación del Gráfico

  1. Diagonal superior: Histogramas de distribución para cada variable
  2. Diagonal inferior: Gráficos de dispersión entre pares de variables
  3. Triángulo superior: Coeficientes de correlación con significancia estadística (p < 0.001)

Análisis de Correlación Química del Suelo

Matriz de Correlación

Interpretación Técnica

Correlaciones Fuertes (|r| > 0.7)
Variable1 Variable2 Correlación Interpretación
pH Conduc -0.7648104 Relación significativa entre variables
Dens Conduc 0.7625652 Relación significativa entre variables
pH Ca 0.8086293 El calcio disminuye en suelos alcalinos
Dens Ca -0.7914376 Relación significativa entre variables
Conduc Ca -0.8320952 Relación significativa entre variables

Recomendaciones de Ingeniería

Recomendaciones Técnicas
Situación Solución Materiales
pH bajo (<5.5) Encalado con CaCO3 (2-5 ton/ha) Cal agrícola, yeso
Alta conductividad (>4 dS/m) Drenaje y lavado de sales Geodrenes, membranas HDPE
Alta densidad (>1.6 g/cm³) Aireación mecánica + materia orgánica Turba, compost, vermiculita

Interpretación de resultados

Análisis de Correlaciones Fuertes pH vs Conductividad (r = -0.76):

Existe una fuerte relación inversa: a medida que aumenta el pH, disminuye la conductividad eléctrica del suelo. Implicación práctica: Suelos alcalinos (pH alto) tienden a tener menor contenido de sales solubles. Densidad vs Conductividad (r = 0.76):Correlación positiva significativa: suelos más densos presentan mayor conductividad. Posible causa: Compactación que favorece acumulación de sales en horizontes superficiales. pH vs Calcio (r = 0.81): Relación directa importante: suelos con mayor pH contienen más calcio. Explicación técnica: El calcio se moviliza mejor en condiciones alcalinas (contrario a lo esperado, lo que sugiere un efecto de enmiendas calcáreas). Densidad vs Calcio (r = -0.79): Correlación negativa clara: suelos menos densos tienen mayor contenido de calcio. Interpretación: El calcio podría estar asociado a estructuras porosas (ej. agregados arcillosos). Conductividad vs Calcio (r = -0.83): Fuerte relación inversa: suelos con más calcio tienen menor salinidad. Importancia agronómica: El calcio compite con sodio en el complejo de intercambio, reduciendo toxicidad. Recomendaciones Técnicas Priorizadas Para suelos ácidos (pH <5.5): Acción inmediata: Aplicar 3-4 ton/ha de carbonato de calcio (CaCO₃). Beneficio: Neutraliza acidez y mejora disponibilidad de nutrientes. Material clave: Combinar cal agrícola con yeso (CaSO₄·2H₂O) para aportar calcio soluble. Control de salinidad (Conduc >4 dS/m):

Solución integral:

Instalar drenes subsuperficiales cada 10m (pendiente 1-2%).

Aplicar riegos de lavado (20% por encima de capacidad de campo).

Materiales óptimos: Tubos de drenaje envueltos en geotextil no tejido.

Regresión Lineal Simple

## 
## Call:
## lm(formula = Conduc ~ Na, data = Soils)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -2.29260 -0.70832  0.04578  0.43814  2.13464 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -0.01291    0.27008  -0.048    0.962    
## Na           1.17892    0.04170  28.271   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.9403 on 46 degrees of freedom
## Multiple R-squared:  0.9456, Adjusted R-squared:  0.9444 
## F-statistic: 799.3 on 1 and 46 DF,  p-value: < 2.2e-16

Interpretación del Modelo de Regresión Lineal: Conduc ~ Na

Análisis Básico de Suelos

Variables Disponibles

##  [1] "Group"   "Contour" "Depth"   "Gp"      "Block"   "pH"      "N"      
##  [8] "Dens"    "P"       "Ca"      "Mg"      "K"       "Na"      "Conduc"

Estadísticas Descriptivas

##        pH             Dens           Conduc      
##  Min.   :3.740   Min.   :0.780   Min.   : 0.670  
##  1st Qu.:4.058   1st Qu.:1.127   1st Qu.: 2.790  
##  Median :4.545   Median :1.400   Median : 6.635  
##  Mean   :4.669   Mean   :1.316   Mean   : 6.589  
##  3rd Qu.:5.140   3rd Qu.:1.502   3rd Qu.: 9.852  
##  Max.   :6.670   Max.   :1.600   Max.   :13.320

Gráfico Básico

Ecuación del Modelo Ajustado

Conduc = -0.01291 + 1.17892*Na

Intercepto (-0.01291): Cuando Na = 0, el modelo predice una conductividad de -0.01291 dS/m (prácticamente 0, no significativamente diferente de cero)

Pendiente (1.17892): Por cada aumento de 1 unidad en Na, la conductividad (Conduc) aumenta en 1.17892 dS/m

Significancia Estadística (Coefficients)

Na (p < 2e-16): Extremadamente significativo (***)

El valor-p es mucho menor que 0.001, confirmando que Na es un excelente predictor de Conduc

Intercepto (p = 0.962): No significativo (p > 0.05)

Podríamos considerar un modelo sin intercepto si tiene sentido teórico

Bondad de Ajuste

R² múltiple = 0.9456: El 94.56% de la variabilidad en Conduc es explicada por Na

R² ajustado = 0.9444: Similar al R² múltiple, confirmando que el modelo no está sobreajustado

***Error estándar residual = 0.9403: La desviación típica de los residuos es 0.9403 dS/mv

Análisis de Residuos

Rango de residuos: [-2.29, 2.13]

Mediana cerca de 0 (0.04578): Sugiere simetría en la distribución de residuos

1Q (-0.708) y 3Q (0.438): 50% central de residuos se encuentra entre -0.71 y 0.44

Prueba Global del Modelo

F-statistic = 799.3 (p < 2.2e-16): El modelo es altamente significativo en su conjunto

Implicaciones Prácticas Relación fuerte positiva: Na explica casi perfectamente (94.6%) la conductividad

Aplicación predictiva: P ara un suelo con Na = 5: Conduc = -0.01291 + 1.17892*5 ≈ 5.88 dS/m Control de salinidad: Reducir Na disminuirá proporcionalmente la conductividad

Regresión Lineal Múltiple y selección con AIC

## Start:  AIC=-23.77
## Conduc ~ pH + N + Dens + P + Ca + Mg + K + Na
## 
##        Df Sum of Sq     RSS     AIC
## - P     1     0.040  20.145 -25.675
## - Ca    1     0.132  20.237 -25.458
## <none>               20.105 -23.771
## - Dens  1     0.900  21.005 -23.668
## - N     1     0.988  21.093 -23.469
## - Mg    1     1.364  21.469 -22.619
## - K     1     3.787  23.892 -17.487
## - pH    1     4.164  24.269 -16.736
## - Na    1   112.490 132.595  64.773
## 
## Step:  AIC=-25.68
## Conduc ~ pH + N + Dens + Ca + Mg + K + Na
## 
##        Df Sum of Sq     RSS     AIC
## - Ca    1     0.100  20.245 -27.437
## <none>               20.145 -25.675
## - N     1     1.037  21.183 -25.265
## - Dens  1     1.122  21.267 -25.073
## - Mg    1     1.393  21.539 -24.465
## + P     1     0.040  20.105 -23.771
## - K     1     3.749  23.895 -19.483
## - pH    1     4.590  24.736 -17.822
## - Na    1   124.693 144.838  67.012
## 
## Step:  AIC=-27.44
## Conduc ~ pH + N + Dens + Mg + K + Na
## 
##        Df Sum of Sq     RSS     AIC
## <none>               20.245 -27.437
## - N     1     0.953  21.199 -27.229
## - Dens  1     1.266  21.511 -26.526
## - Mg    1     1.551  21.797 -25.894
## + Ca    1     0.100  20.145 -25.675
## + P     1     0.009  20.237 -25.458
## - K     1     4.249  24.495 -20.292
## - pH    1     8.638  28.883 -12.382
## - Na    1   125.443 145.688  65.293
## 
## Call:
## lm(formula = Conduc ~ pH + N + Dens + Mg + K + Na, data = Soils)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1.20385 -0.52459 -0.00915  0.40134  1.50754 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  5.04020    2.05533   2.452 0.018542 *  
## pH          -0.91000    0.21758  -4.182 0.000148 ***
## N            4.93184    3.54947   1.389 0.172194    
## Dens         1.53105    0.95619   1.601 0.117012    
## Mg          -0.16353    0.09226  -1.772 0.083748 .  
## K           -2.00285    0.68274  -2.934 0.005465 ** 
## Na           0.99974    0.06272  15.939  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.7027 on 41 degrees of freedom
## Multiple R-squared:  0.9729, Adjusted R-squared:  0.9689 
## F-statistic: 245.4 on 6 and 41 DF,  p-value: < 2.2e-16

Resultados del Modelo Final Seleccionado

## 
## Call:
## lm(formula = Conduc ~ pH + N + Dens + Mg + K + Na, data = Soils)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1.20385 -0.52459 -0.00915  0.40134  1.50754 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  5.04020    2.05533   2.452 0.018542 *  
## pH          -0.91000    0.21758  -4.182 0.000148 ***
## N            4.93184    3.54947   1.389 0.172194    
## Dens         1.53105    0.95619   1.601 0.117012    
## Mg          -0.16353    0.09226  -1.772 0.083748 .  
## K           -2.00285    0.68274  -2.934 0.005465 ** 
## Na           0.99974    0.06272  15.939  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.7027 on 41 degrees of freedom
## Multiple R-squared:  0.9729, Adjusted R-squared:  0.9689 
## F-statistic: 245.4 on 6 and 41 DF,  p-value: < 2.2e-16

Interpretación textual de los resultados

El modelo final incluye las siguientes variables predictoras: pH, N, Dens, Mg, K y Na. El valor de R-cuadrado ajustado es de”, round(summary(modelo_final)\(adj.r.squared, 4), ", lo que indica que el modelo explica aproximadamente el", round(summary(modelo_final)\)adj.r.squared * 100, 2), “% de la variabilidad en la conductividad eléctrica del suelo.

Entre las variables más significativas se encuentran: (“- Na (p < 0.001): tiene un efecto positivo fuerte sobre la conductividad.”- pH (p < 0.001): tiene un efecto negativo significativo. “- K (p < 0.01): también tiene un efecto negativo relevante. Las variables N, Dens y Mg tienen menor significancia estadística, pero fueron retenidas en el modelo por su aporte conjunto al ajuste.

Interpretación del modelo final en análisis de suelos

El modelo final seleccionado por la función stepAIC() tiene como variable dependiente la conductividad eléctrica del suelo (Conduc) y conserva las siguientes variables predictoras cuantitativas: pH, N, Dens, Mg, K y Na. Estas variables fueron seleccionadas por su capacidad conjunta para explicar la variabilidad de la conductividad, minimizando el criterio AIC (Akaike Information Criterion). Las variables descartadas fueron P y Ca, ya que su inclusión no mejoraba significativamente el ajuste del modelo (según AIC). La eliminación de estas variables sugiere que no aportan información estadísticamente relevante para predecir la conductividad en presencia del resto de variables.

Las implicaciones del modelo final son las siguientes: La variable Na tiene una influencia positiva muy fuerte y altamente significativa sobre la conductividad (p < 0.001). La variable pH tiene una influencia negativa significativa (p < 0.001), indicando que suelos más ácidos tienden a tener mayor conductividad. K también muestra un efecto negativo significativo (p < 0.01). Mg, Dens y N tienen menor significancia, pero su presencia contribuye al modelo explicativo global.

El modelo tiene un R-cuadrado ajustado de aproximadamente 0.969, lo que indica que explica cerca del 97% de la variabilidad de la conductividad. Esto implica que el modelo es muy efectivo para estimar esta propiedad del suelo con base en sus características químicas y físicas.

En términos prácticos para la ingeniería civil o agronomía, este modelo puede ser útil para diagnosticar la calidad del suelo, orientar practicas de fertilización o prever la salinidad con base en variables fácilmente medibles. ```

Conclusiones

A través del análisis de regresión múltiple aplicado al conjunto de datos ‘Soils’, aprendimos que la conductividad eléctrica del suelo está fuertemente influenciada por variables como el contenido de sodio (Na), el nivel de acidez (pH) y la concentración de potasio (K). Estas relaciones reflejan cómo los componentes químicos y físicos del suelo interactúan para afectar su capacidad de conducción eléctrica.

La regresión múltiple es una herramienta clave para la toma de decisiones en ingeniería civil y agronómica, ya que permite modelar y cuantificar el impacto de múltiples factores sobre una variable de interés. En este caso, el modelo permite prever la conductividad del suelo a partir de mediciones básicas, lo que puede facilitar decisiones sobre riego, fertilización o estabilidad de terrenos

El uso del criterio de Akaike (AIC) ofrece una ventaja frente al uso exclusivo del R², ya que penaliza los modelos demasiado complejos. Mientras que un R² alto puede indicar un buen ajuste, el AIC busca un equilibrio entre ajuste y simplicidad del modelo, reduciendo el riesgo de sobreajuste y mejorando la capacidad de generalización del modelo.

En resumen, la aplicación de modelos de regresión múltiple con selección por stepAIC() permitió identificar un conjunto óptimo de predictores que explican la variabilidad de la conductividad eléctrica del suelo con alta precisión. Esto refuerza la importancia de utilizar métodos estadísticos adecuados para construir modelos predictivos robustos, útiles en contextos técnicos y aplicados.