Introducción

El análisis de correlación y regresión lineal permite estudiar la relación existente entre dos variables cuantitativas. En este trabajo se analiza la relación entre el contenido de nitrógeno y el contenido de carbono en muestras de suelo del conjunto de datos waynick.soil.

Este tipo de análisis es importante en estudios agrícolas y ambientales, ya que permite comprender cómo ciertas propiedades químicas del suelo pueden relacionarse entre sí y afectar la calidad y fertilidad del terreno. Para ello se utilizaron herramientas estadísticas en R, incluyendo correlación, gráficos de dispersión, regresión lineal simple y análisis de varianza.

Descripción del dataset

El conjunto de datos waynick.soil contiene información sobre muestras de suelo tomadas en dos campos agrícolas diferentes. Las variables principales utilizadas en este análisis fueron:

Estas variables se expresan en porcentaje y permiten evaluar la relación química existente entre ambos componentes del suelo.

Carga y exploración inicial de los datos

## # A tibble: 6 × 6
##   field sample     x     y nitro carbon
##   <chr>  <dbl> <dbl> <dbl> <dbl>  <dbl>
## 1 Davis      1     0   210 0.104  1.17 
## 2 Davis      2     0   180 0.086  1.05 
## 3 Davis      3     0   150 0.08   0.958
## 4 Davis      4     0   120 0.092  1.07 
## 5 Davis      5     0    90 0.099  1.07 
## 6 Davis      6     0    60 0.098  1.13
##        field         sample             x             y           nitro        
##  Length   :200   Min.   :  1.00   Min.   :  0   Min.   :  0   Min.   :0.02100  
##  N.unique :  2   1st Qu.: 25.75   1st Qu.: 60   1st Qu.: 60   1st Qu.:0.03100  
##  N.blank  :  0   Median : 50.50   Median :135   Median :105   Median :0.07000  
##  Min.nchar:  5   Mean   : 50.50   Mean   :135   Mean   :105   Mean   :0.06657  
##  Max.nchar:  6   3rd Qu.: 75.25   3rd Qu.:210   3rd Qu.:150   3rd Qu.:0.10100  
##                  Max.   :100.00   Max.   :270   Max.   :210   Max.   :0.12400  
##      carbon      
##  Min.   :0.1790  
##  1st Qu.:0.4085  
##  Median :0.8995  
##  Mean   :0.7765  
##  3rd Qu.:1.1002  
##  Max.   :1.9970

A partir de la exploración inicial se puede observar que el conjunto de datos contiene diferentes observaciones correspondientes a muestras de suelo. Las variables nitro y carbon presentan variabilidad suficiente para realizar un análisis estadístico adecuado.

Cálculo de correlación

## [1] 0.963287

La correlación calculada entre las variables nitro y carbon indica el grado de relación lineal entre ambas variables. Los resultados muestran una relación positiva entre el contenido de nitrógeno y el contenido de carbono en el suelo.

Gráfico de dispersión

En el gráfico de dispersión se observa una tendencia creciente entre las variables nitro y carbon. La línea de regresión muestra una relación positiva, indicando que el contenido de carbono aumenta a medida que incrementa el contenido de nitrógeno en el suelo.

Modelo de regresión lineal simple

## 
## Call:
## lm(formula = carbon ~ nitro, data = datos)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.19877 -0.04211 -0.01243  0.03057  0.93390 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  0.10534    0.01502   7.015 3.56e-11 ***
## nitro       10.08169    0.19969  50.488  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.09873 on 198 degrees of freedom
## Multiple R-squared:  0.9279, Adjusted R-squared:  0.9276 
## F-statistic:  2549 on 1 and 198 DF,  p-value: < 2.2e-16

El modelo de regresión lineal simple permite explicar el comportamiento de la variable carbon a partir de la variable nitro. Los coeficientes obtenidos indican la dirección y magnitud de la relación entre ambas variables.

Análisis de varianza

## Analysis of Variance Table
## 
## Response: carbon
##            Df Sum Sq Mean Sq F value    Pr(>F)    
## nitro       1 24.847 24.8471    2549 < 2.2e-16 ***
## Residuals 198  1.930  0.0097                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

El análisis de varianza permite evaluar si el modelo de regresión es estadísticamente significativo. A partir de los resultados obtenidos, se observa que el valor p es menor a 0.05, lo que indica que existe evidencia estadística suficiente para afirmar que la variable nitro tiene influencia significativa sobre la variable carbon.

Ecuación de la recta

La ecuación de la regresión lineal simple tiene la siguiente forma:

y = β0 + β1x

Donde:

La ecuación específica se obtiene a partir de los coeficientes generados en la salida del modelo en R.

Interpretación de resultados

Los resultados obtenidos muestran que existe una relación positiva entre el contenido de nitrógeno y carbono en las muestras de suelo analizadas. El modelo de regresión lineal permitió representar matemáticamente esta relación y evaluar su comportamiento estadístico.

Conclusión

En este trabajo se realizó un análisis de correlación y regresión lineal simple utilizando el conjunto de datos waynick.soil en R. Los resultados mostraron la existencia de una relación positiva entre el contenido de nitrógeno y carbono en el suelo.

El análisis de correlación permitió identificar la asociación lineal entre las variables, mientras que la regresión lineal permitió modelar matemáticamente dicha relación. Además, el análisis de varianza confirmó que el modelo obtenido es estadísticamente significativo.

Como conclusión final, se puede afirmar que el contenido de nitrógeno influye sobre el contenido de carbono en las muestras analizadas, y que las herramientas estadísticas utilizadas en R son útiles para estudiar relaciones entre variables en el ámbito agropecuario y ambiental.