Introducción, problema y objetivos

Introdicción Investigar sobre la caficultura es fundamental para la región, pues actualmente es uno de los cultivos más abundantes y genera mejor rentabilidad al campesino, el estudio consiste desarrollar un modelo matemático para la estimación de la biomasa residual por efecto de poda(zoca) producida por la variedad de café Arábico en el municipio de Acevedo, perteneciente al departamento del Huila, donde la variable dependiente es el peso de los tallos del los árboles de café. esto se llevará a cabo a través, de la recolección datos sobre las medidas dendrométricas de la planta de café cuando se le implemente el proceso de renovación. Luego se implementara un software estadístico que permitirá procesar los datos para así determinar las variables predictoras más importantes para la predicción. Seguidamente se aplicará un análisis estadístico de la información para establecer el modelo con el cual se realizarán las predicciones, finalmente se procede a validar el modelo comparando con los datos reales.

objetivos .Construir un modelo matemático para la predicción de la biomasa residual por efecto de poda del cultivo de Café .Analizar estadísticamente las variables que influyen en la biomasa de café .Determinar el modelo de regresión adecuado para el estudio de la biomasa del café

Base de datos

La información con la que se desarrollara el estudio cuenta con 102 observaciones y con 4 variables de tipo cuantitativa continuas, las variables independientes son: grosor inferior del tallo, grosor superior del tallo y la altura de este, y la variable dependiente es el peso de los tallos de los árboles de café.

library(readxl)
datos<-read_excel("C:/Users/Acer/Downloads/taller.xlsx")

head(datos)
## # A tibble: 6 × 5
##   Grosor_inferior Grosor_superior Altura  Peso clase_de_cafe
##             <dbl>           <dbl>  <dbl> <dbl> <chr>        
## 1            12.9             5.9   204.   854 bourbon      
## 2            11.5             5.9   177.   670 castillo     
## 3            11.8             5.9   181.   722 castillo     
## 4            11.5             4.5   206.   817 castillo     
## 5            13.8             4.8   240.   653 bourbon      
## 6            13.3             5.9   168.   848 castillo

Correlación y relación entre las variables

cor.test(datos$Grosor_inferior, datos$Peso)
## 
##  Pearson's product-moment correlation
## 
## data:  datos$Grosor_inferior and datos$Peso
## t = 15.015, df = 100, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.7610133 0.8837385
## sample estimates:
##       cor 
## 0.8323083
cor.test(datos$Grosor_superior,datos$Peso)
## 
##  Pearson's product-moment correlation
## 
## data:  datos$Grosor_superior and datos$Peso
## t = 0.026542, df = 100, p-value = 0.9789
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.1919198  0.1970274
## sample estimates:
##         cor 
## 0.002654172
cor.test(datos$Altura,datos$Peso)
## 
##  Pearson's product-moment correlation
## 
## data:  datos$Altura and datos$Peso
## t = 7.9818, df = 100, p-value = 2.488e-12
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.488630 0.729766
## sample estimates:
##       cor 
## 0.6238251

De acuerdo con la información obtenida se determina lo siguiente:

-Las variables grosor inferior y peso tiene una correlacion de 0,83, esta siendo mayor a 0,5 se considera que las variables tiene una correlacion positiva fuerte.

-Las variables grosor superior y peso tiene una correlacion apriximada de 0,026,ya que es un valor menor a 0,5 se considera que las variables tiene una correlacion positiva debil.

- Las variables altura y peso tiene una correlacion apriximada de 0,62, esta siendo mayor a 0,5 se considera que las variables tiene una correlacion positiva fuerte.

modelo de regresión múltiple

Se aplica el modelo multivariado ya que en esta situación existe varios factores (variables) que tiene una correlación con la variable dependiente peso de los tallos de los árboles.

modelo<-lm(datos$Peso ~ datos$Grosor_inferior+datos$Grosor_superior+datos$Altura , data=datos)
summary(modelo)
## 
## Call:
## lm(formula = datos$Peso ~ datos$Grosor_inferior + datos$Grosor_superior + 
##     datos$Altura, data = datos)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -663.28  -83.83  -10.53   55.98  711.70 
## 
## Coefficients:
##                        Estimate Std. Error t value Pr(>|t|)    
## (Intercept)           -1763.309    157.398 -11.203  < 2e-16 ***
## datos$Grosor_inferior   143.626     11.881  12.089  < 2e-16 ***
## datos$Grosor_superior    31.851     15.796   2.016   0.0465 *  
## datos$Altura              3.928      0.573   6.855 6.39e-10 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 167.9 on 98 degrees of freedom
## Multiple R-squared:  0.8001, Adjusted R-squared:  0.794 
## F-statistic: 130.8 on 3 and 98 DF,  p-value: < 2.2e-16

El modelo con todas las variables introducidas como predictores tiene un R2 alta (0.8001), es capaz de explicar el 80,01% de la variabilidad observada del peso de los tallos de la planta de clafé. El p-value del modelo es significativo (2.2e-16).luegos los coeficientes son significativos, el menos significativo es el grosor superior, lo que quiere decir que poco contribuye al modelo.

Interpretacion detallada de los coeficientes

coefisientes<-summary(modelo)$coefficients
coefisientes
##                           Estimate  Std. Error    t value     Pr(>|t|)
## (Intercept)           -1763.308675 157.3982878 -11.202845 3.036175e-19
## datos$Grosor_inferior   143.626208  11.8809648  12.088766 3.887846e-21
## datos$Grosor_superior    31.851280  15.7958772   2.016430 4.649143e-02
## datos$Altura              3.927913   0.5730046   6.854942 6.393340e-10

Interpretación:

-Intercepto (-1763.308): predice el peso cuando la altura, grosor inferior y grosor superior del tallo son cero. esta parametro no es interpretable en la práctica, pero sirve para definir la recta del modelo.

-grosor inferior (143.626): por cada unidad de medida(cm) del grosor del tallo el peso de este aumenta en 128.9 gramo, si se mantiene constante la altura y el grosor superior del tallo. Este coeficiente es estadisticamente significativo para el ajuste del modelo (p=3.887846e-21).

-Altura (3.927): por cada unidad de medida(cm) de la altura el peso de este aumenta en 5.475 gramo, si se mantiene constante el grosor inferior y el grosor superior del tallo. Este coeficiente es estadisticamente significativo para el ajuste del modelo (p=6.393340e-10).

-Grosor inferior (31.851): por cada unidad de medida(cm) del grosor superior del tallo el peso de este aumenta en 56.001 gramo, si se mantiene constante la altura y el grosor inferior del tallo. Este coeficiente es estadisticamente tambien se considera significativo para el ajuste del modelo (p=4.649143e-02).

Ecuación del modelo ajustados

La forma general del modelo de regresión lineal múltiple es:

\[ Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \beta_3 X_3 \]

Donde:

cat("Peso =", round(coef(modelo)[1], 2), "+",
    round(coef(modelo)[2], 2), "* Grosor inferior +",
    round(coef(modelo)[3], 2), "* grosor superior +",
    round(coef(modelo)[4], 5), "* Altura")
## Peso = -1763.31 + 143.63 * Grosor inferior + 31.85 * grosor superior + 3.92791 * Altura

Diagnostico del modelo

Grafico de residuos vs valores ajustados

plot(modelo$fitted.values, modelo$residuals,
     main = "Residuos vs Valores Ajustados",
     xlab = "Valores Ajustados", ylab = "Residuos", pch = 19, col = "red")
abline(h = 0, col = "blue", lty = 2)

Analisis la distribución de los punto en la linea cero indica que no se presentan patrones sistemáticos en los residuos, lo cual se considera viable para continuar con el estudio.

Normalidad de los residuos

hist(modelo$residuals, col = "lightblue", main = "Histograma de residuos")

El histograma demuestra una tendensia de los residuos hacia una normalidad.

normal Q-Q plos

qqnorm(modelo$residuals)
qqline(modelo$residuals, col = "red")

interpretación: los residuos siguen una distribución normal en el Q_Q plot ya que se encuentan alineados con la recta de tendecia.

Pruebas complementarias

Homocedasticidad y autocorrelación

library(lmtest)
## Cargando paquete requerido: zoo
## 
## Adjuntando el paquete: 'zoo'
## The following objects are masked from 'package:base':
## 
##     as.Date, as.Date.numeric
bptest(modelo)
## 
##  studentized Breusch-Pagan test
## 
## data:  modelo
## BP = 5.6812, df = 3, p-value = 0.1282
dwtest(modelo)
## 
##  Durbin-Watson test
## 
## data:  modelo
## DW = 1.8197, p-value = 0.1827
## alternative hypothesis: true autocorrelation is greater than 0

análisis

1.Homocedasticidad:Teniendo en cuenta la prueba de Breusch pragan obtenemos un p-valor=0.1282 mayor a 0.05, implica no hay evidencia suficiente de heterocedasticidad.

2.autorrelación: De acuerdo al estadístico de Durbin-Watson el valor obtenido se aproximó a 2 y el p-valor es mayor a 0.05 lo que indica que no se puede rechazar la hipotesis nula (H0) de independencia de los residuos, por lo tanto, se cumple el supuesto de independencia.

Multicolinealidad

vif_manual <- function(modelo) {
  X <- model.matrix(modelo)[, -1]
  sapply(1:ncol(X), function(i) {
    rsq <- summary(lm(X[, i] ~ X[, -i]))$r.squared
    1 / (1 - rsq)
  })
}

vif_manual(modelo)
## [1] 1.419020 1.526557 1.791990

Interpretación teniendo en cuenta los resultados obtenidos demuestran que VIF se encuentran en un rango de 1 a 2, se considera con una colinealidad moderad; lo cual no implica un problema de multicolinealidad

Anova

anova(modelo)
## Analysis of Variance Table
## 
## Response: datos$Peso
##                       Df  Sum Sq Mean Sq  F value    Pr(>F)    
## datos$Grosor_inferior  1 9580233 9580233 339.6440 < 2.2e-16 ***
## datos$Grosor_superior  1  159609  159609   5.6586   0.01931 *  
## datos$Altura           1 1325439 1325439  46.9902 6.393e-10 ***
## Residuals             98 2764256   28207                       
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Grosor_inferior la suma de cuadrados y la media cuadrática es 9580233, un estadístico de 339.6440 y un valor-p de p=2.2e-16. esto me indica una relación altamente significativa. el grosor inferior es el más influyente en el modelo.

Altura la suma de cuadrados es 1325439, un estadístico de 46.9902 y un valor-p de p=6.393e-10. esto me indica una relación altamente significativa. la altura también es muy influyente en el modelo.

Grosor_superior la suma de cuadrados es 159609, un estadístico de 5.6586 y un valor-p de p=0.01931. esto me indica una relación significativa. el grosor superior es la variable que menos influye en el modelo.

residuales la suma de cuadrados es 2764256 y la media cuadrática es 28207. representa la variabilidad no explicada por el modelo.

Conclusión

1 Acuerdo con el modelo obtenido se concluye que las variables altura y grosor inferior del tallo tienen una relación positiva y significativa sobre el peso de estos, es decir, que mientra que aumente estas dos variables el peso del tallo también lo hará. a diferencia de la variables grosor superior del tallo que no muestra tener significacia a la hora de encontrar el peso.

2 En resumen, los resultados obtenidos permiten concluir la veracidad del modelo es aceptable ya que cumple con una correlación mayo a 0,5, además presenta normalidad, independencia de los errores y homocedasticidad.

3 El modelo lineal múltiple \[Peso = -1763,309 + 143,626(grosor inferior) + 31,851 (grosor superior) + 3,928(altura) \]

es capaz de explicar el 80% de la variabilidad observada en el peso de los tallos de la planta de café, siendo todas las variables independientes significativas en el modelo

Predicciones

-Estime cual es el peso de los tallos de un cultivo de café de 5000 palos en una hectárea, donde se realice una poda, teniendo en cuenta que tiene un promedio de grosor inferior de 12cm y grosor superior de 3cm, con una altura promedio de 2m, ¿ cual es el peso de cada árbol?¿que cantidad total de bionasa residual de tallo de café se pruduce?

y= -1763.309 + 143.626*(12) + 31.851 *(3) + 3.928*(200)
y
## [1] 841.356
total=y*5000
total
## [1] 4206780

respuesta el peso de cada tallo de café es de 841,356g Y se produce una biomasa residual de 4206780g que seria alrededor 4,2 toneladas del tallo de café por hectárea.

Recomendación

Se recomienda realizar nuevamente el estudio teniendo en cuenta otra variables como la variedad del café, los tratamientos (abonos) empleados en el cultivo, la calidad del suelo, entro otros, también se puede considerar aumentar las unidades muestrales.