Actividad 1 - Caso biomasa

Uno de los propósitos a nivel mundial es el de estimar la captura de dióxido de carbono uno principales gases causantes del calentamiento global y por tanto del cambio climático.

Un grupo de investigadores están interesados en poder construir modelos que permitan la valoración de estos beneficio a través de información recogida sobre características de los árboles de una región húmeda, que les permita una estimación de la biomasa y así facilitar la toma de decisiones y la generación de políticas públicas.

Como no es posible obtener el valor del peso del árbol sin cortar, se plantea la opción de estimarla a través de variables como la altura y el diámetro del tronco, información requerida para la estimación del valor de la biomasa.

Se requiere ayude a los investigadores en su propósito utilizando la información contenida en la base de datos arboles suministrada.

Proponga un modelo de regresión lineal simple que permita predecir el peso del árbol en función de las covariables que considere importantes y seleccionándolas de acuerdo con un proceso adecuado.

Tenga en cuenta realizar una evaluación de la significancia de los parámetros, validación de los supuesto e interpretación de los resultados. Proponga un método de evaluación para los modelos estimados.

En el modelo de regresión lineal se pretende identificar a partir de las variables establecidas en el conjunto de datos “Arboles” en el cual se identifique un modelo apropiado para estimar el peso de los arboles

##        id             peso          diametro         altura      
##  Min.   : 1.00   Min.   : 5.98   Min.   :2.200   Min.   : 3.300  
##  1st Qu.:23.25   1st Qu.:13.64   1st Qu.:4.525   1st Qu.: 5.225  
##  Median :45.50   Median :17.48   Median :5.400   Median : 6.450  
##  Mean   :45.50   Mean   :18.77   Mean   :5.446   Mean   : 6.634  
##  3rd Qu.:67.75   3rd Qu.:22.80   3rd Qu.:6.500   3rd Qu.: 7.875  
##  Max.   :90.00   Max.   :47.87   Max.   :8.800   Max.   :11.300

Graficos

Se presentan los graficos dispersión, en los cuales se observan que en una regresión lineal simple porcada variable relacionada al peso, tanto diametro como altura, presentan una representación lineal positiva, entendiendo que ambas variables si aportan a la variable peso.

## [1] 0.908123
## [1] 0.8582009

Se realiza una ánalisis de correlación simple donde de acuerdo a dos variables se identifica el tipo de correlación de que tiene cada variable con respecto al peso cada una independiente peso como variable dependiente y diametro y altura como varible independiente

## 
##  Pearson's product-moment correlation
## 
## data:  arboles$diametro and arboles$peso
## t = 20.346, df = 88, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.8634081 0.9386817
## sample estimates:
##      cor 
## 0.908123
## 
##  Pearson's product-moment correlation
## 
## data:  arboles$altura and arboles$peso
## t = 15.684, df = 88, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.7918402 0.9045332
## sample estimates:
##       cor 
## 0.8582009

Se identifica que ambas variables se correlacionan con el peso con una correlación lineal positiva

Hallazgo de variable representativa.

Posteriormente se realiza un modelo el cual integra las diferentes variables, siendo la variable diametro más significativa con 3.57329 en comparación a la variable altura con 1.14634 con un valor de RSquare de 0.8548 el cual reafirma una correlación lineal positiva, validada mediante el metodo de correlación de pearson con un valor de 0.908123

modelo1=lm(peso ~ diametro, data = arboles)
summary(modelo1)
## 
## Call:
## lm(formula = peso ~ diametro, data = arboles)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -6.3775 -2.6594  0.0237  1.8758 11.9876 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  -9.0203     1.4129  -6.384 7.86e-09 ***
## diametro      5.1026     0.2508  20.346  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 3.435 on 88 degrees of freedom
## Multiple R-squared:  0.8247, Adjusted R-squared:  0.8227 
## F-statistic:   414 on 1 and 88 DF,  p-value: < 2.2e-16
ggplot(arboles, aes(x=arboles$peso, y=arboles$diametro, color= "blue3")) +
  ggtitle(substitute(italic("Figura 3. Diagrama de dispersión de X vs Y")))+
  stat_ellipse(geom="polygon", aes(color = "Blue"),
               alpha = 0.2,
               show.legend = FALSE,
               level = 0.95)+
  geom_point(show.legend=FALSE)+
  geom_smooth(method = "lm", colour="Blue")

cor.p = cor(arboles$peso, arboles$diametro, method = "pearson")
cor.p
## [1] 0.908123
cor.k = cor(arboles$peso, arboles$diametro, method = "kendall")
cor.k
## [1] 0.7827976
cor.s = cor(arboles$peso, arboles$diametro, method = "spearman")
cor.s
## [1] 0.9319228

De acuerdo a esto identificamos con el modelo lineal simple

En la Figura de Diagrama de Dispersión se puede evidenciar una relación directamente proporcional entre el diametro y el peso debido a que se aprecía de manera descriptiva que los datos presentan correlación enmcarcados en el elipse de manera ascente.

De igual manera los coeficientes de correlación propuestos (Kendall, Pearson y spearman) nos permite evidenciar una fuerte correlación lineal entre el peso y altura, entendiendo que los valores se encuentran entre el rango de -1 y 1.

Análisis Multivariado.

se realiza una limpieza de las variables con la librería dplyr para que no nos afecte el modelo, dejando solo las variables, peso, diametro y altura y se procede a realizar el modelo 2.

library(dplyr)
colnames(arboles)
## [1] "id"       "peso"     "diametro" "altura"
arboles2<-select(arboles,peso,diametro,altura)

modelo2=lm(peso ~ ., data = arboles2)
summary(modelo2)
## 
## Call:
## lm(formula = peso ~ ., data = arboles2)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -6.3083 -2.5121  0.1608  2.0088 11.7446 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  -9.1205     1.4305  -6.376 8.44e-09 ***
## diametro      4.7395     0.7128   6.649 2.49e-09 ***
## altura        0.3132     0.5751   0.544    0.587    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 3.449 on 87 degrees of freedom
## Multiple R-squared:  0.8253, Adjusted R-squared:  0.8213 
## F-statistic: 205.5 on 2 and 87 DF,  p-value: < 2.2e-16
modelo2$coefficients
## (Intercept)    diametro      altura 
##   -9.120516    4.739457    0.313161

Este modelo Y= β0 + β1 X

De acuerdo al valor p = p-value: < 2.2e-16, se puede decir que Este modelo de regresión lineal da un valor P menor a 0.05 para la prueba F, por lo tanto, hay suficiente evidencia para rechazar la hipótesis nula y considerar que B1 es diferente de cero. Por ende, sí funciona el modelo, de igual manera con un Adjusted R-squared: 0.8548, es decir ambas variables tanto diametro como altura influyen en el peso de un arbol.

De acuerdo a los coeficientes se puede realizar una estimación de la biomasa con estás variables

Interceptt Diametro Altura
9.120516 4.739457 0.313161
library(psych)
pairs.panels(arboles2, main="Correlación a partir del metodo Pearson",
             method = "pearson")

Se puede evidenciar que, el coeficiente 1 (β1), no tiene un valor cero cuando se tiene un intérvalo de confianza del 95%, pues oscila entre 1.74 y 2.50, de la tabla anterior tenemos que el valor-P asociado a area construida es de 0.0000000000345, por lo tanto a un nivel de significancia usual de 5%, hay evidencias para rechazar H0 y se concluye que la variable area construida si aporta información para predecir la media del precio de la .

Descrpición del modelo.

Se Calcula e interpreta el indicador de bondad y ajuste R2.

summary(modelo2)
## 
## Call:
## lm(formula = peso ~ ., data = arboles2)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -6.3083 -2.5121  0.1608  2.0088 11.7446 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  -9.1205     1.4305  -6.376 8.44e-09 ***
## diametro      4.7395     0.7128   6.649 2.49e-09 ***
## altura        0.3132     0.5751   0.544    0.587    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 3.449 on 87 degrees of freedom
## Multiple R-squared:  0.8253, Adjusted R-squared:  0.8213 
## F-statistic: 205.5 on 2 and 87 DF,  p-value: < 2.2e-16

De acuerdo a los valores de R-squared: 0.8446 - Adjusted R-squared: 0.8213 La regresión da un R cuadrado ajustado de 0.8213 , muy similar al R cuadrado (0.8253), lo que quiere decir que el modelo explica, aproximadamente, el 82% de las variaciones promedio en la variable dependiente. Como este valor está muy cercano a 0.8, podíamos decir que tenemos una variabilidad aceptable y no tendremos problemas, siendo la variable con mayor representatividad, la variable de Diametro con un 4.73 de la desviación estandar estimada en el modelo.