Regresion arboles

Modelo para Datos Arboles

El siguiente informe contiene los resultados del modelo de regresion para los datos de arboles de la compañia XYZ

library(readxl)
data_biomasa <- read_excel("C:/Users/paula_molano/OneDrive - SYNLAB/Desktop/Maestria en Finanzas/10. Econometria/data biomasa.xlsx")
data_biomasa

## # A tibble: 90 x 8
##    finca   mg         bio_aerea bio_sub bio_total area_foliar diametro altura
##    <chr>   <chr>          <dbl>   <dbl>     <dbl>       <dbl>    <dbl>  <dbl>
##  1 FINCA_1 GENOTIPO_1     12.8     0.93     13.7         44.5      4.7    5  
##  2 FINCA_1 GENOTIPO_1     13.9     0.69     14.6         39.7      5.3    5.6
##  3 FINCA_1 GENOTIPO_1     15.1     0.78     15.9         45.6      4.8    5.8
##  4 FINCA_1 GENOTIPO_1      8.08    0.91      8.99        29.5      3.2    4.3
##  5 FINCA_1 GENOTIPO_1      5.58    1.41      6.99        22.5      2.2    3.3
##  6 FINCA_1 GENOTIPO_2     18.5     0.84     19.3         34.2      6.3    7.9
##  7 FINCA_1 GENOTIPO_2     20.6     0.82     21.4         33.3      6.6    8.3
##  8 FINCA_1 GENOTIPO_2     12.7     1.08     13.8         25.1      5.3    7.3
##  9 FINCA_1 GENOTIPO_2     10.6     1.31     11.9         24        4.9    6.7
## 10 FINCA_1 GENOTIPO_2     15.7     0.92     16.6         34.5      5.9    7.1
## # ... with 80 more rows

library(ggplot2)
ggplot(data_biomasa,aes(y=bio_total,x=diametro))+geom_point()+theme_bw()+geom_smooth(method = "lm")

## `geom_smooth()` using formula 'y ~ x'

Se observa en la Figura una relación lineal positiva entre la biomasa (peso) del arbol y el diametro. Lo cual indica que esta variable podria ser util para ajustar un modelo de regresión. El coeficiente de Correlación de pearson nos indica una relación fuerte con un valor de 0.9 muy cercano a uno.

mod=lm(bio_total~diametro,data=data_biomasa)
summary(mod)

## 
## Call:
## lm(formula = bio_total ~ diametro, data = data_biomasa)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -6.3775 -2.6594  0.0237  1.8758 11.9876 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  -9.0203     1.4129  -6.384 7.86e-09 ***
## diametro      5.1026     0.2508  20.346  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 3.435 on 88 degrees of freedom
## Multiple R-squared:  0.8247, Adjusted R-squared:  0.8227 
## F-statistic:   414 on 1 and 88 DF,  p-value: < 2.2e-16

Se observa que el coeficiente Beta 1 del diametro es significativo y el valor estimado es de 5.1, lo cual nos indica que por cada metro adicional de diametro del arbol el peso se incrementa en 5.1 toneladas.

La ecuacion del MOdelo estimado es: Bio_total=-9.0203+(5.1026*Diametro)

El modelo presenta un ajuste de acuerdo al indicador (R-square) de 82.27%. Es decir. el modelo logra explicar el 82.27% de la variabilidad de la biomasa.

par(mfrow=c(2,2))
plot(mod)

La figura de los residuales vs los ajustadis (modelo) muestra un comportamiento no lineal, es decir que la relacion entre biomasa y diametro no necesariamente es de tipo lineal y se oueden explorar otro tipo para mejorar el ajuste

ggplot(data_biomasa,aes(y=bio_total,x=diametro))+geom_point()+theme_bw()+geom_smooth()+ggtitle("Relación Original")

## `geom_smooth()` using method = 'loess' and formula 'y ~ x'

ggplot(data_biomasa,aes(y=log(bio_total),x=diametro))+geom_point()+theme_bw()+geom_smooth()+ggtitle("Relación transformando y en logaritmo")

## `geom_smooth()` using method = 'loess' and formula 'y ~ x'

Se observa en las figuras como la relacion es mucho mas lineal con la transformación en logaritmo de la biomasa

mod_log=lm(log(bio_total)~diametro,data=data_biomasa)
summary(mod_log)

## 
## Call:
## lm(formula = log(bio_total) ~ diametro, data = data_biomasa)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.27395 -0.10180 -0.00328  0.10073  0.33742 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  1.32798    0.05977   22.22   <2e-16 ***
## diametro     0.27818    0.01061   26.22   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.1453 on 88 degrees of freedom
## Multiple R-squared:  0.8865, Adjusted R-squared:  0.8852 
## F-statistic: 687.6 on 1 and 88 DF,  p-value: < 2.2e-16

Se observa que el ajuste del modelo es mayor con la transfomación logaritmica, indicando que este nuevo modelo explica el 88.52% de la variabilidad de la biomasa

par(mfrow=c(2,2))
plot(mod_log)

Se observa que el supuesto de linealidad se cumple al igual que el de la normamildad, lo que nos indica que la transformacion fue efectiva.

La ecuacion de este modelo es: Ln(biomasa)=1.32798+(0.27818*Diametro)

Uso del modelo para predecir produccion y utilidad esperada

Supongamos que se tiene un lote con un total de 1000 arboles, se mide una muestra aleatoria de 100 de ellos y el diametro promedio fue de 7 metros, con una desviación estandar de 1 metro. Si la utilidad esperada de 1 tonelada de madera es en promedio de 10 millones de pesos. Cual sería una estimacion de esa utilidad para este lote una vez se cosecha. Use los resultados del modelo logaritmico.

log_biomasa=1.32798+(0.27818*7)
biomasa_estimada=exp(log_biomasa)
biomasa_estimada*10

## [1] 264.4957

Utilidad_estimada=biomasa_estimada*10
Utilidad_estimada

## [1] 264.4957

Utilidad_estimada*1000

## [1] 264495.7

Se estima una tulidad promedio del lote de 264495.7 millones de pesos (con 7) Se estima una tulidad pesimista del lote de 200265.7 millones de pesos (con 6) Se estima una tulidad optimista del lote de 349325.8 millones de pesos (con 8)

Se estima una utilidad promedio del lote de 264495 +-(200265,349325) millones de pesos

Regresion arboles

Paula Molano

5/11/2020

Modelo para Datos Arboles

Uso del modelo para predecir produccion y utilidad esperada