El siguiente informe pertenece a una regresion para los datos del peso de una muestra de arboles, en funcion de la altura, diametro entre otros. Los datos se muestran acontinuacion.

library(readxl)
datos_biomasa <- read_excel("C:/Users/Asus/Desktop/analitica financiera/datos biomasa.xls")
datos_biomasa
## # A tibble: 90 x 7
##    finca   mg         peso_aerea peso_sub peso_total diametro altura
##    <chr>   <chr>           <dbl>    <dbl>      <dbl>    <dbl>  <dbl>
##  1 FINCA_1 GENOTIPO_1      12.8      0.93      13.7       4.7    5  
##  2 FINCA_1 GENOTIPO_1      13.9      0.69      14.6       5.3    5.6
##  3 FINCA_1 GENOTIPO_1      15.1      0.78      15.9       4.8    5.8
##  4 FINCA_1 GENOTIPO_1       8.08     0.91       8.99      3.2    4.3
##  5 FINCA_1 GENOTIPO_1       5.58     1.41       6.99      2.2    3.3
##  6 FINCA_1 GENOTIPO_2      18.5      0.84      19.3       6.3    7.9
##  7 FINCA_1 GENOTIPO_2      20.6      0.82      21.4       6.6    8.3
##  8 FINCA_1 GENOTIPO_2      12.7      1.08      13.8       5.3    7.3
##  9 FINCA_1 GENOTIPO_2      10.6      1.31      11.9       4.9    6.7
## 10 FINCA_1 GENOTIPO_2      15.7      0.92      16.6       5.9    7.1
## # ... with 80 more rows

Paso 1 = Plantear las variables del Modelo

Se desea evaluar la relacion entre las variables peso_total del arbol como respuesta (y) y la altura como variable predictoria (x). Se espera en general que a mayor altura del arbol el peso de la madera del mismo se puede incremente.

Paso 2 - Explorar la relacion entre las variables

y=datos_biomasa$peso_total
x=datos_biomasa$altura

plot(x,y)

cor(x,y)
## [1] 0.8582009

Se observa en la figura que existe una relacion lineal positiva entre el peso y la altura, adicional esta relacion es fuerte porque el coeficiente de correlacion de pearson es de 0.85 indicando que la altura del arbol puede ser un buen predictor a su peso.

Paso 3 = Estimar el Modelo de Regresion Lineal simple

mod_simple=lm(y~x)
mod_simple
## 
## Call:
## lm(formula = y ~ x)
## 
## Coefficients:
## (Intercept)            x  
##      -7.046        3.891

Como se observa el coeficiente beta 1 nos indica que por cada metro adicional del altura en el arbol se espera un incremento de 3.891 toneladas de peso.

summary(mod_simple)
## 
## Call:
## lm(formula = y ~ x)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -8.228 -1.969  0.572  2.377 15.106 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  -7.0456     1.7046  -4.133 8.14e-05 ***
## x             3.8906     0.2481  15.684  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4.211 on 88 degrees of freedom
## Multiple R-squared:  0.7365, Adjusted R-squared:  0.7335 
## F-statistic:   246 on 1 and 88 DF,  p-value: < 2.2e-16

Se observa el modelo presenta un ajuste de 73% con base el R2. Es decir este modelo logra explicar el 73% de la variable del peso del arbol.

Con base en el valor p se observa que la variable altura es significativa en el modelo. Es decir la altura efectivamente es una importante para explicar su peso.

Predecir con base el Modelo

¿ Se desea conocer cual es el valor estimado de la ganancia de un lote de 1000 arboles con una altura promedio de 7.2 metros, si se estima que por cada tonelada de madera la compañia logra producir una cantidad de productos (papeles, carton,…)cuyo valor estimado esta en 60 millones de pesos (ganancia directa)?

#Escenario Promedio
y_mod=predict(mod_simple,list(x=7.2))
ganancia_arbol=y_mod*60
ganancia_total_media=ganancia_arbol*1000

#Escenario Bajo y Alto
MAE=mean(abs(mod_simple$residuals))
y_mod_min=y_mod-MAE
y_mod_max=y_mod+MAE

ganancia_total_inf=y_mod_min*60*1000
ganancia_total_sup=y_mod_max*60*1000

c(ganancia_total_inf,ganancia_total_media,ganancia_total_sup)
##       1       1       1 
## 1070983 1257986 1444990

De acuerdo con los resultados del modelo se espera que ese lote de 1000 arboles generen una ganancia de 1258 millones en un escenario medio. En un escenario bajo se espera 1071 millones y en un alto 1445 millones.

MOdelo de Regresion Lineal Multiple

Con el objetivo de mejorar el ajuste del modelo para explicar o predecir el peso de los arboles, se incorporan otras variables predictoras adicionales en el analisis, por ejemplo el diametro