Informe 1 – Modelo de Regresión Lineal Simple y Múltiple

`` 1. Predicción de los precios de las acciones. Analizar el comportamiento de los precios de las Acciones de Ecopetrol según la variación del precio del barril de petróleo WTI producido en Colombia.

Proponga un modelo de regresión lineal simple que permita predecir el valor de las Acciones de Ecopetrol con base en el Precio del barril de petróleo en Colombia. Indique la ecuación de regresión y el valor del R2.

## [1] 0.7074373

## 
## Call:
## lm(formula = Precio_accion ~ Precio_WTIxBarril)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -59.90 -40.74 -15.94  33.40 136.82 
## 
## Coefficients:
##                   Estimate Std. Error t value Pr(>|t|)   
## (Intercept)        177.768    232.828   0.764  0.45627   
## Precio_WTIxBarril   26.192      6.542   4.004  0.00102 **
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 57.13 on 16 degrees of freedom
## Multiple R-squared:  0.5005, Adjusted R-squared:  0.4692 
## F-statistic: 16.03 on 1 and 16 DF,  p-value: 0.001024

analisis: En la representacion grafica y el modelo de correlacion se puede observar que la relacion entre el precion del barril y el precio de la accion es fuerte con un 0,7 es decir el incremento del petroleo tiene influencia directa sobre el precio de las acciones.

Por otro lado de acuerdo a la ecuacion donde Bo=177.768 y B1=26.192 y el r2 es de 0.4692, con esto podemos determinar que el precio de la accion tendria un costo normal de 177,768 pesos sin embargo puede tener una variacion de 26,192 veces.

Pruebe la significancia del modelo propuesto en “a)” plantee las hipótesis respectivas y use el concepto de Valor _p para tomar la decisión sobre las hipótesis. Use α = 0.05

Hipótesis para ßo: H0:β0=0,Ha:βo≠0 p−value=0.45627 Ya que p-value > 0.05, no se rechaza Ho: ßo = 0

Hipótesis para ß1: H0:β1=0,Ha:β1≠0 p−value=0.00102∗∗ Ya que p-value < 0.05, se rechaza Ho: ß1 = 0

Al revisar las hipotesis podemos observar en que para ß1 en donde se rechaza tiene un nivel de significancia lo que nos corrobora que el precio del barril es una variable significativa respecto al precio de la accion.

Interprete los coeficientes del modelo propuesto en “a)”

Tenemos los coeficiente βo=177.768,β1=26.192

Para este caso tendriamos que por cada unidad que incremente el precio del barril de petroleo osea (variable independiente), se aumentara en 26.192 el precio de la acción de Ecopetrol, teniendo en cuenta que como ß1 es diferente de cero (Hipótesis para ß1), se considera que es significativo para el modelo.

Haga un análisis de los residuos. ¿Qué supuesto no se cumple?

Supuesto 1: Los errores del modelo tienen media cero

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  -59.90  -40.74  -15.94    0.00   33.40  136.82

## 
##  One Sample t-test
## 
## data:  mod$residuals
## t = -4.2309e-16, df = 17, p-value = 1
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
##  -27.56364  27.56364
## sample estimates:
##     mean of x 
## -5.527407e-15

como en este caso p-value = 1 > α = 0.05, entonces podriamos afirmar que se cuenta con evidencia para no rechazar que H0: ß0 = 0, por tanto el supuesto se cumple.

Supuesto 2 : Los errores del modelo tienen varianza constante.

## 
##  Goldfeld-Quandt test
## 
## data:  mod
## GQ = 0.17924, df1 = 7, df2 = 7, p-value = 0.9813
## alternative hypothesis: variance increases from segment 1 to 2

En este caso se puede observar que p-value = 0.9813 > α =0.05, por tal motivo no se rechaza la hipótesis nula, es por esta razon que no se cuenta con evidencia suficiente para decir que la heterocedasticidad está presente en el modelo de regresión, por esta razon los errores tienen varianza constante, el supuesto se cumple.

Supuesto 3 : Los errores del modelo se distribuyen normal

## 
##  Shapiro-Wilk normality test
## 
## data:  mod$residuals
## W = 0.89259, p-value = 0.04276

Para este caso se observa Como p-value = 0.04276 < α = 0.05, por tal motivo rechazamos la hipótesis nula, esto quiere decir que, los errores no se distibuyen de forma normal, el supuesto no se cumple.

Supuesto 4 : Los errores del modelo son independientes

## 
##  Durbin-Watson test
## 
## data:  mod
## DW = 0.74504, p-value = 0.0004666
## alternative hypothesis: true autocorrelation is greater than 0

Para este supuesto Como p-value = 0.0004666 < α = 0.05, por lo tanto tendriamos que se rechaza la hipótesis nula, ya que los errores no son indepentientes, el supuesto no se cumple.

Concluya sobre la validez del modelo propuesto en a)

Considerando los resultados obtenidos en el modelo propuesto en donde se tiene evidencia suficiente para decir que β1 es diferente de cero, por tanto es significativo en el modelo, y que R2 = 0.4692 evidenciando que la variable Precio_barril de petroleo explica el 46% del precio de las acciones de la empresa Ecopetrol, se puede indicar que no es recomendable el uso de este modelo para predecir el precio de la acción en Ecopetrol, esto debido a que el modelo propuesto no cumple con los supuestos. Pero si nos permite estimar el impacto sobre la variable dependiente.

Los siguientes datos corresponden a la INFLACION y al SALARIO MINIMO LEGAL MENSUAL (SMLM) desde el año 1999 para Colombia.

La idea es establecer un modelo de regresión que ayude a determinar el comportamiento de estas dos variables tomando como variable dependiente SALARIO MINIMO LEGAL MENSUAL (SMLM) y como variable independiente INFLACION obtenga un modelo de regresión lineal simple y resuelva:

Escriba la ecuación del modelo de regresión lineal simple

## 
## Call:
## lm(formula = SMLM ~ INFLACION)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -75463 -63456 -42854  17623 263207 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   648486      58947   11.00  1.4e-08 ***
## INFLACION     -39489      10151   -3.89  0.00145 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 94130 on 15 degrees of freedom
## Multiple R-squared:  0.5022, Adjusted R-squared:  0.469 
## F-statistic: 15.13 on 1 and 15 DF,  p-value: 0.00145

Por otro lado de acuerdo a la ecuacion donde Bo=648486 y B1=-39489 y el r2 es de 0.469, con esto podemos determinar que el salario minimo tendria un valor normal de 648486 pesos sin embargo puede tener una variacion de -39489 pesos

plantee y valide las hipótesis correspondientes a la linealidad general del modelo propuesto en a)

considero que teniendo en cuenta los resultados obtenidos la linealidad se podria validar cuando realicemos el desarrollo en el punto d con los supuestos.

indique e interprete el coeficiente de correlación del modelo propuesto en a)

## [1] -0.7086581

analisis: En la representacion grafica y el modelo de correlacion se puede observar que la relacion entre la inflaccion y el salario minimo es fuerte con un -0,7 es decir el incremento de la inflacion tiene influencia directa sobre el salario.

Interprete cada uno de los coeficientes del modelo propuesto en a)

A continuación se muestra el modelo ajustado acorde a los resultados obtenidos anteriormente.

Tenemos los coeficiente βo=648486,β1=-39489

Para este caso tendriamos que por cada unidad que incremente la inflacion en colombia osea (variable independiente), se tendira una variacion de -39489 en el salario minimo, teniendo en cuenta que como ß1 es diferente de cero (Hipótesis para ß1), se considera que es significativo para el modelo.

Construya una gráfica de residuales y haga un análisis cualitativo de los supuestos del modelo propuesto en a) Supuesto 1: Los errores del modelo tienen media cero

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  -75463  -63456  -42854       0   17623  263207

## 
##  One Sample t-test
## 
## data:  mod_inflacion$residuals
## t = -6.7462e-17, df = 16, p-value = 1
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
##  -46862.45  46862.45
## sample estimates:
##     mean of x 
## -1.491304e-12

como en este caso p-value = 1 > α = 0.05, entonces podriamos afirmar que se cuenta con evidencia para no rechazar que H0: ß0 = 0, por tanto el supuesto se cumple.

Supuesto 2 : Los errores del modelo tienen varianza constante.

## 
##  Goldfeld-Quandt test
## 
## data:  mod_inflacion
## GQ = 140.68, df1 = 7, df2 = 6, p-value = 3.171e-06
## alternative hypothesis: variance increases from segment 1 to 2

En este caso se puede observar que p-value = 3.171e-06 > α =0.05, por tal motivo no se rechaza la hipótesis nula, es por esta razon que no se cuenta con evidencia suficiente para decir que la heterocedasticidad está presente en el modelo de regresión, por esta razon los errores tienen varianza constante, el supuesto se cumple.

Supuesto 3 : Los errores del modelo se distribuyen normal

## 
##  Shapiro-Wilk normality test
## 
## data:  mod_inflacion$residuals
## W = 0.78826, p-value = 0.001407

Para este caso se observa Como p-value = 0.001407 < α = 0.05, por tal motivo rechazamos la hipótesis nula, esto quiere decir que, los errores no se distibuyen de forma normal, el supuesto no se cumple.

Supuesto 4 : Los errores del modelo son independientes

## 
##  Durbin-Watson test
## 
## data:  mod_inflacion
## DW = 0.68432, p-value = 0.0002714
## alternative hypothesis: true autocorrelation is greater than 0

Para este supuesto Como p-value = 0.0002714 < α = 0.05, por lo tanto tendriamos que se rechaza la hipótesis nula, ya que los errores no son indepentientes, el supuesto no se cumple.

Comente sobre la conveniencia de usar el modelo propuesto en a) para predecir el SMLM para Colombia.

Considerando los resultados obtenidos en el modelo propuesto en donde se tiene evidencia suficiente para decir que β1 es diferente de cero, por tanto es significativo en el modelo, y que R2 = 0.4692 evidenciando que la variable de la inflacion explica el 46% del salario minimo en colombia, se puede indicar que no es recomendable el uso de este modelo para predecir el salario minimo, esto debido a que el modelo propuesto no cumple con los supuestos. Pero si nos permite estimar el impacto sobre la variable dependiente.

Con base en los datos de precios de vivienda de la actividad en clase realizar un informe que contenga los siguientes puntos utilizando R y RMarkdown (publicar el informe final en Rpubs presentando código, resultados e interpretaciones).

Realice un filtro a la base de datos e incluya solo las ofertas de apartamentos, de la zona norte de la ciudad con precios inferiores a los 500 millones de pesos y áreas menores a 300 mt2. Presente los primeros 3 registros de la base y algunas tablas que comprueben la consulta. (Adicional un mapa con los puntos de la base, discutir si todos los puntos se ubican en la zona norte o se presentan valores en otras zonas, por que?).

##             
##              Apartamento
##   Zona Norte        1077

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    65.0   132.0   220.0   233.8   320.0   495.0

## # A tibble: 5 x 12
##   Zona       piso  Estrato precio_millon Area_contruida parqueaderos Banos
##   <chr>      <chr>   <dbl>         <dbl>          <dbl> <chr>        <dbl>
## 1 Zona Norte 2           3           135             56 1                1
## 2 Zona Norte NA          3            78             54 2                1
## 3 Zona Norte NA          5           340            106 2                2
## 4 Zona Norte 1           3           135            103 1                3
## 5 Zona Norte 1           3            75             54 1                2
## # ... with 5 more variables: Habitaciones <dbl>, Tipo <chr>, Barrio <chr>,
## #   cordenada_longitud <dbl>, Cordenada_latitud <dbl>

Tenemos que al llevar a cabo los filtros se obtiene un total de 1077 registros, y observamos que todos los puntos no están la misma ubicacion en la zona norte de la ciudad, ya que algunos se evidencian en otros sitios de la ciudad. Esto nos lleva a deducir que los que están por fuera de la Zona Norte corresponde a errores en la digitación al momento de registrar los datos.

Realice un análisis exploratorio de datos enfocado en la correlación entre la variable respuesta (precio del apartamento) en función del área construida, estrato y si tiene parqueadero. Use gráficos interactivos con plotly e interprete los resultados.

Analisis: Como se visualiza en las graficas existe una relación directa entre el precio de la vivienda y el area construida, esto quiere decir que lo que se espera es que a mayor area la vivienda su precio en promedio tambien sera mayor, por otro lado observamos que las lineas a medida que el estrato aumenta su intercepto es mayor indicando que el precio por estrato tambien se incrementa y de igual forma se puede evidenciar que el precio de la vivienda puede incrementarse cuando esta cuenta con mayor número de parqueaderos.

Estime un modelo de regresión lineal múltiple con las variables del punto anterior e interprete los coeficientes si son estadísticamente significativos. Las interpretaciones deber están contextualizadas y discutir si los resultados son lógicos. Adicionalmente interprete el coeficiente R2 y discuta el ajuste del modelo e implicaciones (que podrían hacer para mejorarlo).

## 
## Call:
## lm(formula = precio_millon ~ Area_contruida + Estrato + tiene_parqueadero, 
##     data = Datos_explo)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -242.442  -31.795   -0.944   27.529  223.738 
## 
## Coefficients:
##                        Estimate Std. Error t value Pr(>|t|)    
## (Intercept)            49.03852    5.03387   9.742  < 2e-16 ***
## Area_contruida          1.04332    0.06037  17.281  < 2e-16 ***
## Estrato4               61.87913    4.84558  12.770  < 2e-16 ***
## Estrato5              146.16586    4.98649  29.312  < 2e-16 ***
## Estrato6              204.47149    9.27649  22.042  < 2e-16 ***
## tiene_parqueaderoTRUE  15.54122    3.98543   3.900 0.000102 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 54.8 on 1071 degrees of freedom
## Multiple R-squared:  0.7541, Adjusted R-squared:  0.7529 
## F-statistic: 656.9 on 5 and 1071 DF,  p-value: < 2.2e-16

En el modelo estimado donde β0=49.038 y β1=1,043 y β3=61.87913, 146.16586, 204.47149 y β4=15.54122 En donde podemos interpretar por un aumento de 1 metro cuadrado en el área construida el precio de la vivienda aumentará por encima de un millon, por cada parqueadero adicional el precio de la vivienda aumentará por encima de los 15 millones de pesos y por un aumento en el estrato socioeconomico el valor de la vivienda podría aumentar dependient el estrato.

Realice la validación de supuestos del modelo e interprete los resultados (no es necesario corregir en caso de presentar problemas solo realizar sugerencias de que se podría hacer).

Supuesto 1: Los errores del modelo tienen media cero

##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
## -242.442  -31.795   -0.944    0.000   27.529  223.738

## 
##  One Sample t-test
## 
## data:  modelo_lineal$residuals
## t = -3.1033e-15, df = 1076, p-value = 1
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
##  -3.268683  3.268683
## sample estimates:
##     mean of x 
## -5.169582e-15

como en este caso p-value = 1 > α = 0.05, entonces podriamos afirmar que se cuenta con evidencia para no rechazar que H0: ß0 = 0, por tanto el supuesto se cumple.

Supuesto 2 : Los errores del modelo tienen varianza constante.

## 
##  Goldfeld-Quandt test
## 
## data:  modelo_lineal
## GQ = 1.9187, df1 = 533, df2 = 532, p-value = 4.682e-14
## alternative hypothesis: variance increases from segment 1 to 2

En este caso se puede observar que p-value = 4.682e-14> α =0.05, por tal motivo no se rechaza la hipótesis nula, es por esta razon que no se cuenta con evidencia suficiente para decir que la heterocedasticidad está presente en el modelo de regresión, por esta razon los errores tienen varianza constante, el supuesto se cumple.

Supuesto 3 : Los errores del modelo se distribuyen normal

## 
##  Shapiro-Wilk normality test
## 
## data:  modelo_lineal$residuals
## W = 0.98467, p-value = 3.233e-09

Para este caso se observa Como p-value = 3.233e-09 >α = 0.05, por tal motivo se acepta la hipótesis nula, esto quiere decir que, los errores se distibuyen de forma normal, y el supuesto se cumple.

Supuesto 4 : Los errores del modelo son independientes

## 
##  Durbin-Watson test
## 
## data:  modelo_lineal
## DW = 1.768, p-value = 5.989e-05
## alternative hypothesis: true autocorrelation is greater than 0

Para este supuesto Como p-value = 5.989e-05 < α = 0.05, por lo tanto tendriamos que se confirma la hipótesis nula, ya que los errores son indepentientes, el supuesto se cumple.

Con el modelo identificado predecir el precio de un apartamento con 100 mt2, de estrato 4 y con parqueadero. ¿Si este apartamento lo están ofreciendo en 450 millones cual seria su opinión con base en el resultado del modelo considera que es una buena oferta?

##        1 
## 230.7909

Realianzo el proceso se puede evidenciar que el precio medio estimado del apartamento es de 231 millones, y al compararlo con el precio de 450 millones podemos observar que se encuentra sobre valorado,Sin embargo el modelo presenta limitaciones en la predición y por tanto no incorpora ciertas variables adicionales clave como ( piscina, gym, canchas… parques …)que podrian ser de gran interes para el comprador y justificar el incremento adicional al precio

Con las predicciones del modelo sugiera potenciales ofertas para una persona interesada en un apartamento en la zona norte con mas de 100 mt2 de área, de estrato 4, que tenga parqueadero y tenga encuentra que la persona tiene un crédito preaprobado de máximo 400 millones de pesos. Realice un análisis y presente en un mapa al menos 5 ofertas potenciales que debe discutir

## # A tibble: 5 x 12
##   Zona       piso  Estrato precio_millon Area_contruida parqueaderos Banos
##   <chr>      <chr>   <dbl>         <dbl>          <dbl> <chr>        <dbl>
## 1 Zona Norte 4           4           380            123 1                3
## 2 Zona Norte NA          4           370            117 NA               4
## 3 Zona Norte NA          4           310            102 NA               2
## 4 Zona Norte 1           4           250            160 NA               2
## 5 Zona Norte NA          4           350            130 1                2
## # ... with 5 more variables: Habitaciones <dbl>, Tipo <chr>, Barrio <chr>,
## #   cordenada_longitud <dbl>, Cordenada_latitud <dbl>

Si tenemos en cuenta que la persona tiene un crédito preaprobado por un valor de 400 millones, se sugiere al comprador ofertas de apartamento en zona norte, estrato 4 y con posibilidad de 1 o 2 parqueaderos y área construida mayor a 100mts como se evidencia en el mapa.

Con base en los datos de arboles proponga un modelo de regresión lineal múltiple que permita predecir el peso del árbol en función de las covariables que considere importantes y seleccionándolas de acuerdo con un proceso adecuado. Tenga en cuenta realizar una evaluación de la significancia de los parámetros, interpretación y proponga un método de evaluación por medio de validación cruzada. Presente métricas apropiadas como el RMSE y MAE

## # A tibble: 3 x 5
##   finca   mg          peso diametro altura
##   <chr>   <chr>      <dbl>    <dbl>  <dbl>
## 1 FINCA_1 GENOTIPO_1  13.7      4.7    5  
## 2 FINCA_1 GENOTIPO_1  14.6      5.3    5.6
## 3 FINCA_1 GENOTIPO_1  15.9      4.8    5.8

## [1] 0.908123

## [1] 0.8582009

En este resultado podemos concluir que existe una buena correlación positiva entre las variables, diametro y altura en relacion on el peso de los arboles.

## 
## Call:
## lm(formula = peso ~ diametro + altura, data = data_arboles)
## 
## Coefficients:
## (Intercept)     diametro       altura  
##     -9.1205       4.7395       0.3132

El modelo estimado el peso= -9.1205, que seria B0 y B1= 4.7395 y B2=0.3132 Visualizando los datos se puede concluir que si el diámetro del árbol aumenta en una unidad, se esperaria segun el modelo que el peso del árbol aumente en 4.7395 unidades.Pasa lo mismo con con el otro parametro donde por cada metro adicional en la altura del árbol, se esperaría que el peso del árbol aumente en 0.3132 unidades.

## 
## Call:
## lm(formula = peso ~ diametro + altura, data = data_arboles)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -6.3083 -2.5121  0.1608  2.0088 11.7446 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  -9.1205     1.4305  -6.376 8.44e-09 ***
## diametro      4.7395     0.7128   6.649 2.49e-09 ***
## altura        0.3132     0.5751   0.544    0.587    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 3.449 on 87 degrees of freedom
## Multiple R-squared:  0.8253, Adjusted R-squared:  0.8213 
## F-statistic: 205.5 on 2 and 87 DF,  p-value: < 2.2e-16

Por otra parte se observa en la tabla del summary que el coeficiente R2 ajustado toma un valor de 0.8213, lo cual indica que el peso del árbol es explicado por el modelo con un 83% de efectividad.

ANALISIS DE LOS SUPUESTOS Supuesto 1: Los errores del modelo tienen media cero

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## -6.3083 -2.5121  0.1608  0.0000  2.0088 11.7446

## 
##  One Sample t-test
## 
## data:  mod_arboles$residuals
## t = 2.8727e-16, df = 89, p-value = 1
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
##  -0.7141455  0.7141455
## sample estimates:
##    mean of x 
## 1.032498e-16

Supuesto 2 : Los errores del modelo tienen varianza constante.

## 
##  Goldfeld-Quandt test
## 
## data:  mod_arboles
## GQ = 1.587, df1 = 42, df2 = 42, p-value = 0.06927
## alternative hypothesis: variance increases from segment 1 to 2

Supuesto 3 : Los errores del modelo se distribuyen normal

## 
##  Shapiro-Wilk normality test
## 
## data:  mod_arboles$residuals
## W = 0.95745, p-value = 0.004966

Supuesto 4 : Los errores del modelo son independientes

## 
##  Durbin-Watson test
## 
## data:  mod_arboles
## DW = 1.0481, p-value = 4.105e-07
## alternative hypothesis: true autocorrelation is greater than 0

A traves de los graficos y datos se observa que se cumplen 3 supuestos de 4, el unico que no se cumple es el de normalidad.

##   prom_altura prom_diametro
## 1    6.634444      5.445556

##   media_altura media_diametro
## 1         6.45            5.4

##        fit      lwr      upr
## 1 21.50835 20.67195 22.34476

El promedio esperado en peso para un arbol cuyas dimensiones pueda tener un diametro de 6 y una altura de 7 metros seria de 21.5 y el intervalo de confianza de la prediccion nos indica que un arbol puede llegar a pesar entre 20.6 y 22,3 con un 95% de confianza del modelo.

VALIDACION CRUZADA

##  [1]  80 100  72  34  39  75  50  54  51  70  74  92  40  57  26   9  46  45   7
## [20]  15  97  79   2   4  65  25  27  67  37  78  71  17  42  22  58  31  21  88
## [39]  66  86  99  60  63  85  47  95  84  12  56  30  82  35  29  10  68  33  28
## [58]  87   8  90   1  98  91  11  76  81  69  20  32  24  38  94  41   3  64  16
## [77]  55   5  93  23

## # A tibble: 6 x 5
##   finca   mg          peso diametro altura
##   <chr>   <chr>      <dbl>    <dbl>  <dbl>
## 1 FINCA_3 GENOTIPO_1  13.2      4.4    4.6
## 2 <NA>    <NA>        NA       NA     NA  
## 3 FINCA_3 GENOTIPO_2  27.9      6.7    8.3
## 4 FINCA_2 GENOTIPO_2  30.8      7.9   10.9
## 5 FINCA_2 GENOTIPO_1  20.8      6.2    6.8
## 6 FINCA_3 GENOTIPO_2  23.4      5.9    7.5

## # A tibble: 6 x 5
##   finca   mg          peso diametro altura
##   <chr>   <chr>      <dbl>    <dbl>  <dbl>
## 1 FINCA_1 GENOTIPO_2 19.3       6.3    7.9
## 2 FINCA_1 GENOTIPO_1  7.47      2.2    3.5
## 3 FINCA_1 GENOTIPO_1  7.87      3.1    4  
## 4 FINCA_1 GENOTIPO_2 18.7       6.3    8.1
## 5 FINCA_1 GENOTIPO_2 12         4.9    7  
## 6 FINCA_2 GENOTIPO_1  9.97      3.7    4.4

## 
## Call:
## lm(formula = peso ~ diametro + altura, data = data_arboles_modelar)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -5.8379 -2.5549 -0.2308  1.8237 12.1781 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  -8.5150     1.6423  -5.185 2.11e-06 ***
## diametro      4.1801     0.8101   5.160 2.32e-06 ***
## altura        0.6569     0.6317   1.040    0.302    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 3.398 on 68 degrees of freedom
##   (9 observations deleted due to missingness)
## Multiple R-squared:  0.8045, Adjusted R-squared:  0.7988 
## F-statistic: 139.9 on 2 and 68 DF,  p-value: < 2.2e-16

##         1         2         3         4         5         6         7         8 
## 23.008483  2.980089  7.070569 23.139853 16.565232  9.841345 30.681857 30.657962 
##         9        10        11        12        13        14        15        16 
## 23.253328 23.098063 30.305641 34.157275 24.835772 14.940998 21.294668 24.638717 
##        17        18        19 
## 12.194116 17.449034 17.998410

##    peso_real peso_predic error_peso
## 1      19.34   23.008483 -3.6684827
## 2       7.47    2.980089  4.4899114
## 3       7.87    7.070569  0.7994314
## 4      18.69   23.139853 -4.4498531
## 5      12.00   16.565232 -4.5652320
## 6       9.97    9.841345  0.1286546
## 7      32.44   30.681857  1.7581435
## 8      32.69   30.657962  2.0320385
## 9      22.01   23.253328 -1.2433282
## 10     20.24   23.098063 -2.8580629
## 11     33.42   30.305641  3.1143593
## 12     45.41   34.157275 11.2527250
## 13     23.02   24.835772 -1.8157721
## 14     13.98   14.940998 -0.9609979
## 15     24.47   21.294668  3.1753315
## 16     27.45   24.638717  2.8112834
## 17     13.01   12.194116  0.8158839
## 18     17.96   17.449034  0.5109660
## 19     21.12   17.998410  3.1215896

## [1] 2.819581

## [1] 13.30784

## [1] 3.706684

Realizando el analisis de vailidacion cruzada se puede observar que el modelo puede llegar errar en casi un 15% del peso promedio de acuerdo al MAE y la desviación estándar de la varianza es de 4,69 de acuerdo al RMSE.

Informe 1 – Modelo de Regresión Lineal Simple y Múltiple

HERMILSO CRUZ VALENCIA

2022-08-20