Taller Regresión lineal simple

1. Punto 01

Predicción de los precios de las acciones. Analizar el comportamiento de los precios de las Acciones de Ecopetrol según la variación del precio del barril de petróleo WTI producido en Colombia. Se tienen los siguientes precios

##      Fecha                     Precio_accion  Precio_WTIxBarril
##  Min.   :2015-12-14 00:00:00   Min.   : 955   Min.   :30.44    
##  1st Qu.:2015-12-21 06:00:00   1st Qu.:1066   1st Qu.:34.63    
##  Median :2015-12-28 12:00:00   Median :1120   Median :36.05    
##  Mean   :2015-12-28 14:40:00   Mean   :1108   Mean   :35.53    
##  3rd Qu.:2016-01-05 18:00:00   3rd Qu.:1164   3rd Qu.:36.98    
##  Max.   :2016-01-13 00:00:00   Max.   :1230   Max.   :37.87
## tibble [18 × 3] (S3: tbl_df/tbl/data.frame)
##  $ Fecha            : POSIXct[1:18], format: "2015-12-14" "2015-12-15" ...
##  $ Precio_accion    : num [1:18] 1090 1170 1160 1230 1155 ...
##  $ Precio_WTIxBarril: num [1:18] 35.6 36.3 37.4 35 34.5 ...

Frecuencias

Precio_accion

Según la tabla de frecuencia, el rango donde se concentran los precios de las acciones es (1.123 - 1.178] se concentran en un 39%, seguido del rango (1.067 - 1.122] en un 22%, en total en el rango de (1.067 - 1.178] se concentra el 61% de los precios. En éste rango se ubica el precio promedio de 1.108.

En el gráfico de boxplot observamos que el 50% del precios de las acciones se encuentra en el rango de 1.060 y 1.165. La posición de la mediana representa asimetría negativa o sesgada a la izquierda.

Precio_WTIxBarril

Para el caso de los precios WTI x Barril el 39% de los precios se concentran en el rango (36.4 - 37.9], seguido del rango (34.9 - 36.4] que concentra el 33%. El rango (34.9 - 37.9] concentran el 72% de los precios. El precio promedio es de 35.53.

En el gráfico de boxplot observamos que el 50% del precio WTI x Barril se encuentra en el rango de 34.53 y 37.04. La posición de la mediana representa asimetría negativa o sesgada a la izquierda. Se observa el valor mínimo como un valor atípico.

Correlación

## [1] 0.7074373

\(R^{2}\)

## [1] 0.5004675

En la representación gráfica y el modelo de correlación se puede observar que la relación entre el precio del barril y el precio de la acción es fuerte con un 0,7 es decir el incremento del petroleo tiene influencia directa sobre el precio de las acciones.

1.1. Modelo

{r. echo=FALSE, message=FALSE, warning=FALSE} g4=ggplot(data=datos,mapping= aes(x=Precio_WTIxBarril,y=Precio_accion))+geom_point()+theme_bw()+ geom_smooth() ggplotly(g4)

a. Proponga un modelo de regresión lineal simple que permita predecir el valor de las Acciones de Ecopetrol con base en el Precio del barril de petróleo en Colombia. Indique la ecuación de regresión y el valor del R2.

## 
## Call:
## lm(formula = Precio_accion ~ Precio_WTIxBarril, data = datos)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -59.90 -40.74 -15.94  33.40 136.82 
## 
## Coefficients:
##                   Estimate Std. Error t value Pr(>|t|)   
## (Intercept)        177.768    232.828   0.764  0.45627   
## Precio_WTIxBarril   26.192      6.542   4.004  0.00102 **
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 57.13 on 16 degrees of freedom
## Multiple R-squared:  0.5005, Adjusted R-squared:  0.4692 
## F-statistic: 16.03 on 1 and 16 DF,  p-value: 0.001024

La ecuación queda así:

\(PrecioAccion = 177.768 + 26.192 * PrecioWTIxBarril\)

\(R^{2} = 0.5005\), el 50% de la variabilidad de los precios de las acciones está explicada por la variabilidad conjunta de Precio_WTIxBarril

b. Pruebe la significancia del modelo propuesto en a) plantee las hipótesis respectivas y use el concepto de \(Valor_p\) para tomar la decisión sobre las hipótesis. (Use α = 0.05)

Hipótesis para \(\beta_{0}\):

  • \(H_{0}:\beta_{0}=0\)

    \(H_{a}:\beta_{0}\neq 0\)

    \(p−value\) = 0.45627 Ya que \(p-value\) > 0.05, no se rechaza \(H_{o}: \beta_{o} = 0\)

Hipótesis para \(\beta_{1}\):

  • \(H_{0}:β_{1}\)=0

    \(H_{a}:β_{1}\)≠0 \(p−value\) =0.00102∗∗ Ya que \(p-value\) < 0.05, se rechaza \(H_{o}:\beta_{1}\) = 0

Al revisar las hipótesis podemos observar en que para \(\beta_{1}\) en donde se rechaza tiene un nivel de significancia lo que nos corrobora que el precio del barril es una variable significativa respecto al precio de la acción.

\(H_{0} ; \beta_{1} =0\) (el PrecioWTIxBarril no tiene efecto sobre Precio_accion)

\(H_{1} ; \beta_{1}\neq 0\) (el PrecioWTIxBarril tiene efecto sobre Precio_accion)

\(\alpha\) = 0.05

El \(pvalor_{\beta_{1}}\) = 0.00102 < \(\alpha\), se rechaza \(H_{0}\) : \(\beta_{1}\) = 0, por tanto \(PrecioWTIxBarril_{i}\) es una variable estadísticamente significativa en el modelo PrecioAccion.

c. Interprete los coeficientes del modelo propuesto en “a)”

\(PrecioAccion = 177.768 + 26.192 * PrecioWTIxBarril\)

El precio base de la acción es de 177.768 que es el intercepto de la ecuación. Cuando \(\beta_1\) = 0

  • \(\beta_{2}\) = 26.1924, manteniendo lo demás constantes, si el PrecioWTIxBarril se incrementa una unidad, el Precio_accion aumenta en promedio 26.19 unidades monetarias por acción.

d. Haga un análisis de los residuos. ¿Qué supuesto no se cumple?

Aunque el modelo da un R-Squared de 0.5005, la gráfica de los residuales contra los valores ajustados, muestra una aleatoriedad ya que estos datos tienen un comportamiento no lineal. Mostrando una componente sistemática que se podría incorporar al modelo.

La gráfica de normalidad también evidencia la falta de linealidad del modelo

Supuesto 1: Los errores del modelo tienen media cero

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  -59.90  -40.74  -15.94    0.00   33.40  136.82
## 
##  One Sample t-test
## 
## data:  modelo$residuals
## t = -4.2309e-16, df = 17, p-value = 1
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
##  -27.56364  27.56364
## sample estimates:
##     mean of x 
## -5.527407e-15

En este caso \(p-value\) = 1 > \(\alpha\) = 0.05, entonces podríamos afirmar que se cuenta con evidencia para no rechazar que \(H_{0}\): \(\beta_{0}\) = 0, por tanto el supuesto se cumple.

Supuesto 2: Los errores del modelo tienen varianza constante.

## 
##  Goldfeld-Quandt test
## 
## data:  modelo
## GQ = 0.17924, df1 = 7, df2 = 7, p-value = 0.9813
## alternative hypothesis: variance increases from segment 1 to 2

En este caso se puede observar que \(p-value\) = 0.9813 > \(\alpha\) =0.05, por tal motivo no se rechaza la hipótesis nula, es por esta razón que no se cuenta con evidencia suficiente para decir que la heterocedasticidad está presente en el modelo de regresión, por esta razón los errores tienen varianza constante, el supuesto se cumple.

Supuesto 3 : Los errores del modelo se distribuyen normal

## 
##  Shapiro-Wilk normality test
## 
## data:  modelo$residuals
## W = 0.89259, p-value = 0.04276

Para este caso se observa Como \(p-value\) = 0.04276 < \(\alpha\) = 0.05, por tal motivo rechazamos la hipótesis nula, esto quiere decir que, los errores no se distribuyen de forma normal, el supuesto no se cumple.

e. Concluya sobre la validez del modelo propuesto en a)

Considerando los resultados obtenidos en el modelo propuesto en donde se tiene evidencia suficiente para decir que \(\beta_1\) es diferente de cero, por tanto es significativo en el modelo, y que \(R^2\) ajustado = 0.4692 evidenciando que la variable Precio_barril de petroleo explica el 47 % del precio de las acciones de la empresa Ecopetrol, se puede indicar que no es recomendable el uso de este modelo para predecir el precio de la acción en Ecopetrol, esto debido a que el modelo propuesto no cumple con los supuestos. Pero si nos permite estimar el impacto sobre la variable dependiente. Para mejorar el modelo se podría incluir otras variables que ayudarían a explicar mejor el precio de las acciones.

2. Punto 02

Los siguientes datos corresponden a la INFLACION y al SALARIO MINIMO LEGAL MENSUAL (SMLM) desde el año 1999 para Colombia.

a. Escriba la ecuación del modelo de regresión lineal simple

La idea es establecer un modelo de regresión que ayude a determinar el comportamiento de estas dos variables tomando como variable dependiente SALARIO MINIMO LEGAL MENSUAL (SMLM) y como variable independiente INFLACION obtenga un modelo de regresión lineal simple y resuelva:

## 
## Call:
## lm(formula = SMLM ~ INFLACION)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -75463 -63456 -42854  17623 263207 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   648486      58947   11.00  1.4e-08 ***
## INFLACION     -39489      10151   -3.89  0.00145 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 94130 on 15 degrees of freedom
## Multiple R-squared:  0.5022, Adjusted R-squared:  0.469 
## F-statistic: 15.13 on 1 and 15 DF,  p-value: 0.00145

Por otro lado de acuerdo a la ecuación donde \(\beta_0\) = 648486 y \(\beta_1\) = -39489 y el \(R^2\) es de 0.469, con esto podemos determinar que el salario mínimo tendría un valor normal de 648486 pesos sin embargo puede tener una variación de -39489 pesos

b. plantee y valide las hipótesis correspondientes a la linealidad general del modelo propuesto en a)

Se considera que teniendo en cuenta los resultados obtenidos la linealidad se podría validar cuando realicemos el desarrollo en el punto d con los supuestos.

c. indique e interprete el coeficiente de correlación del modelo propuesto en a)

## [1] -0.7086581

análisis: En la representación gráfica y el modelo de correlación se puede observar que la relación entre la inflacionario y el salario mínimo es fuerte con un -0,7 es decir el incremento de la inflación tiene influencia directa sobre el salario.

d. Interprete cada uno de los coeficientes del modelo propuesto en a)

A continuación se muestra el modelo ajustado acorde a los resultados obtenidos anteriormente.

Tenemos los coeficiente \(\beta_0\)= 648486,\(\beta_1\)= -39489

Para este caso tendríamos que por cada unidad que incremente la inflación en Colombia (variable independiente), se tendrpia una variación de -39489 en el salario mínimo, teniendo en cuenta que como \(\beta_1\) es diferente de cero (Hipótesis para \(\beta_1\)), se considera que es significativo para el modelo.

e. Construya una gráfica de residuales y haga un análisis cualitativo de los supuestos del modelo propuesto en a)

Supuesto 1: Los errores del modelo tienen media cero

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  -75463  -63456  -42854       0   17623  263207
## 
##  One Sample t-test
## 
## data:  mod_inflacion$residuals
## t = -6.7462e-17, df = 16, p-value = 1
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
##  -46862.45  46862.45
## sample estimates:
##     mean of x 
## -1.491304e-12

como en este caso \(p-value\) = 1 > α = 0.05, entonces podríamos afirmar que se cuenta con evidencia para no rechazar que \(H_0\): \(\beta_0\) = 0, por tanto el supuesto se cumple.

Supuesto 2: Los errores del modelo tienen varianza constante.

## 
##  Goldfeld-Quandt test
## 
## data:  mod_inflacion
## GQ = 140.68, df1 = 7, df2 = 6, p-value = 3.171e-06
## alternative hypothesis: variance increases from segment 1 to 2

En este caso se puede observar que \(p-value\) = 3.171e-06 > \(\alpha\) =0.05, por tal motivo no se rechaza la hipótesis nula, es por esta razón que no se cuenta con evidencia suficiente para decir que la heterocedasticidad está presente en el modelo de regresión, los errores tienen varianza constante, el supuesto se cumple.

Supuesto 3: Los errores del modelo se distribuyen normal

## 
##  Shapiro-Wilk normality test
## 
## data:  mod_inflacion$residuals
## W = 0.78826, p-value = 0.001407

Para este caso se observa Como \(p-value\) = 0.001407 < \(\alpha\) = 0.05, por tal motivo rechazamos la hipótesis nula, esto quiere decir que, los errores no se distribuyen de forma normal, el supuesto no se cumple.

Supuesto 4: Los errores del modelo son independientes

## 
##  Durbin-Watson test
## 
## data:  mod_inflacion
## DW = 0.68432, p-value = 0.0002714
## alternative hypothesis: true autocorrelation is greater than 0

Para este supuesto Como \(p-value\) = 0.0002714 < α = 0.05, por lo tanto tendríamos que se rechaza la hipótesis nula, ya que los errores no son independientes, el supuesto no se cumple.

f. Comente sobre la conveniencia de usar el modelo propuesto en a) para predecir el SMLM para Colombia.

Considerando los resultados obtenidos en el modelo propuesto en donde se tiene evidencia suficiente para decir que \(\beta_1\) es diferente de cero, por tanto es significativo en el modelo, y que R2 = 0.4692 evidenciando que la variable de la inflación explica el 46% del salario mínimo en Colombia, se puede indicar que no es recomendable el uso de este modelo para predecir el salario mínimo, esto debido a que el modelo propuesto no cumple con los supuestos. Pero si nos permite estimar el impacto sobre la variable dependiente.

3. Punto 03

Con base en los datos de precios de vivienda de la actividad en clase realizar un informe que contenga los siguientes puntos utilizando R y RMarkdown (publicar el informe final en Rpubs presentando código, resultados e interpretaciones).

a. Realice un filtro a la base de datos e incluya solo las ofertas de apartamentos, de la zona norte de la ciudad con precios inferiores a los 500 millones de pesos y áreas menores a 300 mt2. Presente los primeros 3 registros de la base y algunas tablas que comprueben la consulta. (Adicional un mapa con los puntos de la base, discutir si todos los puntos se ubican en la zona norte o se presentan valores en otras zonas, por que?).

##             
##              Apartamento
##   Zona Norte        1077
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
##    65.0   132.0   220.0   233.8   320.0   495.0       3

Tenemos que al llevar a cabo los filtros se obtiene un total de 1077 registros, y observamos que todos los puntos no están la misma ubicacion en la zona norte de la ciudad, ya que algunos se evidencian en otros sitios de la ciudad. Esto nos lleva a deducir que los que están por fuera de la Zona Norte corresponde a errores en la digitación al momento de registrar los datos.

b. Realice un análisis exploratorio de datos enfocado en la correlación entre la variable respuesta (precio del apartamento) en función del área construida, estrato y si tiene parqueadero. Use gráficos interactivos con plotly e interprete los resultados.

Analisis: Como se visualiza en las graficas existe una relación directa entre el precio de la vivienda y el area construida, esto quiere decir que lo que se espera es que a mayor area la vivienda su precio en promedio tambien sera mayor, por otro lado observamos que las lineas a medida que el estrato aumenta su intercepto es mayor indicando que el precio por estrato tambien se incrementa y de igual forma se puede evidenciar que el precio de la vivienda puede incrementarse cuando esta cuenta con mayor número de parqueaderos.

c. Estime un modelo de regresión lineal múltiple con las variables del punto anterior e interprete los coeficientes si son estadísticamente significativos. Las interpretaciones deber están contextualizadas y discutir si los resultados son lógicos. Adicionalmente interprete el coeficiente R2 y discuta el ajuste del modelo e implicaciones (que podrían hacer para mejorarlo).

## 
## Call:
## lm(formula = precio_millon ~ Area_contruida + Estrato + tiene_parqueadero, 
##     data = Datos_explo)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -242.442  -31.795   -0.944   27.529  223.738 
## 
## Coefficients:
##                        Estimate Std. Error t value Pr(>|t|)    
## (Intercept)            49.03852    5.03387   9.742  < 2e-16 ***
## Area_contruida          1.04332    0.06037  17.281  < 2e-16 ***
## Estrato4               61.87913    4.84558  12.770  < 2e-16 ***
## Estrato5              146.16586    4.98649  29.312  < 2e-16 ***
## Estrato6              204.47149    9.27649  22.042  < 2e-16 ***
## tiene_parqueaderoTRUE  15.54122    3.98543   3.900 0.000102 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 54.8 on 1071 degrees of freedom
## Multiple R-squared:  0.7541, Adjusted R-squared:  0.7529 
## F-statistic: 656.9 on 5 and 1071 DF,  p-value: < 2.2e-16

En el modelo estimado donde \(\beta_0\) = 49.038 y \(\beta_1\) = 1,043 y \(beta_2\) = 61.87913, 146.16586, 204.47149 y \(\beta_4\) = 15.54122 En donde podemos interpretar por un aumento de 1 metro cuadrado en el área construida el precio de la vivienda aumentará por encima de un millón, por cada parqueadero adicional el precio de la vivienda aumentará por encima de los 15 millones de pesos y por un aumento en el estrato socio-economico el valor de la vivienda podría aumentar dependiente el estrato.

d. Realice la validación de supuestos del modelo e interprete los resultados (no es necesario corregir en caso de presentar problemas solo realizar sugerencias de que se podría hacer).

Supuesto 1: Los errores del modelo tienen media cero

summary(modelo_lineal$residuals)
##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
## -242.442  -31.795   -0.944    0.000   27.529  223.738
t.test(modelo_lineal$residuals, mu=0)
## 
##  One Sample t-test
## 
## data:  modelo_lineal$residuals
## t = -3.1033e-15, df = 1076, p-value = 1
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
##  -3.268683  3.268683
## sample estimates:
##     mean of x 
## -5.169582e-15

como en este caso \(p-value\) = 1 > \(\alpha\) = 0.05, entonces podríamos afirmar que se cuenta con evidencia para no rechazar que \(H_0\): \(\beta_0\) = 0, por tanto el supuesto se cumple.

Supuesto 2: Los errores del modelo tienen varianza constante.

## 
##  Goldfeld-Quandt test
## 
## data:  modelo_lineal
## GQ = 1.9187, df1 = 533, df2 = 532, p-value = 4.682e-14
## alternative hypothesis: variance increases from segment 1 to 2

En este caso se puede observar que \(p-value\) = 4.682e-14> \(\alpha\) = 0.05, por tal motivo no se rechaza la hipótesis nula, es por esta razón que no se cuenta con evidencia suficiente para decir que la heterocedasticidad está presente en el modelo de regresión, por esta razón los errores tienen varianza constante, el supuesto se cumple.

Supuesto 3: Los errores del modelo se distribuyen normal

## 
##  Shapiro-Wilk normality test
## 
## data:  modelo_lineal$residuals
## W = 0.98467, p-value = 3.233e-09

Para este caso se observa Como \(p-value\) = 3.233e-09 > \(\alpha\) = 0.05, por tal motivo se acepta la hipótesis nula, esto quiere decir que, los errores se distribuyen de forma normal, y el supuesto se cumple.

Supuesto 4: Los errores del modelo son independientes

## 
##  Durbin-Watson test
## 
## data:  modelo_lineal
## DW = 1.768, p-value = 5.989e-05
## alternative hypothesis: true autocorrelation is greater than 0

Para este supuesto Como \(p-value\) = 5.989e-05 < \(\alpha\) = 0.05, por lo tanto tendríamos que se confirma la hipótesis nula, ya que los errores son independientes, el supuesto se cumple.

e. Con el modelo identificado predecir el precio de un apartamento con 100 mt2, de estrato 4 y con parqueadero. ¿Si este apartamento lo están ofreciendo en 450 millones cual seria su opinión con base en el resultado del modelo considera que es una buena oferta?

##        1 
## 230.7909

Realizando el proceso se puede evidenciar que el precio medio estimado del apartamento es de 231 millones, y al compararlo con el precio de 450 millones podemos observar que se encuentra sobre valorado,Sin embargo el modelo presenta limitaciones en la predicción y por tanto no incorpora ciertas variables adicionales clave como ( piscina, gym, canchas… parques …)que podrían ser de gran interés para el comprador y justificar el incremento adicional al precio

f. Con las predicciones del modelo sugiera potenciales ofertas para una persona interesada en un apartamento en la zona norte con mas de 100 mt2 de área, de estrato 4, que tenga parqueadero y tenga encuentra que la persona tiene un crédito preaprobado de máximo 400 millones de pesos. Realice un análisis y presente en un mapa al menos 5 ofertas potenciales que debe discutir

Si tenemos en cuenta que la persona tiene un crédito preaprobado por un valor de 400 millones, se sugiere al comprador ofertas de apartamento en zona norte, estrato 4 y con posibilidad de 1 o 2 parqueaderos y área construida mayor a 100 mts como se evidencia en el mapa.

4. Punto 04

Con base en los datos de arboles proponga un modelo de regresión lineal múltiple que permita predecir el peso del árbol en función de las covariables que considere importantes y seleccionándolas de acuerdo con un proceso adecuado. Tenga en cuenta realizar una evaluación de la significancia de los parámetros, interpretación y proponga un método de evaluación por medio de validación cruzada. Presente métricas apropiadas como el RMSE y MAE

## [1] 0.908123
## [1] 0.8582009

En este resultado podemos concluir que existe una buena correlación positiva entre las variables, diametro y altura en relacion on el peso de los arboles.

## 
## Call:
## lm(formula = peso ~ diametro + altura, data = data_arboles)
## 
## Coefficients:
## (Intercept)     diametro       altura  
##     -9.1205       4.7395       0.3132

El modelo estimado el peso= -9.1205, que seria B0 y B1= 4.7395 y B2=0.3132 Visualizando los datos se puede concluir que si el diámetro del árbol aumenta en una unidad, se esperaria segun el modelo que el peso del árbol aumente en 4.7395 unidades.Pasa lo mismo con con el otro parametro donde por cada metro adicional en la altura del árbol, se esperaría que el peso del árbol aumente en 0.3132 unidades.

## 
## Call:
## lm(formula = peso ~ diametro + altura, data = data_arboles)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -6.3083 -2.5121  0.1608  2.0088 11.7446 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  -9.1205     1.4305  -6.376 8.44e-09 ***
## diametro      4.7395     0.7128   6.649 2.49e-09 ***
## altura        0.3132     0.5751   0.544    0.587    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 3.449 on 87 degrees of freedom
## Multiple R-squared:  0.8253, Adjusted R-squared:  0.8213 
## F-statistic: 205.5 on 2 and 87 DF,  p-value: < 2.2e-16

Por otra parte se observa en la tabla del summary que el coeficiente R2 ajustado toma un valor de 0.8213, lo cual indica que el peso del árbol es explicado por el modelo con un 83% de efectividad.

ANALISIS DE LOS SUPUESTOS

Supuesto 1: Los errores del modelo tienen media cero

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## -6.3083 -2.5121  0.1608  0.0000  2.0088 11.7446
## 
##  One Sample t-test
## 
## data:  mod_arboles$residuals
## t = 2.8727e-16, df = 89, p-value = 1
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
##  -0.7141455  0.7141455
## sample estimates:
##    mean of x 
## 1.032498e-16

Supuesto 2 : Los errores del modelo tienen varianza constante.

## 
##  Goldfeld-Quandt test
## 
## data:  mod_arboles
## GQ = 1.587, df1 = 42, df2 = 42, p-value = 0.06927
## alternative hypothesis: variance increases from segment 1 to 2

Supuesto 3 : Los errores del modelo se distribuyen normal

## 
##  Shapiro-Wilk normality test
## 
## data:  mod_arboles$residuals
## W = 0.95745, p-value = 0.004966

Supuesto 4 : Los errores del modelo son independientes

## 
##  Durbin-Watson test
## 
## data:  mod_arboles
## DW = 1.0481, p-value = 4.105e-07
## alternative hypothesis: true autocorrelation is greater than 0

A través de los gráficos y datos se observa que se cumplen 3 supuestos de 4, el único que no se cumple es el de normalidad.

##        fit      lwr      upr
## 1 21.50835 20.67195 22.34476

El promedio esperado en peso para un árbol cuyas dimensiones pueda tener un diámetro de 6 y una altura de 7 metros seria de 21.5 y el intervalo de confianza de la predicción nos indica que un árbol puede llegar a pesar entre 20.6 y 22,3 con un 95% de confianza del modelo.

VALIDACION CRUZADA

##  [1]  24  72  14  23  22   9  91  25  64  44  67  65  70  81  71  94  42  45   1
## [20]  38  47  28  52  53  60  89  54  55  35  87  77  85  56  41  30  76  51  20
## [39]  75   3   7  31  95  34  17  37  69  43  48  96  58  32  46  74   5  39  29
## [58]  18  16  73 100  90  61  11  62  19  27  79  80  84  12  40  98  10   8  21
## [77]  36  82  92  78
## 
## Call:
## lm(formula = peso ~ diametro + altura, data = data_arboles_modelar)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -6.8753 -2.4789  0.3764  1.9314 10.9092 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -10.35714    1.60417  -6.456 1.20e-08 ***
## diametro      5.27720    0.80674   6.541 8.47e-09 ***
## altura        0.07776    0.64464   0.121    0.904    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 3.531 on 70 degrees of freedom
##   (7 observations deleted due to missingness)
## Multiple R-squared:  0.8385, Adjusted R-squared:  0.8339 
## F-statistic: 181.8 on 2 and 70 DF,  p-value: < 2.2e-16
##         1         2         3         4         5         6         7         8 
## 18.047425  6.864232 23.503459  1.524831  9.526156 16.526471 27.834073 23.992301 
##         9        10        11        12        13        14        15        16 
## 21.819218 20.717126 26.110955 25.606562 21.873647 24.038954 18.062976 11.637035 
##        17 
## 16.433164
## [1] 2.912503
## [1] 16.37157
## [1] 3.241812

Realizando el análisis de validacion cruzada se puede observar que el modelo puede llegar errar en casi un 15% del peso promedio de acuerdo al MAE y la desviación estándar de la varianza es de 4,69 de acuerdo al RMSE.

Realizado por:

Hermilson Cruz Valencia - Hernán A. Tunjuelo Martínez