#Library
Una empresa ha registrado las utilidades (Y) durante diez años de operación, también ha estimado la participación en el mercado (X1) y los descuentos concedidos (X2). Los siguientes son los datos registrados:
Construya gráficos de dispersión y determine gráficamente si existe relación lineal entre la utilidad (Y) y las variables regresoras: Participación en el mercado (X1) y Descuento concedido (X2).
| Y | X1 | X2 | |
|---|---|---|---|
| Y | 1.0000 | 0.8081 | 0.1737 |
| X1 | 0.8081 | 1.0000 | 0.2479 |
| X2 | 0.1737 | 0.2479 | 1.0000 |
Estime un modelo de regresión lineal múltiple entre Y y X1 y X2.
##
## Resultados del Modelo de Regresión
## ===============================================
## Dependent variable:
## ---------------------------
## Y
## -----------------------------------------------
## X1 4.739*** (1.335)
## X2 -0.376 (3.045)
## Constant 240.133*** (49.694)
## -----------------------------------------------
## Observations 10
## R2 0.654
## Adjusted R2 0.555
## Residual Std. Error 25.784 (df = 7)
## F Statistic 6.608** (df = 2; 7)
## ===============================================
## Note: *p<0.1; **p<0.05; ***p<0.01
Interprete cada coeficiente del modelo encontrado en b.
| term | estimate | std.error | statistic | p.value |
|---|---|---|---|---|
| (Intercept) | 240.133 | 49.6936 | 4.8323 | 0.0019 |
| X1 | 4.739 | 1.3347 | 3.5506 | 0.0093 |
| X2 | -0.376 | 3.0449 | -0.1235 | 0.9052 |
Evalúe la significancia del modelo propuesto en b, es decir pruebe que el modelo es lineal. Use � = 0.05.
## Analysis of Variance Table
##
## Response: Y
## Df Sum Sq Mean Sq F value Pr(>F)
## X1 1 8776.2 8776.2 13.2012 0.008361 **
## X2 1 10.1 10.1 0.0152 0.905192
## Residuals 7 4653.6 664.8
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## value
## "El modelo es significativo"
Evalúe la significancia de cada variable en el modelo propuesto en b. ¿Qué variable se debe eliminar? Use � = 0.05.
| Estimate | Std. Error | t value | Pr(>|t|) | |
|---|---|---|---|---|
| (Intercept) | 240.133 | 49.6936 | 4.8323 | 0.0019 |
| X1 | 4.739 | 1.3347 | 3.5506 | 0.0093 |
| X2 | -0.376 | 3.0449 | -0.1235 | 0.9052 |
##
## **Evaluación de Significancia de las Variables**
## Variables no significativas: X2
##
## Coeficientes del Modelo de Regresión
## ===============================================
## Dependent variable:
## ---------------------------
## Y
## -----------------------------------------------
## X1 4.739*** (1.335)
## X2 -0.376 (3.045)
## Constant 240.133*** (49.694)
## -----------------------------------------------
## Observations 10
## R2 0.654
## Adjusted R2 0.555
## Residual Std. Error 25.784 (df = 7)
## F Statistic 6.608** (df = 2; 7)
## ===============================================
## Note: *p<0.1; **p<0.05; ***p<0.01
Obtenga el coeficiente de correlación múltiple e interprételo en el modelo propuesto en b
## [1] "Coeficiente de correlaci?n m?ltiple: 0.8085"
Obtenga el coeficiente de determinación �! e interprételo en el modelo propuesto en b.
## [1] "Coeficiente de determinaci?n R^2: 0.6537"
De acuerdo a lo encontrado en la pregunta e, obtenga el modelo de regresión lineal final.
##
## Call:
## lm(formula = Y ~ X1, data = serio)
##
## Residuals:
## Min 1Q Median 3Q Max
## -31.439 -11.871 -4.155 11.652 40.845
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 234.588 19.926 11.77 2.48e-06 ***
## X1 4.698 1.211 3.88 0.00467 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 24.14 on 8 degrees of freedom
## Multiple R-squared: 0.653, Adjusted R-squared: 0.6096
## F-statistic: 15.05 on 1 and 8 DF, p-value: 0.004675
Evalúe todos los supuestos del modelo de regresión final obtenido.
¿Cuánto tiempo por semana invierte un estudiante de una universidad local en alguna práctica deportiva? ¿El rendimiento académico afecta esta práctica? Para resolver estos interrogantes, el director de bienestar de esta universidad hace un seguimiento a una muestra aleatoria de 20 estudiantes escogidos de la jornada diurna. Se consideraron las siguientes variables: Y: Tiempo, en horas, que un estudiante realiza alguna actividad deportiva, ��: Numero de créditos matriculados por semestre, ��: Promedio acumulado, ��: tiempo, en horas que dedica al ocio. Los datos son los siguientes:
## # A tibble: 6 × 4
## HorasActividadDeportiva CréditosMatriculados PromedioAcumulado HorasOcio
## <dbl> <dbl> <dbl> <dbl>
## 1 4 18 4.2 10
## 2 3 18 4 15
## 3 5.5 15 3.5 10
## 4 0 18 4.6 5
## 5 2 18 4.3 5
## 6 2 18 4 0
Ajuste un modelo de regresión lineal múltiple para la variable dependiente Y: Tiempo, en horas, que un estudiante realiza alguna actividad deportiva y las variables �� indicadas.
El modelo de regresión lineal múltiple con HorasActividadDeportiva como variable dependiente y el resto de variables como indipendientes es el siguiente:
##
## Call:
## lm(formula = HorasActividadDeportiva ~ CréditosMatriculados +
## PromedioAcumulado + HorasOcio, data = datos_punto2)
##
## Coefficients:
## (Intercept) CréditosMatriculados PromedioAcumulado
## 28.15755 -0.91859 -2.39382
## HorasOcio
## 0.09359
Se tiene el intercepto en 28.15755 horas, el coeficiente betta 1 como -0.91859 de Créditos matriculados, el coeficiente betta 2 como -2.39382 de PromedioAcumulado y betta 3 como 0.09359 de HorasOcio
Evalúe la significancia general del modelo encontrado en a) y la significancia de cada variable ��, ¿Qué explicación le puede dar a este resultado?
Para ecaluar la significancia general del modelo se debe asegurar que no hay multicolinealidad entre las variables independientes, esto se hace con el uso de la función cor:
## HorasActividadDeportiva CréditosMatriculados
## HorasActividadDeportiva 1.0000000 -0.7898815
## CréditosMatriculados -0.7898815 1.0000000
## PromedioAcumulado -0.7259524 0.5132112
## HorasOcio 0.4658744 -0.2937673
## PromedioAcumulado HorasOcio
## HorasActividadDeportiva -0.7259524 0.4658744
## CréditosMatriculados 0.5132112 -0.2937673
## PromedioAcumulado 1.0000000 -0.4453217
## HorasOcio -0.4453217 1.0000000
De la tabla generada por cor se puede apreciar que la correlación entre las variables independientes no llega a tener una magnitud de 0.7 o más, lo que significa que se puede trabajar con ellas sin esperar problemas mayores por multicolinealidad.
A su vez s epuede destacar las relaciones individuales individuales de cada variable independiente con la variable dependiente y resaltar que CréditosMatriculados y PromedioAcumulado tienen cada uno una correlación de más de 0.7 con las HorasActividadDeportiva, lo cual es elevado y favorable, mientras que las HorasOcio cuenta con una correlación con las HorasActividadDeportiva de menos de 0.5, considerablemente menor que las otras dos.
Las siguientes lineas de código resultan en cuatro gráficas:
*La primera Residual vs Fitted sirve para constatar o no si la variable dependiente tiene una relación puramente lineal con las variables independientes, en este caso la línea suavidada en rojo de los datos parece estar distribuida alrededor del cero con cierto patrón no aleatorio, lo que indica que la relación no es puramente lineal, pero no se ve tan afectada por las alinealidades.
La segunda compara la distribución de los residuos estandarizados con la distribución normal teórica, si los puntos se alinean aproximadamente con la línea diagonal, indica que los residuos se distribuyen cercanamente a la normal. En este caso se ven ciertas desviaciones en las colas, pero no llegan a ser tan grandes como para afectar severamente la normalidad de los residuos.
La tercera se usa para identificar heteroscedasticidad (varianza no constante de los errores) en los datos, en este caso no se ve qeu se de este fenómeno de forma tan marcada por lo que, se pasara por alto las implicaciones que pueda tener la pequeña aparente curvatura en la gráfica que podria indicar cierta heteroscedasticidad.
La cuarta relaciona los residuos estandarizados con la influencia (leverage) de cada observación. Además, aparecen curvas de Cook’s Distance que indican el nivel de influencia de cada punto en la estimación del modelo, en este caso todos los residuos estándarizados y los niveles de importancia de las observaciones se encuentran por dentro de las cuervas de Cook de 0.5, por lo que no se le dara mayor importancia en este caso a su influencia en el intercepto de la regresión
Para evaluar la significancia de las variables independientes del modelo encontrado en la parte A se deben emplear varios métodos de verificación de suposiciones, en este caso se usa el gvlma (Global Validation of Linear Model Assumptions).
##
## Call:
## lm(formula = HorasActividadDeportiva ~ CréditosMatriculados +
## PromedioAcumulado + HorasOcio, data = datos_punto2)
##
## Coefficients:
## (Intercept) CréditosMatriculados PromedioAcumulado
## 28.15755 -0.91859 -2.39382
## HorasOcio
## 0.09359
##
##
## ASSESSMENT OF THE LINEAR MODEL ASSUMPTIONS
## USING THE GLOBAL TEST ON 4 DEGREES-OF-FREEDOM:
## Level of Significance = 0.05
##
## Call:
## gvlma(x = modelo)
##
## Value p-value Decision
## Global Stat 5.219673 0.26549 Assumptions acceptable.
## Skewness 0.971840 0.32422 Assumptions acceptable.
## Kurtosis 0.001159 0.97284 Assumptions acceptable.
## Link Function 3.962555 0.04652 Assumptions NOT satisfied!
## Heteroscedasticity 0.284118 0.59401 Assumptions acceptable.
Al usar summary en el gvlma del modelo se pueden encontrar una tabla que indica cuales son los valores estimados de los coeficientes de cada variable independiente; su error estándar: precisión en el valor del coeficiente para diferentes muestras; el valor t: Estimación/error estándar, que se usa para refutar o no la hipótesis nula que indica que el coeficiente debe ser cero, es decir, que no hay relación entre la variable dependiente y la variable dependiente en cuestión; por último, el valor p representa la probabilidad de que se de un valor t como el dado si se cumpliera la hipótesis nula.
Entonces lo que se logra observar es que la variable PromedioAcumulado es significativa a un nivel de 0 según el significado de los códigos, lo que indica que no es nada probable que tenga ese valor t, al final un valor de estimación del coeficiente, con la hipótesis nula verdadera, que no haya relación entre la variable dependiente e independiente.
La variable independiente PromedioAcumulado tiene un nivel de significancia de 0.05 según el código, mientras que las HorasDeOsio tienen una significancia de 1, lo que quiere decir, que este último no es significativo para el modelo para un nivel de 0.05, ya que es muy probable que el coeficiente sea realmente 0 (33.03%). Esto se puede deber a que las horas de ocio no estén realmente relacionadas con las horas de actividad física al incluir en la regresión los créditos matriculados y el promedio acumulado.
##
## Call:
## lm(formula = HorasActividadDeportiva ~ CréditosMatriculados +
## PromedioAcumulado + HorasOcio, data = datos_punto2)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.9933 -0.8221 -0.1401 0.6748 2.8244
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 28.15755 4.27567 6.586 6.27e-06 ***
## CréditosMatriculados -0.91859 0.22835 -4.023 0.000984 ***
## PromedioAcumulado -2.39382 0.92233 -2.595 0.019522 *
## HorasOcio 0.09359 0.09322 1.004 0.330308
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.284 on 16 degrees of freedom
## Multiple R-squared: 0.7775, Adjusted R-squared: 0.7357
## F-statistic: 18.63 on 3 and 16 DF, p-value: 1.799e-05
##
##
## ASSESSMENT OF THE LINEAR MODEL ASSUMPTIONS
## USING THE GLOBAL TEST ON 4 DEGREES-OF-FREEDOM:
## Level of Significance = 0.05
##
## Call:
## gvlma(x = modelo)
##
## Value p-value Decision
## Global Stat 5.219673 0.26549 Assumptions acceptable.
## Skewness 0.971840 0.32422 Assumptions acceptable.
## Kurtosis 0.001159 0.97284 Assumptions acceptable.
## Link Function 3.962555 0.04652 Assumptions NOT satisfied!
## Heteroscedasticity 0.284118 0.59401 Assumptions acceptable.
Note que gmlma también indica que la prueba de Link Function no satisface las supocisiones, lo cual significa que la regresión no sería en realiadad perfectamente lineal, pero por efectos de la clase se manejara como tal.
Ajuste un modelo de regresión lineal múltiple sin problemas de variables no significativas. Use � = 0.05.
##
## Call:
## lm(formula = HorasActividadDeportiva ~ CréditosMatriculados +
## PromedioAcumulado, data = datos_punto2)
##
## Coefficients:
## (Intercept) CréditosMatriculados PromedioAcumulado
## 30.4194 -0.9381 -2.7263
##
## Call:
## lm(formula = HorasActividadDeportiva ~ CréditosMatriculados +
## PromedioAcumulado, data = datos_punto2)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.9924 -0.9235 -0.1287 0.5982 2.9209
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 30.4194 3.6349 8.369 1.97e-07 ***
## CréditosMatriculados -0.9381 0.2276 -4.122 0.000712 ***
## PromedioAcumulado -2.7263 0.8610 -3.166 0.005642 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.284 on 17 degrees of freedom
## Multiple R-squared: 0.7634, Adjusted R-squared: 0.7356
## F-statistic: 27.43 on 2 and 17 DF, p-value: 4.772e-06
Se puede observar en este nuevo modelo que todas las variables son significativas al menos en 0.05, además se obtiene el intercepto 30.4194 horas, el coeficiente betta 1 como -0.9381 de Créditos matriculados, el coeficiente betta 2 como -2.7263 de PromedioAcumulado.
Evalúe todos los supuestos del modelo de regresión final encontrado.
##
## Call:
## lm(formula = HorasActividadDeportiva ~ CréditosMatriculados +
## PromedioAcumulado, data = datos_punto2)
##
## Coefficients:
## (Intercept) CréditosMatriculados PromedioAcumulado
## 30.4194 -0.9381 -2.7263
##
##
## ASSESSMENT OF THE LINEAR MODEL ASSUMPTIONS
## USING THE GLOBAL TEST ON 4 DEGREES-OF-FREEDOM:
## Level of Significance = 0.05
##
## Call:
## gvlma(x = modelo2)
##
## Value p-value Decision
## Global Stat 6.183681 0.1858 Assumptions acceptable.
## Skewness 1.389414 0.2385 Assumptions acceptable.
## Kurtosis 0.000421 0.9836 Assumptions acceptable.
## Link Function 4.064189 0.0438 Assumptions NOT satisfied!
## Heteroscedasticity 0.729657 0.3930 Assumptions acceptable.
Con respecto a las tras anteriores lineas de código no se tienen cambios significativos de la distribución de los datos. Esta regresión lineal múltiple sigue sin poder satisfacer la link function.
En las gráficas de regresión lineal simple de cada variable independiente con la variable dependiente se evidencias muchos outsiders que perjudican la caracterización de la regresión lineal múltiple.
##
## Call:
## lm(formula = HorasActividadDeportiva ~ CréditosMatriculados +
## PromedioAcumulado, data = datos_punto2)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.9924 -0.9235 -0.1287 0.5982 2.9209
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 30.4194 3.6349 8.369 1.97e-07 ***
## CréditosMatriculados -0.9381 0.2276 -4.122 0.000712 ***
## PromedioAcumulado -2.7263 0.8610 -3.166 0.005642 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.284 on 17 degrees of freedom
## Multiple R-squared: 0.7634, Adjusted R-squared: 0.7356
## F-statistic: 27.43 on 2 and 17 DF, p-value: 4.772e-06
##
##
## ASSESSMENT OF THE LINEAR MODEL ASSUMPTIONS
## USING THE GLOBAL TEST ON 4 DEGREES-OF-FREEDOM:
## Level of Significance = 0.05
##
## Call:
## gvlma(x = modelo2)
##
## Value p-value Decision
## Global Stat 6.183681 0.1858 Assumptions acceptable.
## Skewness 1.389414 0.2385 Assumptions acceptable.
## Kurtosis 0.000421 0.9836 Assumptions acceptable.
## Link Function 4.064189 0.0438 Assumptions NOT satisfied!
## Heteroscedasticity 0.729657 0.3930 Assumptions acceptable.
## Parameter | Coefficient | 95% CI | p
## ------------------------------------------------------------
## (Intercept) | 30.34 | [21.68, 38.68] | < .001
## CréditosMatriculados | -0.92 | [-1.42, -0.51] | 0.002
## PromedioAcumulado | -2.68 | [-4.38, -1.02] | < .001
Note que con la anterior línea de código se puede evidenciar que en terminos relativos el tamaño de los intervalos de confianza al 95% son grandes, cómo se puede apreciar en la tabla.
De respuestas a los interrogantes planteados por el director de bienestar de esta universidad y comente sobre la posibilidad de usar el modelo encontrado para predecir el tiempo semanal que un estudiante dedica a realizar alguna práctica deportiva.
¿Cuánto tiempo por semana invierte un estudiante de una universidad local en alguna práctica deportiva? De acuerdo con el modelo de regresión lineal múltiple planteado, dependera del número de créditos que tenga matriculados y el promedio acumulado del estudiante
¿El rendimiento académico afecta esta práctica? Claramente, a mayor rendimiento académico, dado por el número de créditos matriculados y el promedio acumulado, menor número de horas semanales que un estudiante realizara alguna actividad deportiva en general, por ejemplo, se estima que un estudiante con 18 créditos matriculados y un promedio acumulado de 4.0 este realizando1:
O en terminos de intervalos de confianza del 95%:
## [1] 3.07
## [1] -21.46
## [1] 25.24
Note que usar la regresión lineal múltiple con los valores extremos de los intertervalos de confianza del 95% , se obtienen valores que no hacen sentido en relación con la representación contextual de la variable dependiente (horas negativas y muy valores a los valores reales), lo cual indica que los intervalos de confianza obtenidos con model_parameters(modelo2, bootstrap = TRUE, iterations = 10000) no son válidos. Es muy posible que esto se deba a los valores outliers extremos y/o al pequeño tamaño de la muestra usada para crear la regresión.
El gerente del Banco de la República de Colombia quiere desarrollar un modelo de regresión para determinar el impacto que tienen algunas de las variables de producción más importantes en el país sobre el Producto Interno Bruto (PIB). Este modelo serviría para que el estado tome acciones sobre el sector que más influencia tiene en el PIB. Las variables a considerar son: Producción total de azúcar, Producción de cemento gris, Producción de lingotes de acero y Vehículos ensamblados. Los datos correspondientes a estas variables y al PIB se encuentran al final de las preguntas.
## # A tibble: 6 × 7
## Periodo PIB Azúcar CementoGris LingotesAcero Carbón VehículosEnsam
## <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 2000 208531 199272. 595278. 23872. 1536. 4214.
## 2 2001 225851 186797. 564625 27632. 1617. 5424.
## 3 2002 245323 210944. 552715. 26238. 1295. 5720.
## 4 2003 272345 220526. 597366. 24321. 1837. 5058
## 5 2004 307762 228398 637160. 30025. 1978. 7471.
## 6 2005 340156 223605. 820784. 32048. 2164. 8906.
Se tiene el intercepto beta 0 en 364400 miles de millones de pesos a precio corrientes, el coeficiente beta 1 de la producción de azúcar como -5.554e-01 pesos/toneladas, el coeficiente beta 2 de la producción en toneladas de cemento gris como -1.877e-01 pesos/toneladas, el coeficiente beta 3 de la producción en toneladas de lingotes de acero como -1.780e+01 pesos/toneladas, el coeficiente beta 4 de la producción de toneladas de carbón como 2.616e+02 pesos/toneladas y el coeficiente beta 5 de la cantidad de vehículos ensamblados como 20798e+01 pesos/unidades.
##
## Call:
## lm(formula = PIB ~ Azúcar + CementoGris + LingotesAcero + Carbón +
## VehículosEnsam, data = datos_punto3)
##
## Coefficients:
## (Intercept) Azúcar CementoGris LingotesAcero Carbón
## 3.644e+05 -5.554e-01 -1.877e-01 -1.780e+01 2.616e+02
## VehículosEnsam
## 2.798e+01
Interprete cada uno de los coeficientes del modelo estimado en a).
Beta 0 es el PIB a precios corrientes en millones de pesos si no se produjera ninguno de los bienes de las variables independientes, beta 1, beta 2 y beta 3 indican aportes negativos al PIB por la producción en toneladas de azúcar, de cemento gris y de lingotes de acero respectivamente, el primero un poco más del doble que los otros dos con magnitudes similares, por otro lado, beta 4 y beta 5 indican aportes positivos al PIB por la producción en toneladas de carbón y la cantidad de vehículos ensamblados, el primero un orden de magnitud mayor que el segundo.
Calcule el coeficiente de correlación múltiple e interprételo.
El coeficiente de correlación múltiple (R) se puede extraer de:
##
## Call:
## lm(formula = PIB ~ Azúcar + CementoGris + LingotesAcero + Carbón +
## VehículosEnsam, data = datos_punto3)
##
## Residuals:
## Min 1Q Median 3Q Max
## -54347 -11580 -934 9946 70159
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 3.644e+05 2.176e+05 1.674 0.13804
## Azúcar -5.554e-01 7.209e-01 -0.770 0.46628
## CementoGris -1.877e-01 3.674e-01 -0.511 0.62513
## LingotesAcero -1.780e+01 6.002e+00 -2.966 0.02092 *
## Carbón 2.616e+02 7.183e+01 3.642 0.00827 **
## VehículosEnsam 2.798e+01 1.148e+01 2.437 0.04493 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 43090 on 7 degrees of freedom
## Multiple R-squared: 0.9533, Adjusted R-squared: 0.92
## F-statistic: 28.61 on 5 and 7 DF, p-value: 0.0001611
## [1] 0.9763708
Con R=0.9763708. Esto quiere decir que el modelo de la regresión lineal múltiple planteado predice muy bien el PIB a precios corrientes de cada año a partir de las variables independientes de producción o ensamblaje.
Calcule el coeficiente de determinación e interprételo.
El coeficiente de determinación (R^2) se obtiene directamente de summary(modelop3) con un valor de R^2=0.9533 lo cual indica que un 95,33% de la varibilidad del PIB a precios corrientes viene dado por las variables independientes de la regresión lineal múltiple, sin tener en cuenta el número de estás últimas.
Pruebe la significancia de cada variable incluida en el modelo estimado en a). Use �=0.10.
Para ver la significancia de cada variable se usa:
##
## Call:
## lm(formula = PIB ~ Azúcar + CementoGris + LingotesAcero + Carbón +
## VehículosEnsam, data = datos_punto3)
##
## Residuals:
## Min 1Q Median 3Q Max
## -54347 -11580 -934 9946 70159
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 3.644e+05 2.176e+05 1.674 0.13804
## Azúcar -5.554e-01 7.209e-01 -0.770 0.46628
## CementoGris -1.877e-01 3.674e-01 -0.511 0.62513
## LingotesAcero -1.780e+01 6.002e+00 -2.966 0.02092 *
## Carbón 2.616e+02 7.183e+01 3.642 0.00827 **
## VehículosEnsam 2.798e+01 1.148e+01 2.437 0.04493 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 43090 on 7 degrees of freedom
## Multiple R-squared: 0.9533, Adjusted R-squared: 0.92
## F-statistic: 28.61 on 5 and 7 DF, p-value: 0.0001611
De la tabla de estimaciones del coeficiente de cada variable independiente se concluye del código de significancia que las variables independientes significativas a un nivel de 0.1 son la producción en toneladas de lingotes de acero y la cantidad de vehículos ensamblados con un nivel de significancia al 0.1 0 10% y la producción en toneladas de carbón con un nivel de significancia al 0.01 o 1% que es mucho mejor.
Elimine las variables no significativas y construya un nuevo modelo para predecir el PIB.
Se realizara un modelo en el que sólo se usen las variables independientes producción en toneladas de lingotes de acero y carbon y la cantidad de vehículos ensamblados para explicar la variable independiente PIB a precios corrientes anual en el rango de años [2000-2012].
Se tiene el intercepto beta 0 en 220578.17 miles de millones de pesos a precio corrientes, el coeficiente nuevo beta 1 de la producción de lingotes de acero como -19.14 pesos/toneladas, el coeficiente beta 2 de la producción en toneladas de carbón como 239.33 pesos/toneladas, el coeficiente nuevo beta 3 de la cantidad de vehículos ensamblados como 25.75 pesos/unidades.
##
## Call:
## lm(formula = PIB ~ LingotesAcero + Carbón + VehículosEnsam,
## data = datos_punto3)
##
## Coefficients:
## (Intercept) LingotesAcero Carbón VehículosEnsam
## 220578.17 -19.14 239.33 25.72
Se usa gvlma (Global Validation of Linear Model Assumptions) con el nivel de significancia especificado de 0.1.
##
## Call:
## lm(formula = PIB ~ LingotesAcero + Carbón + VehículosEnsam,
## data = datos_punto3)
##
## Coefficients:
## (Intercept) LingotesAcero Carbón VehículosEnsam
## 220578.17 -19.14 239.33 25.72
##
##
## ASSESSMENT OF THE LINEAR MODEL ASSUMPTIONS
## USING THE GLOBAL TEST ON 4 DEGREES-OF-FREEDOM:
## Level of Significance = 0.1
##
## Call:
## gvlma(x = modeloSig, alphalevel = 0.1)
##
## Value p-value Decision
## Global Stat 8.39595 0.078104 Assumptions NOT satisfied!
## Skewness 0.09831 0.753861 Assumptions acceptable.
## Kurtosis 0.02894 0.864920 Assumptions acceptable.
## Link Function 7.62430 0.005759 Assumptions NOT satisfied!
## Heteroscedasticity 0.64440 0.422122 Assumptions acceptable.
De ella se puede decir que el estadístico global indica que los supuestos no se satisfacen, como link function indica lo mismo, es posible que el supuesto que no se está satisfaciendo es la linealidad del modelo predictor, es decir, el valor esperado condicional de la variable dependiente dadas las variables independientes no tiene una función de enlace identidad que lo relaciones con la regresión lineal múltiple clásica.
Ahora la producción en toneladas de lingotes de acero tiene una significancia al 0.01, la producción en toneladas de carbón tiene una significancia al 0.001 y la cantidad de vehículos ensamblados tiene una significancia al 0.01.Su coeficiente de determinación (R^2) es de 0.9306 lo que indica una buena explicación de la variable dependiente debido a las variables independientes.
##
## Call:
## lm(formula = PIB ~ LingotesAcero + Carbón + VehículosEnsam,
## data = datos_punto3)
##
## Residuals:
## Min 1Q Median 3Q Max
## -54018 -13956 -678 18115 69854
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 220578.171 131027.507 1.683 0.126577
## LingotesAcero -19.142 5.270 -3.632 0.005467 **
## Carbón 239.326 42.115 5.683 0.000301 ***
## VehículosEnsam 25.724 9.051 2.842 0.019335 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 40140 on 9 degrees of freedom
## Multiple R-squared: 0.9479, Adjusted R-squared: 0.9306
## F-statistic: 54.63 on 3 and 9 DF, p-value: 4.241e-06
Se usan las gráficas diagnosticos del modelo para explorar un poco más los supuestos:
De estas se destaca que en la gráfica de residuos Q-Q la distancia de los puntos a la recta diagonal en las colas puede implicar una desviación de la normalidad de la distribución de los residuos y en la gráfica Residuals vs Leverage el tercer dato rebasa la distatacia de Cook 1, es decir, los datos del 2002 generan demasiada influencia en la regresión en general, por lo que si se llegara a retirar de la muestra se generarían cambio considerables en la regresión.
Como aspecto adicional, note que con el uso de la función cor las producciones de lingotes de acero y la cantidad de vehículos emsamblados, la cantidad de vehículos ensamblados y la producción de carbón, la cantidad de vehículos ensamblados y la producción de lingotes de acero están estrechamente relacionadas lo que genera multicolinealidad en el modelo y viola otro de los supuestos.
## Periodo PIB Azúcar CementoGris LingotesAcero
## Periodo 1.0000000 0.9905759 -0.4132418 0.8586888 0.4656391
## PIB 0.9905759 1.0000000 -0.4683638 0.8458729 0.4114321
## Azúcar -0.4132418 -0.4683638 1.0000000 -0.4141269 -0.2400600
## CementoGris 0.8586888 0.8458729 -0.4141269 1.0000000 0.7419562
## LingotesAcero 0.4656391 0.4114321 -0.2400600 0.7419562 1.0000000
## Carbón 0.9467031 0.9321403 -0.4178881 0.9272001 0.5962542
## VehículosEnsam 0.8173906 0.8025043 -0.3868815 0.9192448 0.7797270
## Carbón VehículosEnsam
## Periodo 0.9467031 0.8173906
## PIB 0.9321403 0.8025043
## Azúcar -0.4178881 -0.3868815
## CementoGris 0.9272001 0.9192448
## LingotesAcero 0.5962542 0.7797270
## Carbón 1.0000000 0.8294947
## VehículosEnsam 0.8294947 1.0000000
Aplicación de Regresión Lineal Múltiple + WebScraping
Por medio de web scraping descargar la base de datos de precios de vehiculos mazda 2 para Colombia del portal carro ya https://www.carroya.com/ con las variables: precio, kilometraje, modelo, transmisión y ciudad.
Realizar una exploración de datos para evaluar la posible relación entre precio con las demás variables.
Gráfico de dispersión entre Precio y Kilometraje
Proponer un modelo de regresión lineal múltiple e interpretar los resultados (betas).
##
## Call:
## lm(formula = Precio ~ ., data = data_mod)
##
## Residuals:
## Min 1Q Median 3Q Max
## -15229550 -8559777 -5348174 142786 165285033
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1.734e+07 2.453e+06 7.072 1.9e-12 ***
## modelo -6.853e+04 7.916e+04 -0.866 0.3867
## ciudad -5.557e+03 8.382e+03 -0.663 0.5074
## km -6.194e+00 2.732e+00 -2.267 0.0234 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 17080000 on 2956 degrees of freedom
## Multiple R-squared: 0.001984, Adjusted R-squared: 0.0009709
## F-statistic: 1.959 on 3 and 2956 DF, p-value: 0.1181
## modelo ciudad km
## 1.015023 1.000661 1.014815
modelo: 1.015023 ciudad: 1.000661 km: 1.014015
interpretar VIF: VIF ≈ 1 → No hay colinealidad (✅ Tu caso, todo está bien). VIF entre 1 y 5 → Colinealidad moderada, aceptable. VIF > 10 → Alta colinealidad, problema grave.
Validar el poder predictivo del Modelo con Validación. Cruzada.
## intercept RMSE Rsquared MAE RMSESD RsquaredSD MAESD
## 1 TRUE 16963307 0.003794471 10135026 2131345 0.005382005 649026.8
Discutir potenciales usos del modelo como herramienta practica (como monetizar los resultados de este modelo).