#Library

1 Punto 1

Una empresa ha registrado las utilidades (Y) durante diez años de operación, también ha estimado la participación en el mercado (X1) y los descuentos concedidos (X2). Los siguientes son los datos registrados:

1.1 A.

Construya gráficos de dispersión y determine gráficamente si existe relación lineal entre la utilidad (Y) y las variables regresoras: Participación en el mercado (X1) y Descuento concedido (X2).

Matriz de Correlación entre Variables
	Y	X1	X2
Y	1.0000	0.8081	0.1737
X1	0.8081	1.0000	0.2479
X2	0.1737	0.2479	1.0000

1.2 B.

Estime un modelo de regresión lineal múltiple entre Y y X1 y X2.

## 
## Resultados del Modelo de Regresión
## ===============================================
##                         Dependent variable:    
##                     ---------------------------
##                                  Y             
## -----------------------------------------------
## X1                       4.739*** (1.335)      
## X2                        -0.376 (3.045)       
## Constant                240.133*** (49.694)    
## -----------------------------------------------
## Observations                    10             
## R2                             0.654           
## Adjusted R2                    0.555           
## Residual Std. Error       25.784 (df = 7)      
## F Statistic             6.608** (df = 2; 7)    
## ===============================================
## Note:               *p<0.1; **p<0.05; ***p<0.01

1.3 C.

Interprete cada coeficiente del modelo encontrado en b.

Resumen del Modelo de Regresión
term	estimate	std.error	statistic	p.value
(Intercept)	240.133	49.6936	4.8323	0.0019
X1	4.739	1.3347	3.5506	0.0093
X2	-0.376	3.0449	-0.1235	0.9052

1.4 D.

Evalúe la significancia del modelo propuesto en b, es decir pruebe que el modelo es lineal. Use � = 0.05.

## Analysis of Variance Table
## 
## Response: Y
##           Df Sum Sq Mean Sq F value   Pr(>F)   
## X1         1 8776.2  8776.2 13.2012 0.008361 **
## X2         1   10.1    10.1  0.0152 0.905192   
## Residuals  7 4653.6   664.8                    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

##                        value 
## "El modelo es significativo"

1.5 E.

Evalúe la significancia de cada variable en el modelo propuesto en b. ¿Qué variable se debe eliminar? Use � = 0.05.

Coeficientes del Modelo de Regresión
	Estimate	Std. Error	t value	Pr(>\|t\|)
(Intercept)	240.133	49.6936	4.8323	0.0019
X1	4.739	1.3347	3.5506	0.0093
X2	-0.376	3.0449	-0.1235	0.9052

## 
## **Evaluación de Significancia de las Variables**

## Variables no significativas: X2

## 
## Coeficientes del Modelo de Regresión
## ===============================================
##                         Dependent variable:    
##                     ---------------------------
##                                  Y             
## -----------------------------------------------
## X1                       4.739*** (1.335)      
## X2                        -0.376 (3.045)       
## Constant                240.133*** (49.694)    
## -----------------------------------------------
## Observations                    10             
## R2                             0.654           
## Adjusted R2                    0.555           
## Residual Std. Error       25.784 (df = 7)      
## F Statistic             6.608** (df = 2; 7)    
## ===============================================
## Note:               *p<0.1; **p<0.05; ***p<0.01

1.6 F.

Obtenga el coeficiente de correlación múltiple e interprételo en el modelo propuesto en b

## [1] "Coeficiente de correlaci?n m?ltiple:  0.8085"

1.7 G.

Obtenga el coeficiente de determinación �! e interprételo en el modelo propuesto en b.

## [1] "Coeficiente de determinaci?n R^2:  0.6537"

1.8 H.

De acuerdo a lo encontrado en la pregunta e, obtenga el modelo de regresión lineal final.

## 
## Call:
## lm(formula = Y ~ X1, data = serio)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -31.439 -11.871  -4.155  11.652  40.845 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  234.588     19.926   11.77 2.48e-06 ***
## X1             4.698      1.211    3.88  0.00467 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 24.14 on 8 degrees of freedom
## Multiple R-squared:  0.653,  Adjusted R-squared:  0.6096 
## F-statistic: 15.05 on 1 and 8 DF,  p-value: 0.004675

1.9 I.

Evalúe todos los supuestos del modelo de regresión final obtenido.

2 Punto 2

¿Cuánto tiempo por semana invierte un estudiante de una universidad local en alguna práctica deportiva? ¿El rendimiento académico afecta esta práctica? Para resolver estos interrogantes, el director de bienestar de esta universidad hace un seguimiento a una muestra aleatoria de 20 estudiantes escogidos de la jornada diurna. Se consideraron las siguientes variables: Y: Tiempo, en horas, que un estudiante realiza alguna actividad deportiva, ��: Numero de créditos matriculados por semestre, ��: Promedio acumulado, ��: tiempo, en horas que dedica al ocio. Los datos son los siguientes:

## # A tibble: 6 × 4
##   HorasActividadDeportiva CréditosMatriculados PromedioAcumulado HorasOcio
##                     <dbl>                <dbl>             <dbl>     <dbl>
## 1                     4                     18               4.2        10
## 2                     3                     18               4          15
## 3                     5.5                   15               3.5        10
## 4                     0                     18               4.6         5
## 5                     2                     18               4.3         5
## 6                     2                     18               4           0

2.1 A.

Ajuste un modelo de regresión lineal múltiple para la variable dependiente Y: Tiempo, en horas, que un estudiante realiza alguna actividad deportiva y las variables �� indicadas.

El modelo de regresión lineal múltiple con HorasActividadDeportiva como variable dependiente y el resto de variables como indipendientes es el siguiente:

## 
## Call:
## lm(formula = HorasActividadDeportiva ~ CréditosMatriculados + 
##     PromedioAcumulado + HorasOcio, data = datos_punto2)
## 
## Coefficients:
##          (Intercept)  CréditosMatriculados     PromedioAcumulado  
##             28.15755              -0.91859              -2.39382  
##            HorasOcio  
##              0.09359

Se tiene el intercepto en 28.15755 horas, el coeficiente betta 1 como -0.91859 de Créditos matriculados, el coeficiente betta 2 como -2.39382 de PromedioAcumulado y betta 3 como 0.09359 de HorasOcio

2.2 B.

Evalúe la significancia general del modelo encontrado en a) y la significancia de cada variable ��, ¿Qué explicación le puede dar a este resultado?

Para ecaluar la significancia general del modelo se debe asegurar que no hay multicolinealidad entre las variables independientes, esto se hace con el uso de la función cor:

##                         HorasActividadDeportiva CréditosMatriculados
## HorasActividadDeportiva               1.0000000           -0.7898815
## CréditosMatriculados                 -0.7898815            1.0000000
## PromedioAcumulado                    -0.7259524            0.5132112
## HorasOcio                             0.4658744           -0.2937673
##                         PromedioAcumulado  HorasOcio
## HorasActividadDeportiva        -0.7259524  0.4658744
## CréditosMatriculados            0.5132112 -0.2937673
## PromedioAcumulado               1.0000000 -0.4453217
## HorasOcio                      -0.4453217  1.0000000

De la tabla generada por cor se puede apreciar que la correlación entre las variables independientes no llega a tener una magnitud de 0.7 o más, lo que significa que se puede trabajar con ellas sin esperar problemas mayores por multicolinealidad.

A su vez s epuede destacar las relaciones individuales individuales de cada variable independiente con la variable dependiente y resaltar que CréditosMatriculados y PromedioAcumulado tienen cada uno una correlación de más de 0.7 con las HorasActividadDeportiva, lo cual es elevado y favorable, mientras que las HorasOcio cuenta con una correlación con las HorasActividadDeportiva de menos de 0.5, considerablemente menor que las otras dos.

Las siguientes lineas de código resultan en cuatro gráficas:

*La primera Residual vs Fitted sirve para constatar o no si la variable dependiente tiene una relación puramente lineal con las variables independientes, en este caso la línea suavidada en rojo de los datos parece estar distribuida alrededor del cero con cierto patrón no aleatorio, lo que indica que la relación no es puramente lineal, pero no se ve tan afectada por las alinealidades.

La segunda compara la distribución de los residuos estandarizados con la distribución normal teórica, si los puntos se alinean aproximadamente con la línea diagonal, indica que los residuos se distribuyen cercanamente a la normal. En este caso se ven ciertas desviaciones en las colas, pero no llegan a ser tan grandes como para afectar severamente la normalidad de los residuos.

La tercera se usa para identificar heteroscedasticidad (varianza no constante de los errores) en los datos, en este caso no se ve qeu se de este fenómeno de forma tan marcada por lo que, se pasara por alto las implicaciones que pueda tener la pequeña aparente curvatura en la gráfica que podria indicar cierta heteroscedasticidad.

La cuarta relaciona los residuos estandarizados con la influencia (leverage) de cada observación. Además, aparecen curvas de Cook’s Distance que indican el nivel de influencia de cada punto en la estimación del modelo, en este caso todos los residuos estándarizados y los niveles de importancia de las observaciones se encuentran por dentro de las cuervas de Cook de 0.5, por lo que no se le dara mayor importancia en este caso a su influencia en el intercepto de la regresión

Para evaluar la significancia de las variables independientes del modelo encontrado en la parte A se deben emplear varios métodos de verificación de suposiciones, en este caso se usa el gvlma (Global Validation of Linear Model Assumptions).

## 
## Call:
## lm(formula = HorasActividadDeportiva ~ CréditosMatriculados + 
##     PromedioAcumulado + HorasOcio, data = datos_punto2)
## 
## Coefficients:
##          (Intercept)  CréditosMatriculados     PromedioAcumulado  
##             28.15755              -0.91859              -2.39382  
##            HorasOcio  
##              0.09359  
## 
## 
## ASSESSMENT OF THE LINEAR MODEL ASSUMPTIONS
## USING THE GLOBAL TEST ON 4 DEGREES-OF-FREEDOM:
## Level of Significance =  0.05 
## 
## Call:
##  gvlma(x = modelo) 
## 
##                       Value p-value                   Decision
## Global Stat        5.219673 0.26549    Assumptions acceptable.
## Skewness           0.971840 0.32422    Assumptions acceptable.
## Kurtosis           0.001159 0.97284    Assumptions acceptable.
## Link Function      3.962555 0.04652 Assumptions NOT satisfied!
## Heteroscedasticity 0.284118 0.59401    Assumptions acceptable.

Al usar summary en el gvlma del modelo se pueden encontrar una tabla que indica cuales son los valores estimados de los coeficientes de cada variable independiente; su error estándar: precisión en el valor del coeficiente para diferentes muestras; el valor t: Estimación/error estándar, que se usa para refutar o no la hipótesis nula que indica que el coeficiente debe ser cero, es decir, que no hay relación entre la variable dependiente y la variable dependiente en cuestión; por último, el valor p representa la probabilidad de que se de un valor t como el dado si se cumpliera la hipótesis nula.

Entonces lo que se logra observar es que la variable PromedioAcumulado es significativa a un nivel de 0 según el significado de los códigos, lo que indica que no es nada probable que tenga ese valor t, al final un valor de estimación del coeficiente, con la hipótesis nula verdadera, que no haya relación entre la variable dependiente e independiente.

La variable independiente PromedioAcumulado tiene un nivel de significancia de 0.05 según el código, mientras que las HorasDeOsio tienen una significancia de 1, lo que quiere decir, que este último no es significativo para el modelo para un nivel de 0.05, ya que es muy probable que el coeficiente sea realmente 0 (33.03%). Esto se puede deber a que las horas de ocio no estén realmente relacionadas con las horas de actividad física al incluir en la regresión los créditos matriculados y el promedio acumulado.

## 
## Call:
## lm(formula = HorasActividadDeportiva ~ CréditosMatriculados + 
##     PromedioAcumulado + HorasOcio, data = datos_punto2)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -1.9933 -0.8221 -0.1401  0.6748  2.8244 
## 
## Coefficients:
##                      Estimate Std. Error t value Pr(>|t|)    
## (Intercept)          28.15755    4.27567   6.586 6.27e-06 ***
## CréditosMatriculados -0.91859    0.22835  -4.023 0.000984 ***
## PromedioAcumulado    -2.39382    0.92233  -2.595 0.019522 *  
## HorasOcio             0.09359    0.09322   1.004 0.330308    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.284 on 16 degrees of freedom
## Multiple R-squared:  0.7775, Adjusted R-squared:  0.7357 
## F-statistic: 18.63 on 3 and 16 DF,  p-value: 1.799e-05
## 
## 
## ASSESSMENT OF THE LINEAR MODEL ASSUMPTIONS
## USING THE GLOBAL TEST ON 4 DEGREES-OF-FREEDOM:
## Level of Significance =  0.05 
## 
## Call:
##  gvlma(x = modelo) 
## 
##                       Value p-value                   Decision
## Global Stat        5.219673 0.26549    Assumptions acceptable.
## Skewness           0.971840 0.32422    Assumptions acceptable.
## Kurtosis           0.001159 0.97284    Assumptions acceptable.
## Link Function      3.962555 0.04652 Assumptions NOT satisfied!
## Heteroscedasticity 0.284118 0.59401    Assumptions acceptable.

Note que gmlma también indica que la prueba de Link Function no satisface las supocisiones, lo cual significa que la regresión no sería en realiadad perfectamente lineal, pero por efectos de la clase se manejara como tal.

2.3 C.

Ajuste un modelo de regresión lineal múltiple sin problemas de variables no significativas. Use � = 0.05.

## 
## Call:
## lm(formula = HorasActividadDeportiva ~ CréditosMatriculados + 
##     PromedioAcumulado, data = datos_punto2)
## 
## Coefficients:
##          (Intercept)  CréditosMatriculados     PromedioAcumulado  
##              30.4194               -0.9381               -2.7263

## 
## Call:
## lm(formula = HorasActividadDeportiva ~ CréditosMatriculados + 
##     PromedioAcumulado, data = datos_punto2)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -1.9924 -0.9235 -0.1287  0.5982  2.9209 
## 
## Coefficients:
##                      Estimate Std. Error t value Pr(>|t|)    
## (Intercept)           30.4194     3.6349   8.369 1.97e-07 ***
## CréditosMatriculados  -0.9381     0.2276  -4.122 0.000712 ***
## PromedioAcumulado     -2.7263     0.8610  -3.166 0.005642 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.284 on 17 degrees of freedom
## Multiple R-squared:  0.7634, Adjusted R-squared:  0.7356 
## F-statistic: 27.43 on 2 and 17 DF,  p-value: 4.772e-06

Se puede observar en este nuevo modelo que todas las variables son significativas al menos en 0.05, además se obtiene el intercepto 30.4194 horas, el coeficiente betta 1 como -0.9381 de Créditos matriculados, el coeficiente betta 2 como -2.7263 de PromedioAcumulado.

2.4 D.

Evalúe todos los supuestos del modelo de regresión final encontrado.

## 
## Call:
## lm(formula = HorasActividadDeportiva ~ CréditosMatriculados + 
##     PromedioAcumulado, data = datos_punto2)
## 
## Coefficients:
##          (Intercept)  CréditosMatriculados     PromedioAcumulado  
##              30.4194               -0.9381               -2.7263  
## 
## 
## ASSESSMENT OF THE LINEAR MODEL ASSUMPTIONS
## USING THE GLOBAL TEST ON 4 DEGREES-OF-FREEDOM:
## Level of Significance =  0.05 
## 
## Call:
##  gvlma(x = modelo2) 
## 
##                       Value p-value                   Decision
## Global Stat        6.183681  0.1858    Assumptions acceptable.
## Skewness           1.389414  0.2385    Assumptions acceptable.
## Kurtosis           0.000421  0.9836    Assumptions acceptable.
## Link Function      4.064189  0.0438 Assumptions NOT satisfied!
## Heteroscedasticity 0.729657  0.3930    Assumptions acceptable.

Con respecto a las tras anteriores lineas de código no se tienen cambios significativos de la distribución de los datos. Esta regresión lineal múltiple sigue sin poder satisfacer la link function.

En las gráficas de regresión lineal simple de cada variable independiente con la variable dependiente se evidencias muchos outsiders que perjudican la caracterización de la regresión lineal múltiple.

## 
## Call:
## lm(formula = HorasActividadDeportiva ~ CréditosMatriculados + 
##     PromedioAcumulado, data = datos_punto2)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -1.9924 -0.9235 -0.1287  0.5982  2.9209 
## 
## Coefficients:
##                      Estimate Std. Error t value Pr(>|t|)    
## (Intercept)           30.4194     3.6349   8.369 1.97e-07 ***
## CréditosMatriculados  -0.9381     0.2276  -4.122 0.000712 ***
## PromedioAcumulado     -2.7263     0.8610  -3.166 0.005642 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.284 on 17 degrees of freedom
## Multiple R-squared:  0.7634, Adjusted R-squared:  0.7356 
## F-statistic: 27.43 on 2 and 17 DF,  p-value: 4.772e-06
## 
## 
## ASSESSMENT OF THE LINEAR MODEL ASSUMPTIONS
## USING THE GLOBAL TEST ON 4 DEGREES-OF-FREEDOM:
## Level of Significance =  0.05 
## 
## Call:
##  gvlma(x = modelo2) 
## 
##                       Value p-value                   Decision
## Global Stat        6.183681  0.1858    Assumptions acceptable.
## Skewness           1.389414  0.2385    Assumptions acceptable.
## Kurtosis           0.000421  0.9836    Assumptions acceptable.
## Link Function      4.064189  0.0438 Assumptions NOT satisfied!
## Heteroscedasticity 0.729657  0.3930    Assumptions acceptable.

## Parameter            | Coefficient |         95% CI |      p
## ------------------------------------------------------------
## (Intercept)          |       30.34 | [21.68, 38.68] | < .001
## CréditosMatriculados |       -0.92 | [-1.42, -0.51] | 0.002 
## PromedioAcumulado    |       -2.68 | [-4.38, -1.02] | < .001

Note que con la anterior línea de código se puede evidenciar que en terminos relativos el tamaño de los intervalos de confianza al 95% son grandes, cómo se puede apreciar en la tabla.

2.5 E.

De respuestas a los interrogantes planteados por el director de bienestar de esta universidad y comente sobre la posibilidad de usar el modelo encontrado para predecir el tiempo semanal que un estudiante dedica a realizar alguna práctica deportiva.

¿Cuánto tiempo por semana invierte un estudiante de una universidad local en alguna práctica deportiva? De acuerdo con el modelo de regresión lineal múltiple planteado, dependera del número de créditos que tenga matriculados y el promedio acumulado del estudiante

¿El rendimiento académico afecta esta práctica? Claramente, a mayor rendimiento académico, dado por el número de créditos matriculados y el promedio acumulado, menor número de horas semanales que un estudiante realizara alguna actividad deportiva en general, por ejemplo, se estima que un estudiante con 18 créditos matriculados y un promedio acumulado de 4.0 este realizando1:

O en terminos de intervalos de confianza del 95%:

## [1] 3.07

## [1] -21.46

## [1] 25.24

Note que usar la regresión lineal múltiple con los valores extremos de los intertervalos de confianza del 95% , se obtienen valores que no hacen sentido en relación con la representación contextual de la variable dependiente (horas negativas y muy valores a los valores reales), lo cual indica que los intervalos de confianza obtenidos con model_parameters(modelo2, bootstrap = TRUE, iterations = 10000) no son válidos. Es muy posible que esto se deba a los valores outliers extremos y/o al pequeño tamaño de la muestra usada para crear la regresión.

3 Punto 3

El gerente del Banco de la República de Colombia quiere desarrollar un modelo de regresión para determinar el impacto que tienen algunas de las variables de producción más importantes en el país sobre el Producto Interno Bruto (PIB). Este modelo serviría para que el estado tome acciones sobre el sector que más influencia tiene en el PIB. Las variables a considerar son: Producción total de azúcar, Producción de cemento gris, Producción de lingotes de acero y Vehículos ensamblados. Los datos correspondientes a estas variables y al PIB se encuentran al final de las preguntas.

## # A tibble: 6 × 7
##   Periodo    PIB  Azúcar CementoGris LingotesAcero Carbón VehículosEnsam
##     <dbl>  <dbl>   <dbl>       <dbl>         <dbl>  <dbl>          <dbl>
## 1    2000 208531 199272.     595278.        23872.  1536.          4214.
## 2    2001 225851 186797.     564625         27632.  1617.          5424.
## 3    2002 245323 210944.     552715.        26238.  1295.          5720.
## 4    2003 272345 220526.     597366.        24321.  1837.          5058 
## 5    2004 307762 228398      637160.        30025.  1978.          7471.
## 6    2005 340156 223605.     820784.        32048.  2164.          8906.

3.1 A.

Se tiene el intercepto beta 0 en 364400 miles de millones de pesos a precio corrientes, el coeficiente beta 1 de la producción de azúcar como -5.554e-01 pesos/toneladas, el coeficiente beta 2 de la producción en toneladas de cemento gris como -1.877e-01 pesos/toneladas, el coeficiente beta 3 de la producción en toneladas de lingotes de acero como -1.780e+01 pesos/toneladas, el coeficiente beta 4 de la producción de toneladas de carbón como 2.616e+02 pesos/toneladas y el coeficiente beta 5 de la cantidad de vehículos ensamblados como 20798e+01 pesos/unidades.

## 
## Call:
## lm(formula = PIB ~ Azúcar + CementoGris + LingotesAcero + Carbón + 
##     VehículosEnsam, data = datos_punto3)
## 
## Coefficients:
##    (Intercept)          Azúcar     CementoGris   LingotesAcero          Carbón  
##      3.644e+05      -5.554e-01      -1.877e-01      -1.780e+01       2.616e+02  
## VehículosEnsam  
##      2.798e+01

3.2 B.

Interprete cada uno de los coeficientes del modelo estimado en a).

Beta 0 es el PIB a precios corrientes en millones de pesos si no se produjera ninguno de los bienes de las variables independientes, beta 1, beta 2 y beta 3 indican aportes negativos al PIB por la producción en toneladas de azúcar, de cemento gris y de lingotes de acero respectivamente, el primero un poco más del doble que los otros dos con magnitudes similares, por otro lado, beta 4 y beta 5 indican aportes positivos al PIB por la producción en toneladas de carbón y la cantidad de vehículos ensamblados, el primero un orden de magnitud mayor que el segundo.

3.3 C.

Calcule el coeficiente de correlación múltiple e interprételo.

El coeficiente de correlación múltiple (R) se puede extraer de:

## 
## Call:
## lm(formula = PIB ~ Azúcar + CementoGris + LingotesAcero + Carbón + 
##     VehículosEnsam, data = datos_punto3)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -54347 -11580   -934   9946  70159 
## 
## Coefficients:
##                  Estimate Std. Error t value Pr(>|t|)   
## (Intercept)     3.644e+05  2.176e+05   1.674  0.13804   
## Azúcar         -5.554e-01  7.209e-01  -0.770  0.46628   
## CementoGris    -1.877e-01  3.674e-01  -0.511  0.62513   
## LingotesAcero  -1.780e+01  6.002e+00  -2.966  0.02092 * 
## Carbón          2.616e+02  7.183e+01   3.642  0.00827 **
## VehículosEnsam  2.798e+01  1.148e+01   2.437  0.04493 * 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 43090 on 7 degrees of freedom
## Multiple R-squared:  0.9533, Adjusted R-squared:   0.92 
## F-statistic: 28.61 on 5 and 7 DF,  p-value: 0.0001611

## [1] 0.9763708

Con R=0.9763708. Esto quiere decir que el modelo de la regresión lineal múltiple planteado predice muy bien el PIB a precios corrientes de cada año a partir de las variables independientes de producción o ensamblaje.

3.4 D.

Calcule el coeficiente de determinación e interprételo.

El coeficiente de determinación (R^2) se obtiene directamente de summary(modelop3) con un valor de R^2=0.9533 lo cual indica que un 95,33% de la varibilidad del PIB a precios corrientes viene dado por las variables independientes de la regresión lineal múltiple, sin tener en cuenta el número de estás últimas.

3.5 E.

Pruebe la significancia de cada variable incluida en el modelo estimado en a). Use �=0.10.

Para ver la significancia de cada variable se usa:

## 
## Call:
## lm(formula = PIB ~ Azúcar + CementoGris + LingotesAcero + Carbón + 
##     VehículosEnsam, data = datos_punto3)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -54347 -11580   -934   9946  70159 
## 
## Coefficients:
##                  Estimate Std. Error t value Pr(>|t|)   
## (Intercept)     3.644e+05  2.176e+05   1.674  0.13804   
## Azúcar         -5.554e-01  7.209e-01  -0.770  0.46628   
## CementoGris    -1.877e-01  3.674e-01  -0.511  0.62513   
## LingotesAcero  -1.780e+01  6.002e+00  -2.966  0.02092 * 
## Carbón          2.616e+02  7.183e+01   3.642  0.00827 **
## VehículosEnsam  2.798e+01  1.148e+01   2.437  0.04493 * 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 43090 on 7 degrees of freedom
## Multiple R-squared:  0.9533, Adjusted R-squared:   0.92 
## F-statistic: 28.61 on 5 and 7 DF,  p-value: 0.0001611

De la tabla de estimaciones del coeficiente de cada variable independiente se concluye del código de significancia que las variables independientes significativas a un nivel de 0.1 son la producción en toneladas de lingotes de acero y la cantidad de vehículos ensamblados con un nivel de significancia al 0.1 0 10% y la producción en toneladas de carbón con un nivel de significancia al 0.01 o 1% que es mucho mejor.

3.6 F.

Elimine las variables no significativas y construya un nuevo modelo para predecir el PIB.

Se realizara un modelo en el que sólo se usen las variables independientes producción en toneladas de lingotes de acero y carbon y la cantidad de vehículos ensamblados para explicar la variable independiente PIB a precios corrientes anual en el rango de años [2000-2012].

Se tiene el intercepto beta 0 en 220578.17 miles de millones de pesos a precio corrientes, el coeficiente nuevo beta 1 de la producción de lingotes de acero como -19.14 pesos/toneladas, el coeficiente beta 2 de la producción en toneladas de carbón como 239.33 pesos/toneladas, el coeficiente nuevo beta 3 de la cantidad de vehículos ensamblados como 25.75 pesos/unidades.

## 
## Call:
## lm(formula = PIB ~ LingotesAcero + Carbón + VehículosEnsam, 
##     data = datos_punto3)
## 
## Coefficients:
##    (Intercept)   LingotesAcero          Carbón  VehículosEnsam  
##      220578.17          -19.14          239.33           25.72

Se usa gvlma (Global Validation of Linear Model Assumptions) con el nivel de significancia especificado de 0.1.

## 
## Call:
## lm(formula = PIB ~ LingotesAcero + Carbón + VehículosEnsam, 
##     data = datos_punto3)
## 
## Coefficients:
##    (Intercept)   LingotesAcero          Carbón  VehículosEnsam  
##      220578.17          -19.14          239.33           25.72  
## 
## 
## ASSESSMENT OF THE LINEAR MODEL ASSUMPTIONS
## USING THE GLOBAL TEST ON 4 DEGREES-OF-FREEDOM:
## Level of Significance =  0.1 
## 
## Call:
##  gvlma(x = modeloSig, alphalevel = 0.1) 
## 
##                      Value  p-value                   Decision
## Global Stat        8.39595 0.078104 Assumptions NOT satisfied!
## Skewness           0.09831 0.753861    Assumptions acceptable.
## Kurtosis           0.02894 0.864920    Assumptions acceptable.
## Link Function      7.62430 0.005759 Assumptions NOT satisfied!
## Heteroscedasticity 0.64440 0.422122    Assumptions acceptable.

De ella se puede decir que el estadístico global indica que los supuestos no se satisfacen, como link function indica lo mismo, es posible que el supuesto que no se está satisfaciendo es la linealidad del modelo predictor, es decir, el valor esperado condicional de la variable dependiente dadas las variables independientes no tiene una función de enlace identidad que lo relaciones con la regresión lineal múltiple clásica.

Ahora la producción en toneladas de lingotes de acero tiene una significancia al 0.01, la producción en toneladas de carbón tiene una significancia al 0.001 y la cantidad de vehículos ensamblados tiene una significancia al 0.01.Su coeficiente de determinación (R^2) es de 0.9306 lo que indica una buena explicación de la variable dependiente debido a las variables independientes.

## 
## Call:
## lm(formula = PIB ~ LingotesAcero + Carbón + VehículosEnsam, 
##     data = datos_punto3)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -54018 -13956   -678  18115  69854 
## 
## Coefficients:
##                  Estimate Std. Error t value Pr(>|t|)    
## (Intercept)    220578.171 131027.507   1.683 0.126577    
## LingotesAcero     -19.142      5.270  -3.632 0.005467 ** 
## Carbón            239.326     42.115   5.683 0.000301 ***
## VehículosEnsam     25.724      9.051   2.842 0.019335 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 40140 on 9 degrees of freedom
## Multiple R-squared:  0.9479, Adjusted R-squared:  0.9306 
## F-statistic: 54.63 on 3 and 9 DF,  p-value: 4.241e-06

Se usan las gráficas diagnosticos del modelo para explorar un poco más los supuestos:

De estas se destaca que en la gráfica de residuos Q-Q la distancia de los puntos a la recta diagonal en las colas puede implicar una desviación de la normalidad de la distribución de los residuos y en la gráfica Residuals vs Leverage el tercer dato rebasa la distatacia de Cook 1, es decir, los datos del 2002 generan demasiada influencia en la regresión en general, por lo que si se llegara a retirar de la muestra se generarían cambio considerables en la regresión.

Como aspecto adicional, note que con el uso de la función cor las producciones de lingotes de acero y la cantidad de vehículos emsamblados, la cantidad de vehículos ensamblados y la producción de carbón, la cantidad de vehículos ensamblados y la producción de lingotes de acero están estrechamente relacionadas lo que genera multicolinealidad en el modelo y viola otro de los supuestos.

##                   Periodo        PIB     Azúcar CementoGris LingotesAcero
## Periodo         1.0000000  0.9905759 -0.4132418   0.8586888     0.4656391
## PIB             0.9905759  1.0000000 -0.4683638   0.8458729     0.4114321
## Azúcar         -0.4132418 -0.4683638  1.0000000  -0.4141269    -0.2400600
## CementoGris     0.8586888  0.8458729 -0.4141269   1.0000000     0.7419562
## LingotesAcero   0.4656391  0.4114321 -0.2400600   0.7419562     1.0000000
## Carbón          0.9467031  0.9321403 -0.4178881   0.9272001     0.5962542
## VehículosEnsam  0.8173906  0.8025043 -0.3868815   0.9192448     0.7797270
##                    Carbón VehículosEnsam
## Periodo         0.9467031      0.8173906
## PIB             0.9321403      0.8025043
## Azúcar         -0.4178881     -0.3868815
## CementoGris     0.9272001      0.9192448
## LingotesAcero   0.5962542      0.7797270
## Carbón          1.0000000      0.8294947
## VehículosEnsam  0.8294947      1.0000000

4 Punto 4

Aplicación de Regresión Lineal Múltiple + WebScraping

4.1 A.

Por medio de web scraping descargar la base de datos de precios de vehiculos mazda 2 para Colombia del portal carro ya https://www.carroya.com/ con las variables: precio, kilometraje, modelo, transmisión y ciudad.

4.2 B.

Realizar una exploración de datos para evaluar la posible relación entre precio con las demás variables.

Gráfico de dispersión entre Precio y Kilometraje

4.3 C.

Proponer un modelo de regresión lineal múltiple e interpretar los resultados (betas).

## 
## Call:
## lm(formula = Precio ~ ., data = data_mod)
## 
## Residuals:
##       Min        1Q    Median        3Q       Max 
## -15229550  -8559777  -5348174    142786 165285033 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  1.734e+07  2.453e+06   7.072  1.9e-12 ***
## modelo      -6.853e+04  7.916e+04  -0.866   0.3867    
## ciudad      -5.557e+03  8.382e+03  -0.663   0.5074    
## km          -6.194e+00  2.732e+00  -2.267   0.0234 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 17080000 on 2956 degrees of freedom
## Multiple R-squared:  0.001984,   Adjusted R-squared:  0.0009709 
## F-statistic: 1.959 on 3 and 2956 DF,  p-value: 0.1181

##   modelo   ciudad       km 
## 1.015023 1.000661 1.014815

modelo: 1.015023 ciudad: 1.000661 km: 1.014015

interpretar VIF: VIF ≈ 1 → No hay colinealidad (✅ Tu caso, todo está bien). VIF entre 1 y 5 → Colinealidad moderada, aceptable. VIF > 10 → Alta colinealidad, problema grave.

4.4 D.

Validar el poder predictivo del Modelo con Validación. Cruzada.

##   intercept     RMSE    Rsquared      MAE  RMSESD  RsquaredSD    MAESD
## 1      TRUE 16963307 0.003794471 10135026 2131345 0.005382005 649026.8

R² es casi 0, lo que indica que el modelo no logra capturar la relación entre las variables y el precio.
El error (RMSE y MAE) es extremadamente alto, lo que significa que las predicciones del precio están lejos de los valores reales.
Es posible que haya variables irrelevantes, colinealidad, o que las relaciones no sean lineales

4.5 F.

Discutir potenciales usos del modelo como herramienta practica (como monetizar los resultados de este modelo).

Se puede utilizar para estimar precios de motos en función de sus características.
Permite detectar qué variables impactan más en el precio (kilometraje, año, transmisión, etc.).
Puede ser útil para concesionarios o vendedores al establecer precios de mercado.
Se podría mejorar agregando más datos o probando modelos más complejos como árboles de decisión o redes neuronales.

Evaluación Regresión Lineal

Monica Vargas Vallejo, Mario Germán Sánchez Maya, Diego Quevedo

2025-03-04