Grupo conformado por Andrés Sánchez, Juan Felipe Lopez, Matheo Sanchez
El modelo de regresión lineal esperado es: Y=240.133+4.739X1-0.376X2. Donde Y= utilidad, X1 = participación en el mercado (%) y x2 = descuento concedido (%). Entonces, el modelo de regresión indica que la participación en el mercado (X1) tiene un impacto positivo en la utilidad mientras que el descuento concedido no tiene efecto relevante. Es decir si se aumenta un 1% en la participación en el mercado, aumenta la utilidad en 4.739 millones de dolares. Por otro lado, si se sube el 1% en el descuento concedido reduce la utilidad en 0.376 millones de dolares
##
## Call:
## lm(formula = utilidad ~ Mercado + descuento, data = parcial1)
##
## Residuals:
## Min 1Q Median 3Q Max
## -30.567 -13.460 -4.608 12.914 40.956
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 240.133 49.694 4.832 0.00189 **
## Mercado 4.739 1.335 3.551 0.00934 **
## descuento -0.376 3.045 -0.123 0.90519
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 25.78 on 7 degrees of freedom
## Multiple R-squared: 0.6537, Adjusted R-squared: 0.5548
## F-statistic: 6.608 on 2 and 7 DF, p-value: 0.02443
Se tiene en cuenta el analisis realizado anteriormente en el punto B. Además, cuando el mercado =0% y el descuento =0%, se espera una utilidad de 240.133 millones de dolares
Teniendo en cuenta el valor de prueba 0.05, podemos evaluar el resultado. El valor que nos da el modelo es 0.0244<0.05, por lo que confirmamos que el modelo . Es estadísiticamente significativo. Esto se debe a que rechazamos la hipótesis de que ninguna variable influye en Y (descuento y mercado). Como el valor es menor que 0.05, se concluye que al menos una de las variables tiene impacto en la utilidad. Esto quiere decir que hay menos del 2.44% de probabilidad de que los resutlados sean por casualidad.
##
## Call:
## lm(formula = utilidad ~ Mercado + descuento, data = parcial1)
##
## Residuals:
## Min 1Q Median 3Q Max
## -30.567 -13.460 -4.608 12.914 40.956
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 240.133 49.694 4.832 0.00189 **
## Mercado 4.739 1.335 3.551 0.00934 **
## descuento -0.376 3.045 -0.123 0.90519
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 25.78 on 7 degrees of freedom
## Multiple R-squared: 0.6537, Adjusted R-squared: 0.5548
## F-statistic: 6.608 on 2 and 7 DF, p-value: 0.02443
## P-valor de la prueba F: 0.02442749
## El modelo es estadísticamente significativo (rechazamos H0).
Realizando la prueba de a=0.05 (5%)
Mercado: 0.00933, es signifivatica porque es menor que 0.05
Descuento: 0.90519, no es significativa porque es mucho mayor que 0.05, por lo que se podría eliminar del modelo. Esto se debe a que es 90.5% probable que sea por azar su efecto
##
## Call:
## lm(formula = utilidad ~ Mercado + descuento, data = parcial1)
##
## Residuals:
## Min 1Q Median 3Q Max
## -30.567 -13.460 -4.608 12.914 40.956
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 240.133 49.694 4.832 0.00189 **
## Mercado 4.739 1.335 3.551 0.00934 **
## descuento -0.376 3.045 -0.123 0.90519
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 25.78 on 7 degrees of freedom
## Multiple R-squared: 0.6537, Adjusted R-squared: 0.5548
## F-statistic: 6.608 on 2 and 7 DF, p-value: 0.02443
## P-valor de Mercado: 0.009336619
## P-valor de Descuento: 0.9051922
## La variable 'Mercado' es significativa y debe mantenerse en el modelo.
## La variable 'descuento' NO es significativa y podría eliminarse.
El modelo tiene una buena capacidad de predicción de la utilidad, aunque no perfecta. El 80.85% de la variabilidad de la utilidad. Se puede explicar con las variables mercado y descuento (teniendo en cuenta que después se debe eliminar el descuento por lo que se explicó en el punto E)
## R^2 (Coeficiente de determinación): 0.6537467
## Coeficiente de correlación múltiple (R): 0.808546
## El modelo tiene una fuerte relación con la utilidad.
R^2 = 0.6537. Esto significa que el 65.37% de la variabilidad de la utilidad es explicada por las variables del modelo. Concluimos que el modelo tiene una capacidad moderada de predicción.
## Coeficiente de determinación (R^2): 0.6537467
## El modelo explica moderadamente la variabilidad de la utilidad.
Al eliminar la variable descuento, el modelo final es: Y=234.588+4.698*Mercado. Al comparar este modelo con el anterior R^2 casi no cambió (de 0.6537 a 0.653) Lo que confirma que el descuento no aporta valor. Se concluye que el modelo final es útil, simple y eficiente, ya que solo usa una variable significativa.
Si una empresa quiere aumentar su utilidad, debe enfocarse en aumenta su participacion en el mercado, ya que está directamente relacionada con sus ganancias.
Para este problema el modelo que se utilizará es el siguiente:
##
## Call:
## lm(formula = Y ~ X_1 + X_2 + X_3, data = datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -2.3011 -0.9608 -0.2925 1.0013 3.1938
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 23.03885 4.35332 5.292 7.29e-05 ***
## X_1 -1.21388 0.23970 -5.064 0.000115 ***
## X_2 0.04284 0.04676 0.916 0.373139
## X_3 0.18298 0.10113 1.809 0.089216 .
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.491 on 16 degrees of freedom
## Multiple R-squared: 0.6995, Adjusted R-squared: 0.6432
## F-statistic: 12.42 on 3 and 16 DF, p-value: 0.0001899
Se entiende que si una variable evaluada en a=0.05 esta probando que tenga un 5% de probabilidad de que afecte el resultado cuando es un p<5% significa que no es tan probable que sea por azar, es decir, se confía en el impacto que tiene dicha variable en Y
El nuevo modelo es : Y=26.1204-1.0379X_1. Se interpreta que cuando X_1 = 0, el tiempo estimado de actividad deportiva es aproximadamente 26.12. Esto indica que el aumento en una unidad de X_1 reduce el tiempo de actividad deportiva en 1.31 horas
##
## Call:
## lm(formula = Y ~ X_1, data = datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -2.5787 -0.6846 -0.5405 1.4213 3.4977
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 26.1204 4.1316 6.322 5.87e-06 ***
## X_1 -1.3079 0.2393 -5.465 3.44e-05 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.573 on 18 degrees of freedom
## Multiple R-squared: 0.6239, Adjusted R-squared: 0.603
## F-statistic: 29.86 on 1 and 18 DF, p-value: 3.436e-05
Con la primera prueba vemos que la linealidad se cumple por lo que es confiable el nuevo modelo #DE la segunda pruba de homocedasticidad se ve que los residuos no muestran un patrón claro, pero hay cierta dispericón uniforme. Lo que muestra que hay ciertas dudas con esta prueba . Puede que los residuos no sean perfectamente normales. Sin embargo, con la prueba que realizamos en la C, el modelo matematico nuevo tiene una certeza del (R^2) 62.39%. Demostrando que el modelo explica dicho porcentaje de la vairbalidad de Y a partir de X1
Prueba 1: Linealidad: Este supuesto indica la relación entre Y y X_1 debe ser líneal
Prueba 2: Homocedasticidad: Este supuesto es para comprobar que los residuos tienen varianza constante
Prueba 3: Normalidad de residuos: Este supuesto verifica que si los residuos siguen una distribucion aproximadamente normal, el supuesto se cumple.
Para el interrogante: ¿Cuánto tiempo por semana invierte un estudiante de una universidad local en alguna práctica deportiva?. Se puede responder que solo se tiene que remplazar X_1 que es el numero de creditos matriculados
Para el interrogante de ¿El rendimiento académico afecta esta práctica? podemos decir que X_2 siendo la variable de promedio acumulado, no tiene mucha relevancia por la prueba de a=0.05. Teniendo en cuenta que el r^2 es de 62.39%, si se podría explicar cuantas horas semanales se le dedica al deporte. Además, es facil de interpretar ya que solo usa una variable (x_1). Sin embargo, no incluye todas la variables necesarias para determinar la cantidad de horas exactas por semana, como la motivación personal ,el acceso a instalaciones deportivas o carga laboral.
El tiempo semanal dedicado al deporte varía según X_1, y la tendencia muestra que a mayor X_1, menor es el tiempo invertido.
El rendimiento académico parece influir en la práctica deportiva, pero no se puede concluir que sea la única causa.
El modelo es útil, pero no es perfecto para predicciones exactas.
Punto a)
##
## Call:
## lm(formula = `PIB a precios corrientes (Miles de millones de pesos)` ~
## `Azúcar (Toneladas)` + `Cemento Gris (Toneladas)` + `Lingotes de acero (Toneladas)` +
## `Producción de carbón (Toneladas)` + `Vehículos ensamblados (Unidades)`,
## data = Base_de_datos_Parcial_3)
##
## Residuals:
## Min 1Q Median 3Q Max
## -54350 -11581 -933 9944 70161
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 3.643e+05 2.177e+05 1.674 0.13805
## `Azúcar (Toneladas)` -5.554e-01 7.209e-01 -0.770 0.46629
## `Cemento Gris (Toneladas)` -1.877e-01 3.675e-01 -0.511 0.62515
## `Lingotes de acero (Toneladas)` -1.780e+01 6.002e+00 -2.966 0.02092 *
## `Producción de carbón (Toneladas)` 2.616e+02 7.183e+01 3.642 0.00827 **
## `Vehículos ensamblados (Unidades)` 2.797e+01 1.148e+01 2.437 0.04494 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 43090 on 7 degrees of freedom
## Multiple R-squared: 0.9533, Adjusted R-squared: 0.92
## F-statistic: 28.6 on 5 and 7 DF, p-value: 0.0001611
Punto B
Representa el valor estimado del PIB cuando todas las variables explicativas son cero.
Aunque no tiene una interpretación económica relevante en este caso, indica el punto base del PIB.
Azúcar:
Cemento gris:
Lingotes de acero:
Producción de carbón:
Vehículos ensamblados:
Punto c)
El coeficiente de correlación múltiple obtenido es R = 0.976391, lo que refleja una relación muy fuerte entre las variables predictoras (azúcar, cemento gris, lingotes de acero, producción de carbón y vehículos ensamblados) y el PIB a precios corrientes.
Dado que R está muy próximo a 1, se evidencia una fuerte relación lineal entre el PIB y las variables explicativas.
## El coeficiente de correlación múltiple R es: 0.976391Punto D)
El 95.33% de la variabilidad del PIB es explicada por las variables independientes incluidas en el modelo.
El 4.67% restante se debe a factores no considerados en el modelo, como otras variables económicas o influencias externas.
modelo <- lm(`PIB a precios corrientes (Miles de millones de pesos)` ~
`Azúcar (Toneladas)` + `Cemento Gris (Toneladas)` +
`Lingotes de acero (Toneladas)` + `Producción de carbón (Toneladas)` +
`Vehículos ensamblados (Unidades)`,
data = Base_de_datos_Parcial_3)
summary(modelo)$r.squared
## [1] 0.9533394
Punto e)
Interpretación:
Si el p-valor es menor a 0.10, la variable es significativa y contribuye a explicar el PIB
Si el p-valor es mayor o igual a 0.10, la variable no es significativa y debería considerarse su eliminación
Análisis de variables:
Azúcar:
Cemento gris:
Lingotes de acero
Producción de carbón:
Vehículos ensamblados:
Cada vehículo ensamblado adicional incrementa el PIB en 27.97 unidades. Dado su impacto positivo y su significancia estadística, esta variable debe mantenerse en el modelo.
Punto F)
Lingotes de acero:
Producción de carbón:
Vehículos ensamblados:
La producción de carbón es la variable con mayor impacto positivo en el PIB.
La producción de lingotes de acero tiene un efecto negativo en el PIB, posiblemente debido a factores externos como costos de producción o dinámicas de exportación.
Todas las variables del modelo final son estadísticamente significativas, por lo que no es necesario excluir ninguna.
##
## Call:
## lm(formula = `PIB a precios corrientes (Miles de millones de pesos)` ~
## `Lingotes de acero (Toneladas)` + `Producción de carbón (Toneladas)` +
## `Vehículos ensamblados (Unidades)`, data = Base_de_datos_Parcial_3)
##
## Residuals:
## Min 1Q Median 3Q Max
## -54020 -13956 -677 18116 69856
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 220570.405 131029.645 1.683 0.126594
## `Lingotes de acero (Toneladas)` -19.141 5.270 -3.632 0.005468 **
## `Producción de carbón (Toneladas)` 239.330 42.116 5.683 0.000301 ***
## `Vehículos ensamblados (Unidades)` 25.723 9.051 2.842 0.019339 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 40140 on 9 degrees of freedom
## Multiple R-squared: 0.9479, Adjusted R-squared: 0.9306
## F-statistic: 54.63 on 3 and 9 DF, p-value: 4.242e-06
Análisis:
Relación negativa: La línea de regresión (en rojo) muestra una correlación inversa entre los kilómetros recorridos y el precio del vehículo. Es decir, a mayor kilometraje, el valor del automóvil tiende a reducirse.
Distribución de los datos: Se aprecia una alta concentración de vehículos con pocos kilómetros y precios elevados. Sin embargo, también existen algunos casos atípicos con valores significativamente más altos o bajos en relación con su kilometraje.
Análisis:
Análisis:
##
## Call:
## lm(formula = precio ~ kilo + modelo + antigüedad, data = kia_picanto_cali)
##
## Residuals:
## Min 1Q Median 3Q Max
## -12191622 -3151596 -613316 2597327 36968158
##
## Coefficients: (1 not defined because of singularities)
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -4.701e+09 3.610e+08 -13.024 <2e-16 ***
## kilo 1.816e+01 1.166e+01 1.557 0.122
## modelo 2.350e+06 1.785e+05 13.165 <2e-16 ***
## antigüedad NA NA NA NA
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 5686000 on 117 degrees of freedom
## Multiple R-squared: 0.7253, Adjusted R-squared: 0.7206
## F-statistic: 154.4 on 2 and 117 DF, p-value: < 2.2e-16
Análisis:
Kilometraje: La estimación indica que, en promedio, cada kilómetro adicional se asocia con un incremento de 18,160 pesos en el precio del vehículo. No obstante, dado que el valor p es 0.122, esta relación no es estadísticamente significativa, lo que implica que no hay suficiente evidencia para afirmar que el kilometraje influye en el precio.
Año del modelo: Se observa que por cada año más reciente, el precio del vehículo aumenta en aproximadamente 2.35 millones de pesos. Como el valor p es menor a 0.05, esta variable tiene un impacto claro y significativo en el precio.
## Linear Regression
##
## 120 samples
## 2 predictor
##
## No pre-processing
## Resampling: Cross-Validated (10 fold)
## Summary of sample sizes: 107, 108, 108, 108, 108, 108, ...
## Resampling results:
##
## RMSE Rsquared MAE
## 5275301 0.7604754 3982949
##
## Tuning parameter 'intercept' was held constant at a value of TRUE
Análisis del modelo:
Coeficiente de determinación (R² =
0.7260808):
Este valor indica que el modelo explica el 74.4% de la variabilidad en
el precio del vehículo. Un R² cercano a 1 representa un mejor ajuste,
por lo que este resultado sugiere un buen desempeño del modelo, aunque
aún hay un 25.6% de variabilidad que no está explicada.
Error cuadrático medio (RMSE = 5,517,913):
Representa el error promedio en la predicción del precio. En este caso,
el modelo tiene una desviación de aproximadamente 5.34 millones de
pesos. Por ejemplo, si el precio real de un Kia Picanto es 40 millones
de pesos, el modelo podría predecir un valor entre 34.66 y 45.34
millones.
Error absoluto medio (MAE = 4,089,897):
Indica que, en promedio, la diferencia absoluta entre los valores reales
y los predichos es de 3.96 millones de pesos. Esto significa que, para
un auto con un precio de 25 millones, el modelo podría estimar valores
entre 21.04 y 28.96 millones.
En general, el modelo tiene un buen ajuste, pero aún presenta un margen de error considerable en la predicción de precios.