La base de datos recolecta información sobre la utilidad de una compañía los últimos 10 años y la relación con la participación de mercado y los descuentos que otorga.
# Cargar datos desde el archivo Excel
datos <- read_excel("datos_utilidad.xlsx")
# Renombrar columnas (sin espacios)
colnames(datos) <- c("Utilidad", "Participacion_Mercado", "Descuento_Concedido")
Utilidad | Participacion_Mercado | Descuento_Concedido |
---|---|---|
270 | 5 | 20 |
250 | 9 | 18 |
280 | 12 | 16 |
260 | 8 | 10 |
310 | 16 | 14 |
330 | 18 | 16 |
350 | 19 | 16 |
320 | 20 | 17 |
360 | 18 | 17 |
330 | 27 | 20 |
La grafica nos permite ver de manera visual que tanta es la relación entre las variables.
modelo <- lm(Utilidad ~ Participacion_Mercado + Descuento_Concedido, data = datos)
# Mostrar resumen del modelo
summary(modelo)
Descripción | Coeficiente | Error Estandar | t value | Pr(>|t|) | |
---|---|---|---|---|---|
Intercepto | 240.133 | 49.694 | 4.832 | 0.00189 | ** |
Participación de Mercado | 4.739 | 1.335 | 3.551 | 0.00934 | ** |
Descuento Concedido | -0.376 | 3.045 | -0.123 | 0.90519 |
Multiple R-squared: 0.6537
p-value: 0.02443
Inicialmente el modelo de regresión lineal sería:
Utilidad = 240.133 + 4.739(Participación de Mercado) - 0.376(Descuento Concedido)
Intercepto:240.133
Participación en el mercado:4.739
Descuento concedido:−0.376
p-value general:0.02443
Participación en el mercado:0.00934
Descuento concedido:0.90519
Coeficiente de correlación múltiple (R)
El coeficiente de correlación múltiple R se obtiene de la raíz cuadrada del coeficiente de determinación R^2
√0.6537 = 0.8085 = R
El coeficiente de correlación indica que existe una relación fuerte y positiva entre la utilidad y las variables presentadas en el modelo de regresión. En conjunto el modelo logra predecir de manera adecuada la utilidad.
Coeficiente de determinación (R²)
Multiple R-squared: 0.6537
Lo que nos demuestra este valor es que el 65.37% de la variabilidad de la utilidad esta explicada por la participación en el mercado y el descuento concedido.
Como habiamos analizado antes la variable de Descuento Concedido no tiene un impacto significativo dentro del modelo, por lo que lo más adecuado es mantener el modelo sin esa variable.
# Ajustar el nuevo modelo
modelo_final <- lm(Utilidad ~ Participacion_Mercado, data = datos)
# Mostrar el resumen del modelo
summary(modelo_final)
Descripción | Coeficiente | Error Estandar | t value | Pr(>|t|) | |
---|---|---|---|---|---|
Intercepto | 234.588 | 19.926 | 11.77 | 0.00000248 | *** |
Participación de Mercado | 4.698 | 1.211 | 3.88 | 0.00467 | ** |
Multiple R-squared: 0.653
p-value: 0.004675
Coeficiente de correlación multiple: 0.808
Al eliminar la variable de Descuento Concedido el modelo de regresión sigue siendo igual de efectivo, esto se desmuestra ya que el R2 y el coeficiente de correlación multiples tienen los mismos valores. Además, el p-value es mejor lo que significa que el modelo en general estima de manera más adecuada la utilidad de la compañia.
El gráfico Q-Q Residuals permite evaluar la linealidad del modelo. En este caso, los puntos están alineados con la línea ideal, indicando que el modelo es lineal y no presenta desviaciones significativas.
La base de datos muestra el seguimiento que hizo una universidad a 20 estudiantes para estudiar como los créditos matriculados, promedio acumulado y horas de ocio afectan a las horas de deporte que realiza el estudiante.
Intercepto | Creditos Matriculados | Promedio acumulado | Horas de ocio |
---|---|---|---|
28.15 | -0.91 | -2.39 | 0.09 |
El modelo de regresión múltiple nos muestra la relación de cada una de las variables independientes con la variable dependiente de interes.
Los coeficientes beta nos indican que:
Por cada credito adicional matriculado se reducen las horas de deporte en 0.91
Por cada punto adicional en el promedio acumulado se reducen las horas de deporte en 2.39 horas
Por cada hora de ocio se reducen las horas de deporte en 0.09
Mientras que si a una persona no le influyeran ninguna de esas variables entonces la cantidad promedio de horas que realiza deporte son 28.15 horas.
Descripción | Coeficiente | Error estandar | t value | Pr(>|t|) | |
---|---|---|---|---|---|
Intercepto | 28.15755 | 4.27567 | 6.586 | 6.27e-06 | *** |
Creditos Matriculados | -0.91859 | 0.22835 | -4.023 | 0.000984 | *** |
Promedio Acumulado | -2.39382 | 0.92233 | -2.595 | 0.019522 | * |
Horas de ocio | 0.09359 | 0.09322 | 1.004 | 0.330308 |
Signif. codes: | Multiple R-squared: |
---|---|
0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 |
0.7775 |
Los créditos matriculados es el que tiene el P Value más pequeño, menor a <0.001 tres asteriscos, tiene mucha significancia e impacto en las horas de entreno. Esta significancia viene de la combinación del coeficiente y el error estándar que es reducido, es decir, tiene una mayor precisión.
El promedio acumulado tiene un P Value menor a <0.01 un asterisco, sigue teniendo significancia, pero no tiene tanto impacto como la otra variable. Tiene un error estándar más alto, es decir, que tiene una menor precisión.
En cuanto a las horas de ocio no tiene ningún tipo de relación por lo que podemos descartar esta variable para el modelo de regresión.
En cuanto a la evaluación del modelo en general, según el R cuadrado el modelo explica el 73,57% de la variabilidad, el cual es un valor adecuado.
Descripción | Coeficiente | Error estandar | t value | Pr(>|t|) | |
---|---|---|---|---|---|
Intercepto | 30.4194 | 3.6349 | 8.369 | 1.97e-07 | *** |
Creditos Matriculados | -0.9381 | 0.2276 | -4.122 | 0.000712 | *** |
Promedio Acumulado | -2.7263 | 0.8610 | -3.166 | 0.005642 | ** |
Multiple R-squared: 0.7634
Este nuevo modelo de regresión ya no tiene la variable de horas de ocio porque no tenía ningún tipo de impacto en el modelo, únicamente se conservaron las variables con significancia alta.
Vemos que el R cuadrado ahora está en 73,56% prácticamente el mismo valor que teníamos antes, esto confirma que la variable que quitamos no tenía importancia en la estimación del modelo.
El grafico más importante para analizar es el Q-Q Residuals que nos permite identificar si el modelo si es lineal. En este caso los puntos se aprecian muy cercanos a la línea ideal lo que quiere decir que el modelo es lineal y no presenta grandes desviaciones.
Pregunta 1 ¿Cuanto tiempo por semana invierte un estudiante de una universidad local en alguna practica deportiva?
El modelo permite a la universidad entender los factores que influyen a los estudiantes a la hora de decidir la cantidad de horas que dedican a la práctica deportiva. Se puede predecir cual es el tiempo que un estudiante dedicaría al deporte según su carga académica y de esta manera la universidad puede prestar atención a los estudiantes que tengan una carga académica muy elevada.
Pregunta 2 ¿el rendimiento académico afecta esta practica?
Si, el promedio académico tiene un efecto negativo con un nivel de significancia medio. Por cada punto adicional en el promedio de las notas se reducen 2.5 las horas de práctica deportiva.
Posibilidad de usar el modelo encontrado para predecir el tiempo semanal que un estudiante dedica a realizar practicas deportivas.
Si, el modelo se puede usar y tiene un nivel de acierto alto debido a que el R cuadrado es de 0.7356, es decir, puede explicar aproximadamente el 73,56%.
Ejemplo:
¿Cuántas horas le dedica al deporte un estudiante con 21 créditos matriculados y un promedio de 4,62?
Y (horas deporte) = 28.15755 - 0.91859(21) - 2.39382 (4,62)
horas= 28.15755-0.91859(21) 2.39382(4.62) horas
Y (horas deporte) = -2,19
Es decir, según el modelo, en promedio un estudiante con estas características no tiene tiempo para realizar deporte, lo que nos ofrece una mirada de cual debería ser el límite de créditos que un estudiante debe matricular para mantener un estilo de vida saludable.
# Modelo de regresión
modelo <- lm(PIB ~ Azucar + Cemento_Gris + Lingotes_Acero + Produccion_Carbon + Vehiculos_Ensamblados, data = datos3)
# Mostrar resumen del modelo
summary(modelo)
Descripción | Coeficiente | Error Estandar | t value | Pr(>|t|) | |
---|---|---|---|---|---|
Intercepto | 364357.0 | 217700 | 1.67400 | 0.138030 | |
Azúcar | -0.55540 | 0.72090 | -0.7700 | 0.466280 | |
Cemento Gris | -0.18770 | 0.36740 | 0.51100 | 0.625130 | |
Lingotes de Acero | -17.80 | 6.0020 | -2.9660 | 0.020920 | * |
Producción de Carbon | 261.60 | 71.830 | 3.64200 | 0.008270 | ** |
Vehiculos Ensamblados | 27.980 | 11.480 | 2.43700 | 0.044930 | * |
Multiple R-squared: 0.9533
p-value: 0.0001611
Variable | Coeficiente | Interpretación |
---|---|---|
Intercepto | 364357.00 | Si todas las variables fueran cero, el PIB sería 364,357. En la práctica, esto no tiene mucho sentido, pero es el punto de partida del modelo. |
Azúcar | -0.56 | Un aumento de una tonelada en la producción de azúcar reduce el PIB en 0.56. Sin embargo, este efecto no es significativo. |
Cemento Gris | -0.19 | Cada tonelada extra de cemento gris lleva a una reducción de 0.19 en el PIB, aunque el efecto no es significativo. |
Lingotes de Acero | -17.80 | Un aumento de una tonelada en la producción de lingotes de acero lleva a una reducción de 17.8 en el PIB. Este efecto sí es significativo, lo que sugiere que esta variable tiene un impacto grande en el modelo. |
Producción de Carbón | 261.60 | Cada tonelada adicional de producción de carbón se asocia con un aumento de 261.6 en el PIB. Es una de las variables con mayor impacto en el modelo. |
Vehículos Ensamblados | 27.98 | Producir un vehículo incrementa el PIB en 27.98. Aunque el impacto no es el más alto, sigue siendo una variable significativa. |
Resumen:
La producción de carbón es la que tiene el mayor impacto en el PIB de manera positiva, tiene un coeficiente alto, acompañado de un p-value significativo.
Los lingotes de acero tienen un impacto negativo, es significativo pero no tiene tanto impacto como el carbón.
El numero de vehiculos ensamblados tiene un impacto positivo en el PIB, es significativo pero el carbón tiene más significancia.
El coeficiente de correlación múltiple R=0.9764 indica una fuerte relación entre las variables y el PIB.
El R^2 de 0.9533 indica que el 95.33% de la variabilidad en el PIB es explicada por las variables del modelo.
El Azúzar y Cemento Gris no son significativos al nivel de α =0.10, esto indica que estas variables no tienen una relación clara con el PIB. El analisis realizado anteriormente mostraba que no tenian ningun asterisco, eso significa que no tienen nivel de significancia dentro del modelo, por lo que no son determinantes al explicar la variación del PIB.
Los Lingotes de Acero con un p-value de 0.0209 (un asterisco) es significativo, lo que implica que si tiene un efecto sobre el PIB.
La Producción de Carbón con un p-value de 0.0083 (dos asteriscos) es altamente significativo, siendo la variable que más influye sobre el PIB.
Los Vehículos Ensamblados con un p-value de 0.0449 (un asterisco) también es significativo, al nivel de los lingotes de acero, por lo que también tiene efecto sobre el PIB.
Vamos a mantener en el modelo unicamente las variables significativas identificadas anteriormente Lingotes de Acero, Producción de Carbón y vehiculos Ensamblados
# Nuevo modelo de regresión
modelo_mejorado3 <- lm(PIB ~ Lingotes_Acero + Produccion_Carbon + Vehiculos_Ensamblados, data = datos3)
summary(modelo_mejorado3)
Descripción | Coeficiente | Error Estandar | t value | Pr(>|t|) | |
---|---|---|---|---|---|
Intercepto | 220575.077 | 131026.973 | 1.683 | 0.126581 | |
Lingotes de Acero | -19.141 | 5.270 | -3.632 | 0.005467 | ** |
Producción de Carbon | 239.326 | 42.115 | 5.683 | 0.000301 | *** |
Vehículos Ensamblados | 25.724 | 9.051 | 2.842 | 0.019336 | * |
Multiple R-squared: 0.9479
p-value: 0.000004241
El nuevo modelo es mucho más efectivo a la hora de predecir el valor del PIB, el p-value mejoro significativamente respecto al modelo anterior y el multiple R-squared se mantuvo en los mismos niveles entonces todavía predice un porcentaje alto.
¿Cuanto se esperaría que fuera el PIB del país si este año se produjeron 25000 toneladas de lingotes de acero, 1500 toneladas de carbon y se ensamblaron 7000 vehiculos?
PIB = 220575.077 - 19.141(Lingotes de Acero) + 239.326(Producción de Carbón) + 25.724(Vehículos Ensamblados)
## [1] 281107.1
En promedio con esos niveles de producción se esperaría que el PIB de este año sea de 281107.1 miles de millones de pesos.
La base de datos se compone de vehiculos marca Chevrolet, modelo Tracker, desde los modelos 2010 hasta los modelos 2026.
Esta base de datos contiene más de 1.100 datos de vehículos en venta, dentro de esos datos hay muchos datos atípicos que no tenían sentido comparados con el promedio del mercado, principalmente en el precio y en el kilometraje recorrido.
Para visualizar los datos atípicos se utilizó una gráfica de boxplot que muestra los cuartiles donde se concentra la mayor parte de los datos, así vemos que hay datos extremadamente desfasados que vamos a descartar de la base de datos, para ser más realistas con los resultados.
Una vez eliminamos los datos atípicos así se visualiza la gráfica de Boxplot y ahora si podemos empezar a trabajar con la información.
## Precio Kilometraje Antigüedad
## Precio 1.0000000 -0.6737495 -0.8427941
## Kilometraje -0.6737495 1.0000000 0.6215101
## Antigüedad -0.8427941 0.6215101 1.0000000
Las gráficas y el coeficiente de correlación R nos ayudan a identificar que tanto se relacionan estas dos variables con el precio de los vehículos.
El precio y el kilometraje tienen una correlación negativa alta con valor de -0.67.
El precio y la antigüedad tienen una correlación negativa muy alta con un valor de -0.84
Ambas tienen un fuerte impacto sobre el precio de los vehículos.
Chevrolet_Tracker$Ciudad <- relevel(Chevrolet_Tracker$Ciudad, ref = "Cali")
mod_1 <- lm(Precio ~ Kilometraje + Antigüedad + Ciudad, data = Chevrolet_Tracker)
summary(mod_1)
#Hay ciudades que si que afectan el precio con respecto a Cali
mod2 <- lm(Precio ~ Kilometraje + Antigüedad, data = Chevrolet_Tracker)
options(scipen = 999) # Evita la notación científica
summary(mod2)
Descripción | Coeficiente | Error Estandar | t value | Pr(>|t|) | |
---|---|---|---|---|---|
Intercepto | 94323291.287 | 784396.524 | 120.25 | <0.0000000000000002 | *** |
Kilometraje | -95.286 | 8.033 | -11.86 | <0.0000000000000002 | *** |
Antigüedad | -3462525.979 | 103215.017 | -33.55 | <0.0000000000000002 | *** |
Multiple R-squared: 0.7469
El primer modelo de regresión incluye las ciudades y mostraba que hay ciertas ciudades donde si se afecta el precio con respecto a la ciudad de Cali, sin embargo, no es un impacto significativo y no es replicable para otras ciudades, entonces vamos a permanecer en el segundo modelo que únicamente incluye las variables numéricas significativas: kilometraje y Antigüedad, las cuales tienen un impacto importante en el precio de los vehículos.
Según el R cuadrado, el modelo explica el 74.69% de la variabilidad, el cual es un valor adecuado
Los coeficientes beta nos indican que:
Por cada kilometro adicional de recorrido el precio del vehículo se reduce en -95.286 pesos
Por cada año de antigüedad el precio del vehículo se reduce en -3,462,525.97 pesos
Un vehículo nuevo, 0 kilómetros, tiene un precio promedio de 94,323,291.28 pesos
#MAE y R Cuadrado
require(caret)
mod4=train (Precio~Kilometraje + Antigüedad,data = Chevrolet_Tracker,method="lm")
mod4$finalModel
mod4$results
#Calculo del MAPE
predicciones <- predict(mod4, newdata = Chevrolet_Tracker)
MAPE <- mean(abs((Chevrolet_Tracker$Precio - predicciones) / Chevrolet_Tracker$Precio)) * 100
MAPE
Rsquared | MAE | MAPE |
---|---|---|
0.7458281 | 4845932 | 9.222271 |
Para validar que tan efectivo es el modelo se van a utilizar 3 indicadores diferentes, el R cuadrado, el MAE y el MAPE.
R Cuadrado: El modelo logra explicar el 74,58% de variabilidad en el precio. Es decir que los valores permiten predecir los precios de manera adecuada. Es ligeramente diferente en decimales al R cuadrado que se calculó anteriormente, pero es porque se utilizan formulas diferentes, sin embargo, es la misma interpretación de resultados.
MAPE: indica el error promedio porcentual del modelo, el modelo en este caso se equivoca en promedio un 9,22% al estimar el precio.
MAE: ese porcentaje visto en términos reales está representado por el MAE, el modelo se equivoca estimando el precio aproximadamente en 4,845,932 pesos
El modelo nos ayuda a tomar mejores decisiones al comprar o vender un vehículo, en este caso una Chevrolet Tracker, pero se puede extrapolar este modelo a otros vehículos. De esta manera evitamos pagar de más o vender a un menor valor por desconocimiento.
Si vamos a vender el carro podemos establecer un precio justo basado en las dos variables de interés el kilometraje y la antigüedad, aun con desconocimiento en vehículos podemos estar confiados que esto representa fielmente el precio que esta dispuesto a pagar el mercado.
Por otro lado, al momento de comprar un carro usado vemos si el precio que nos ofrecen es razonable, estimamos cual es el precio que nos deberían cobrar y evitamos caer en estafas o precios muy elevados.
Ejemplo:
¿Cuanto cuesta en promedio una Chevrolet Tracker modelo 2018, con 50,000km recorridos?
Y (precio vehiculo) = 94323291.28 - 3462525.97(años de antigüedad) - 95.286(Kilometraje)
Y (precio vehiculo) = 94323291.28 - 3462525.97(2025-2018) - 95.286(50000)
## [1] 65321309
Precio Vehiculo = 65.321.309
Segun el modelo en promedio una chevrolet tracker con esas caracteristicas cuesta $65.321.309 pesos