Punto 1

Relación lineal con graficas de disperción

La base de datos recolecta información sobre la utilidad de una compañía los últimos 10 años y la relación con la participación de mercado y los descuentos que otorga.

# Cargar datos desde el archivo Excel
datos <- read_excel("datos_utilidad.xlsx")

# Renombrar columnas (sin espacios)
colnames(datos) <- c("Utilidad", "Participacion_Mercado", "Descuento_Concedido")
Utilidad Participacion_Mercado Descuento_Concedido
270 5 20
250 9 18
280 12 16
260 8 10
310 16 14
330 18 16
350 19 16
320 20 17
360 18 17
330 27 20

La grafica nos permite ver de manera visual que tanta es la relación entre las variables.

Modelo de regresión lineal

modelo <- lm(Utilidad ~ Participacion_Mercado + Descuento_Concedido, data = datos)

# Mostrar resumen del modelo
summary(modelo)
Descripción Coeficiente Error Estandar t value Pr(>|t|)
Intercepto 240.133 49.694 4.832 0.00189 **
Participación de Mercado 4.739 1.335 3.551 0.00934 **
Descuento Concedido -0.376 3.045 -0.123 0.90519

Multiple R-squared: 0.6537

p-value: 0.02443

Inicialmente el modelo de regresión lineal sería:

Utilidad = 240.133 + 4.739(Participación de Mercado) - 0.376(Descuento Concedido)

Interpretación de los coeficientes

  • Intercepto:240.133

    • Cuando la participación en el mercado es 0% y el descuento concedido es 0%, la utilidad esperada es 240.133 millones de dólares.
  • Participación en el mercado:4.739

    • Por cada 1% adicional de participación en el mercado, la utilidad aumenta en 4.739 millones de dólares.
  • Descuento concedido:−0.376

    • Por cada 1% adicional de descuento, la utilidad disminuye en 0.376 millones de dólares.

Evaluar la significancía del modelo y significancía de cada variable

  • p-value general:0.02443

    • El p-value es menor que 0.05 lo que quiere decir que el modelo de regresión ofrece una vision adecuada, sin embargo, hay que evaluar cada variable por separado para ver si el impacto del modelo es gracias a todas las variables o solamente a una
  • Participación en el mercado:0.00934

    • El p-value es 0.00934, es decir, tiene un impacto significativo en la utilidad.
  • Descuento concedido:0.90519

    • El p-value es 0.90519, lo que significa que el descuento no tiene un efecto importante sobre la utilidad y es una variable que se puede descartar del modelo.

Coeficiente de correlación multiple y coeficiente de determinación

Coeficiente de correlación múltiple (R)

El coeficiente de correlación múltiple R se obtiene de la raíz cuadrada del coeficiente de determinación R^2

√0.6537 = 0.8085 = R

El coeficiente de correlación indica que existe una relación fuerte y positiva entre la utilidad y las variables presentadas en el modelo de regresión. En conjunto el modelo logra predecir de manera adecuada la utilidad.

Coeficiente de determinación (R²)

Multiple R-squared: 0.6537

Lo que nos demuestra este valor es que el 65.37% de la variabilidad de la utilidad esta explicada por la participación en el mercado y el descuento concedido.

Modelo de regesión final

Como habiamos analizado antes la variable de Descuento Concedido no tiene un impacto significativo dentro del modelo, por lo que lo más adecuado es mantener el modelo sin esa variable.

# Ajustar el nuevo modelo
modelo_final <- lm(Utilidad ~ Participacion_Mercado, data = datos)

# Mostrar el resumen del modelo
summary(modelo_final)
Descripción Coeficiente Error Estandar t value Pr(>|t|)
Intercepto 234.588 19.926 11.77 0.00000248 ***
Participación de Mercado 4.698 1.211 3.88 0.00467 **

Multiple R-squared: 0.653

p-value: 0.004675

Coeficiente de correlación multiple: 0.808

Al eliminar la variable de Descuento Concedido el modelo de regresión sigue siendo igual de efectivo, esto se desmuestra ya que el R2 y el coeficiente de correlación multiples tienen los mismos valores. Además, el p-value es mejor lo que significa que el modelo en general estima de manera más adecuada la utilidad de la compañia.

Evaluar todos los supuestos del modelo de regresión final

# Diagnóstico de residuos
par(mfrow = c(2, 2)) 
plot(modelo_final)   

El gráfico Q-Q Residuals permite evaluar la linealidad del modelo. En este caso, los puntos están alineados con la línea ideal, indicando que el modelo es lineal y no presenta desviaciones significativas.

Ejemplo del modelo final

Utilidad = 234.588 + 4.698(Participación de Mercado)

¿Cual es la utilidad esperada por la compañia si su participación de mercado es del 45%?

Utilidad = 234.588 + 4.698*(45)

Utilidad
## [1] 445.998

En promedio la compañía recibiría 445.998 millones de dolares de utilidad.

Punto 2

La base de datos muestra el seguimiento que hizo una universidad a 20 estudiantes para estudiar como los créditos matriculados, promedio acumulado y horas de ocio afectan a las horas de deporte que realiza el estudiante.

Modelo de regresión lineal

mod1=lm(Horas_deporte~Creditos_matriculados + Promedio_acumulado + Horas_de_ocio, data = datos)
Intercepto Creditos Matriculados Promedio acumulado Horas de ocio
28.15 -0.91 -2.39 0.09

El modelo de regresión múltiple nos muestra la relación de cada una de las variables independientes con la variable dependiente de interes.

Los coeficientes beta nos indican que:

  • Por cada credito adicional matriculado se reducen las horas de deporte en 0.91

  • Por cada punto adicional en el promedio acumulado se reducen las horas de deporte en 2.39 horas

  • Por cada hora de ocio se reducen las horas de deporte en 0.09

Mientras que si a una persona no le influyeran ninguna de esas variables entonces la cantidad promedio de horas que realiza deporte son 28.15 horas.

Significancía del modelo y de cada variable

summary(mod1)
Descripción Coeficiente Error estandar t value Pr(>|t|)
Intercepto 28.15755 4.27567 6.586 6.27e-06 ***
Creditos Matriculados -0.91859 0.22835 -4.023 0.000984 ***
Promedio Acumulado -2.39382 0.92233 -2.595 0.019522 *
Horas de ocio 0.09359 0.09322 1.004 0.330308
Signif. codes: Multiple R-squared:
0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 0.7775

Los créditos matriculados es el que tiene el P Value más pequeño, menor a <0.001 tres asteriscos, tiene mucha significancia e impacto en las horas de entreno. Esta significancia viene de la combinación del coeficiente y el error estándar que es reducido, es decir, tiene una mayor precisión.

El promedio acumulado tiene un P Value menor a <0.01 un asterisco, sigue teniendo significancia, pero no tiene tanto impacto como la otra variable. Tiene un error estándar más alto, es decir, que tiene una menor precisión.

En cuanto a las horas de ocio no tiene ningún tipo de relación por lo que podemos descartar esta variable para el modelo de regresión.

En cuanto a la evaluación del modelo en general, según el R cuadrado el modelo explica el 73,57% de la variabilidad, el cual es un valor adecuado.

Modelo de regresión lineal ajustado

mod_2 = lm(Horas_deporte ~ Creditos_matriculados + Promedio_acumulado, data = datos)
summary(mod_2)
Descripción Coeficiente Error estandar t value Pr(>|t|)
Intercepto 30.4194 3.6349 8.369 1.97e-07 ***
Creditos Matriculados -0.9381 0.2276 -4.122 0.000712 ***
Promedio Acumulado -2.7263 0.8610 -3.166 0.005642 **

Multiple R-squared: 0.7634

Este nuevo modelo de regresión ya no tiene la variable de horas de ocio porque no tenía ningún tipo de impacto en el modelo, únicamente se conservaron las variables con significancia alta.

Vemos que el R cuadrado ahora está en 73,56% prácticamente el mismo valor que teníamos antes, esto confirma que la variable que quitamos no tenía importancia en la estimación del modelo.

Evaluar los supuestos del modelo de regresión final

El grafico más importante para analizar es el Q-Q Residuals que nos permite identificar si el modelo si es lineal. En este caso los puntos se aprecian muy cercanos a la línea ideal lo que quiere decir que el modelo es lineal y no presenta grandes desviaciones.

Respuesta a las preguntas

Pregunta 1 ¿Cuanto tiempo por semana invierte un estudiante de una universidad local en alguna practica deportiva?

El modelo permite a la universidad entender los factores que influyen a los estudiantes a la hora de decidir la cantidad de horas que dedican a la práctica deportiva. Se puede predecir cual es el tiempo que un estudiante dedicaría al deporte según su carga académica y de esta manera la universidad puede prestar atención a los estudiantes que tengan una carga académica muy elevada.

Pregunta 2 ¿el rendimiento académico afecta esta practica?

Si, el promedio académico tiene un efecto negativo con un nivel de significancia medio. Por cada punto adicional en el promedio de las notas se reducen 2.5 las horas de práctica deportiva.

Posibilidad de usar el modelo encontrado para predecir el tiempo semanal que un estudiante dedica a realizar practicas deportivas.

Si, el modelo se puede usar y tiene un nivel de acierto alto debido a que el R cuadrado es de 0.7356, es decir, puede explicar aproximadamente el 73,56%.

Ejemplo:

¿Cuántas horas le dedica al deporte un estudiante con 21 créditos matriculados y un promedio de 4,62?

Y (horas deporte) = 28.15755 - 0.91859(21) - 2.39382 (4,62)

horas= 28.15755-0.91859(21) 2.39382(4.62) horas

Y (horas deporte) = -2,19

Es decir, según el modelo, en promedio un estudiante con estas características no tiene tiempo para realizar deporte, lo que nos ofrece una mirada de cual debería ser el límite de créditos que un estudiante debe matricular para mantener un estilo de vida saludable.

Punto 3

Modelo de regresión lineal para predecir el PIB

# Modelo de regresión
modelo <- lm(PIB ~ Azucar + Cemento_Gris + Lingotes_Acero + Produccion_Carbon + Vehiculos_Ensamblados, data = datos3)

# Mostrar resumen del modelo
summary(modelo)
Descripción Coeficiente Error Estandar t value Pr(>|t|)
Intercepto 364357.0 217700 1.67400 0.138030
Azúcar -0.55540 0.72090 -0.7700 0.466280
Cemento Gris -0.18770 0.36740 0.51100 0.625130
Lingotes de Acero -17.80 6.0020 -2.9660 0.020920 *
Producción de Carbon 261.60 71.830 3.64200 0.008270 **
Vehiculos Ensamblados 27.980 11.480 2.43700 0.044930 *

Multiple R-squared: 0.9533

p-value: 0.0001611

Interpretar los coeficientes del modelo

Variable Coeficiente Interpretación
Intercepto 364357.00 Si todas las variables fueran cero, el PIB sería 364,357. En la práctica, esto no tiene mucho sentido, pero es el punto de partida del modelo.
Azúcar -0.56 Un aumento de una tonelada en la producción de azúcar reduce el PIB en 0.56. Sin embargo, este efecto no es significativo.
Cemento Gris -0.19 Cada tonelada extra de cemento gris lleva a una reducción de 0.19 en el PIB, aunque el efecto no es significativo.
Lingotes de Acero -17.80 Un aumento de una tonelada en la producción de lingotes de acero lleva a una reducción de 17.8 en el PIB. Este efecto sí es significativo, lo que sugiere que esta variable tiene un impacto grande en el modelo.
Producción de Carbón 261.60 Cada tonelada adicional de producción de carbón se asocia con un aumento de 261.6 en el PIB. Es una de las variables con mayor impacto en el modelo.
Vehículos Ensamblados 27.98 Producir un vehículo incrementa el PIB en 27.98. Aunque el impacto no es el más alto, sigue siendo una variable significativa.

Resumen:

  • La producción de carbón es la que tiene el mayor impacto en el PIB de manera positiva, tiene un coeficiente alto, acompañado de un p-value significativo.

  • Los lingotes de acero tienen un impacto negativo, es significativo pero no tiene tanto impacto como el carbón.

  • El numero de vehiculos ensamblados tiene un impacto positivo en el PIB, es significativo pero el carbón tiene más significancia.

Coeficiente de correlación múltiple

El coeficiente de correlación múltiple R=0.9764 indica una fuerte relación entre las variables y el PIB.

  • Dado que R está cercano a 1, podemos decir que el modelo tiene un ajuste muy bueno.

Coeficiente de determinación

El R^2 de 0.9533 indica que el 95.33% de la variabilidad en el PIB es explicada por las variables del modelo.

  • Esto significa que el modelo tiene un buen ajuste y explica la mayor parte de la variabilidad del PIB.

Significancía de cada variable

El Azúzar y Cemento Gris no son significativos al nivel de α =0.10, esto indica que estas variables no tienen una relación clara con el PIB. El analisis realizado anteriormente mostraba que no tenian ningun asterisco, eso significa que no tienen nivel de significancia dentro del modelo, por lo que no son determinantes al explicar la variación del PIB.

Los Lingotes de Acero con un p-value de 0.0209 (un asterisco) es significativo, lo que implica que si tiene un efecto sobre el PIB.

La Producción de Carbón con un p-value de 0.0083 (dos asteriscos) es altamente significativo, siendo la variable que más influye sobre el PIB.

Los Vehículos Ensamblados con un p-value de 0.0449 (un asterisco) también es significativo, al nivel de los lingotes de acero, por lo que también tiene efecto sobre el PIB.

Eliminar las variables no significativas y construccion del modelo final

Vamos a mantener en el modelo unicamente las variables significativas identificadas anteriormente Lingotes de Acero, Producción de Carbón y vehiculos Ensamblados

# Nuevo modelo de regresión
modelo_mejorado3 <- lm(PIB ~ Lingotes_Acero + Produccion_Carbon + Vehiculos_Ensamblados, data = datos3)

summary(modelo_mejorado3)
Descripción Coeficiente Error Estandar t value Pr(>|t|)
Intercepto 220575.077 131026.973 1.683 0.126581
Lingotes de Acero -19.141 5.270 -3.632 0.005467 **
Producción de Carbon 239.326 42.115 5.683 0.000301 ***
Vehículos Ensamblados 25.724 9.051 2.842 0.019336 *

Multiple R-squared: 0.9479

p-value: 0.000004241

El nuevo modelo es mucho más efectivo a la hora de predecir el valor del PIB, el p-value mejoro significativamente respecto al modelo anterior y el multiple R-squared se mantuvo en los mismos niveles entonces todavía predice un porcentaje alto.

Ejemplo

¿Cuanto se esperaría que fuera el PIB del país si este año se produjeron 25000 toneladas de lingotes de acero, 1500 toneladas de carbon y se ensamblaron 7000 vehiculos?

PIB = 220575.077 - 19.141(Lingotes de Acero) + 239.326(Producción de Carbón) + 25.724(Vehículos Ensamblados)

PIB = 220575.077 - 19.141*(25000) + 239.326*(1500) + 25.724*(7000)
PIB
## [1] 281107.1

En promedio con esos niveles de producción se esperaría que el PIB de este año sea de 281107.1 miles de millones de pesos.

Punto 4

Base de datos

La base de datos se compone de vehiculos marca Chevrolet, modelo Tracker, desde los modelos 2010 hasta los modelos 2026.

Esta base de datos contiene más de 1.100 datos de vehículos en venta, dentro de esos datos hay muchos datos atípicos que no tenían sentido comparados con el promedio del mercado, principalmente en el precio y en el kilometraje recorrido.

Para visualizar los datos atípicos se utilizó una gráfica de boxplot que muestra los cuartiles donde se concentra la mayor parte de los datos, así vemos que hay datos extremadamente desfasados que vamos a descartar de la base de datos, para ser más realistas con los resultados.

Una vez eliminamos los datos atípicos así se visualiza la gráfica de Boxplot y ahora si podemos empezar a trabajar con la información.

Relación del precio con las variables

##                 Precio Kilometraje Antigüedad
## Precio       1.0000000  -0.6737495 -0.8427941
## Kilometraje -0.6737495   1.0000000  0.6215101
## Antigüedad  -0.8427941   0.6215101  1.0000000

Las gráficas y el coeficiente de correlación R nos ayudan a identificar que tanto se relacionan estas dos variables con el precio de los vehículos.

  • El precio y el kilometraje tienen una correlación negativa alta con valor de -0.67.

  • El precio y la antigüedad tienen una correlación negativa muy alta con un valor de -0.84

Ambas tienen un fuerte impacto sobre el precio de los vehículos.

Modelo de regresión lineal múltiple

Chevrolet_Tracker$Ciudad <- relevel(Chevrolet_Tracker$Ciudad, ref = "Cali")


mod_1 <- lm(Precio ~ Kilometraje + Antigüedad + Ciudad, data = Chevrolet_Tracker)
summary(mod_1)

#Hay ciudades que si que afectan el precio con respecto a Cali

mod2 <- lm(Precio ~ Kilometraje + Antigüedad, data = Chevrolet_Tracker)
options(scipen = 999)  # Evita la notación científica
summary(mod2)
Descripción Coeficiente Error Estandar t value Pr(>|t|)
Intercepto 94323291.287 784396.524 120.25 <0.0000000000000002 ***
Kilometraje -95.286 8.033 -11.86 <0.0000000000000002 ***
Antigüedad -3462525.979 103215.017 -33.55 <0.0000000000000002 ***

Multiple R-squared: 0.7469

El primer modelo de regresión incluye las ciudades y mostraba que hay ciertas ciudades donde si se afecta el precio con respecto a la ciudad de Cali, sin embargo, no es un impacto significativo y no es replicable para otras ciudades, entonces vamos a permanecer en el segundo modelo que únicamente incluye las variables numéricas significativas: kilometraje y Antigüedad, las cuales tienen un impacto importante en el precio de los vehículos.

Según el R cuadrado, el modelo explica el 74.69% de la variabilidad, el cual es un valor adecuado

Los coeficientes beta nos indican que:

  • Por cada kilometro adicional de recorrido el precio del vehículo se reduce en -95.286 pesos

  • Por cada año de antigüedad el precio del vehículo se reduce en -3,462,525.97 pesos

  • Un vehículo nuevo, 0 kilómetros, tiene un precio promedio de 94,323,291.28 pesos

Validar el poder predictivo del modelo

#MAE y R Cuadrado
require(caret)
mod4=train (Precio~Kilometraje + Antigüedad,data = Chevrolet_Tracker,method="lm")
mod4$finalModel
mod4$results

#Calculo del MAPE
predicciones <- predict(mod4, newdata = Chevrolet_Tracker)
MAPE <- mean(abs((Chevrolet_Tracker$Precio - predicciones) / Chevrolet_Tracker$Precio)) * 100
MAPE
Rsquared MAE MAPE
0.7458281 4845932 9.222271

Para validar que tan efectivo es el modelo se van a utilizar 3 indicadores diferentes, el R cuadrado, el MAE y el MAPE.

R Cuadrado: El modelo logra explicar el 74,58% de variabilidad en el precio. Es decir que los valores permiten predecir los precios de manera adecuada. Es ligeramente diferente en decimales al R cuadrado que se calculó anteriormente, pero es porque se utilizan formulas diferentes, sin embargo, es la misma interpretación de resultados.

MAPE: indica el error promedio porcentual del modelo, el modelo en este caso se equivoca en promedio un 9,22% al estimar el precio.

MAE: ese porcentaje visto en términos reales está representado por el MAE, el modelo se equivoca estimando el precio aproximadamente en 4,845,932 pesos

Discutir los potenciales usos del modelo

El modelo nos ayuda a tomar mejores decisiones al comprar o vender un vehículo, en este caso una Chevrolet Tracker, pero se puede extrapolar este modelo a otros vehículos. De esta manera evitamos pagar de más o vender a un menor valor por desconocimiento.

Si vamos a vender el carro podemos establecer un precio justo basado en las dos variables de interés el kilometraje y la antigüedad, aun con desconocimiento en vehículos podemos estar confiados que esto representa fielmente el precio que esta dispuesto a pagar el mercado.

Por otro lado, al momento de comprar un carro usado vemos si el precio que nos ofrecen es razonable, estimamos cual es el precio que nos deberían cobrar y evitamos caer en estafas o precios muy elevados.

Ejemplo:

¿Cuanto cuesta en promedio una Chevrolet Tracker modelo 2018, con 50,000km recorridos?

Y (precio vehiculo) = 94323291.28 - 3462525.97(años de antigüedad) - 95.286(Kilometraje)

Y (precio vehiculo) = 94323291.28 - 3462525.97(2025-2018) - 95.286(50000)

Precio_Vehiculo = 94323291.28-3462525.97*(2025-2018)-95.286*(50000)
Precio_Vehiculo
## [1] 65321309

Precio Vehiculo = 65.321.309

Segun el modelo en promedio una chevrolet tracker con esas caracteristicas cuesta $65.321.309 pesos