Evaluación del precio de las computadoras mediante regresión lineal multiple

Autor/a

Manuela Vargas Madrid, Silvana Rojas Osorio

1 Resumen

En este informe se puede observar el análisis de regresión lineal múltiple realizado para entender la variación del precio de los computadores portátiles, teniendo en cuenta las componentes del computador, entre las componentes tenemos la marca, el procesador, la memoria RAM, el almacenamiento, el tamaño de la pantalla, la tarjeta gráfica, el sistema operativo, la duración de la batería, el peso y la garantía. Mediante este estudio se pretende analizar cuales son las variables que afectan más el precio del computador o si por el contrario no lo afecta.

2 Introducción

Para entender el comportamiento de las variables se pretende hacer el análisis con base a las preguntas planteadas a continuación.

2.1 Pregunta principal

¿El precio de los computadores es justificable gracias a las singularidades de sus componentes y todas las variables del modelo?

2.1.1 Preguntas auxiliares

¿Podría considerarse que la variable Tarjeta Gráfica hace que el precio de los computadores cambie?

¿Qué tan adecuado es el modelo de regresión lineal múltiple en términos de ajuste (R²) y significancia estadística (valores p de las variables), y cómo podría mejorar la precisión del modelo en caso de encontrar resultados subóptimos?

3 Objetivos

3.1 Obetivo general

Evaluar el impacto de las diferentes características de los computadores portátiles en el precio de este, identificando cuales componentes tiene mayor influencia en el costo.

3.2 Objetivos especifico

Desarrollar un modelo de regresión lineal múltiple que permita ver el precio de los portátiles en función a la combinación de sus características identificando la mejor combinación.

Analizar la relación entre las posibles combinaciones de hardware, como la RAM o tarjeta gráfica y su impacto en el precio de los computadores portátiles.

4 Datos

Se hace la clasificación de las variables para poder aplicar los métodos de análisis necesarios dependiendo de si es cuantitativa o cualitativa.

Variable Tipo de la variable
Brand Cualitativa
Model Cualitativa
Processor Cualitativa
RAM. Cuantitativa
Storage Cuantitativa
Screen Size Cualitativa
Graphics Card Cualitativa
Operating System Cualitativa
Weight Cuantitativa
Battery Life Cuantitativa
Price Cuantitativa
Warranty Cuantitativa

5 Análisis gráficos

Es posible observar en la figura 1 que la marca no afecta significativamente el precio del computador puesto que los cuantiles y la media se encuentran muy parejos, esto significa que en promedio el precio no varía de acuerdo con esta variable.

Figura 1: Análisis exploratorio entre la relación del precio y el procesador

Mediante el boxplot realizado en la figura 2, se logra analizar que la variable correspondiente al procesador del computador si afecta el precio del dispositivo más no es un impacto muy significativo o relevante puesto que se encuentra en un intervalo no muy amplio.

Figura 2: Análisis exploratorio entre la relación del precio y el procesador

En la figura 3, gracias al boxplot podemos ver que la variación del precio de los computadores con diferentes tarjetas graficas no tiene un cambio muy significativo, en promedio el precio es de 1500 y 2000. También se puede observar que no tiene valores atípicos.

Figura 3: Análisis exploratorio entre la relacion del precio y la tarjeta grafica

En este boxplot se compara los precios de los portátiles según el sistema operativo con el que se maneje, nuevamente encontramos que los precios no varían mucho entre ellos, estando así mismo en promedio entre 1500 y 2000, lo que nos indica que el sistema operativo no influye en el precio del aparato.

Figura 4: Análisis exploratorio entre la relación del precio y el sistema operativo

En la figura 5, se analiza si el tamaño de la pantalla tiene algún efecto en los precios de los portátiles, sin embargo, volvemos a observar el patrón de las gráficas anteriores, el precio en promedio esta entre 1500 y 2000, por lo que aunque la pantalla sea más grande no afectar en nada el precio de los computadores.

Figura 5: Análisis exploratorio entre la relación del precio y el tamaño de la pantalla

Para hacer el análisis de las variables cuantitativas se utilizaron gráficos de dispersión como se observa en la figura 6, sin embargo, la gráfica no se puede leer con claridad debido a la cantidad de datos, igual se puede decir que no hay mucha varianza de datos ya que no están muy separados unos de otros. Y para estar seguros de los resultados de estas variables respecto al precio se aplicaron pruebas numéricas.

Figura 6: Análisis exploratorio entre la relación del precio y la bateria y el peso

6 Análisis de resultados númericos

El modelo 1 (m1), fue el elegido para el previo análisis de las variables seleccionadas, por lo que se pasó al summary y fue posible analizar su R² y luego el vif, los cuales están relacionados. Los datos obtenidos en el vif fueron casi 1, sin embargo son un poco mayores, por lo que su R² es casi 0, esto quiere decir que la varianza de una de las variables está inflada debido a la relación que hay entre las msimas variables; también es posible ver que no existen problemas de multicolinealidad ya que aunque el Vif es > 1, tampoco es mucha la ventaja que hay.


Call:
lm(formula = Price ~ ., data = var_cuanti)

Residuals:
     Min       1Q   Median       3Q      Max 
-1283.44  -600.45    -4.01   619.05  1236.79 

Coefficients:
               Estimate Std. Error t value Pr(>|t|)    
(Intercept)    1817.188     54.534  33.322   <2e-16 ***
Weight           -8.714     18.013  -0.484    0.629    
`Battery Life`   -1.911      3.817  -0.501    0.617    
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 720.1 on 2997 degrees of freedom
Multiple R-squared:  0.0001634, Adjusted R-squared:  -0.0005039 
F-statistic: 0.2448 on 2 and 2997 DF,  p-value: 0.7829

Resultados de la prueba vif

        Weight `Battery Life` 
        1.0001         1.0001 

El summary del anova arroja en la suma de cuadrados datos muy grandes, esto significa que las variables aportan significativamente a explicar la varianza en la variable de respuesta.

              Df    Sum Sq Mean Sq
Brand          7 1.809e+06  258474
Model       2992 1.552e+09  518865

Gracias a la prueba bptest se encontró que los elementos del modelo 1, primeramente son normales, pero además de ello dice que, no hay pruebas suficientes para decir que son heterocedásticos, no se puede decir que la varianza cambia con el nivel de las variables independientes.


    studentized Breusch-Pagan test

data:  m1
BP = 4.5298, df = 2, p-value = 0.1038

Con la prueba Breusch-Godfrey (bgtest) se confirma lo que anteriormente se dijo y es que los datos siguen una distribución nromal, pero además, su alto valor p indica que no existe una autocorrelación.


    Breusch-Godfrey test for serial correlation of order up to 1

data:  m1
LM test = 2.2318, df = 1, p-value = 0.1352

7 Conclusiones

Gracias al análisis exploratorio de regresión múltple se pudo encontrar la respuesta a la primera pregunta planteada, la cual consistía en la varianza del precio debido a la memoria gráfica, lo cual es falso, ya que gracias a la figura 3, el boxplot de la memoria gráfica, su posible analizar que esta memoria no afecta en gran manera el precio del dispositivo.

El uso de Rstudio para el análisis de modelos de regresión múltiple es verdaderamente útil y efectivo, sin embargo, hay que tener previos conocimientos para hacer un uso eficiente Es posible que existan otros factores relevantes que no se incluyeron en el modelo y que pueden influir más fuertemente en el precio de los computadores como la antigüedad del modelo

Los resultados indican que las variables analizadas no explican de forma adecuada el precio de los computadores. Esto puede reflejarse en un bajo valor de R^2 demasiado cercano a 0, que sugiere que una porción significativa de la variación en el precio no está siendo explicada por las variables incluidas en el modelo. Significa que el modelo no explica mucha variabilidad de la variable de respuesta y que los valores predichos son esencialmente el promedio de los valores observados.

8 Referencias

Datos obtenidos en: https://www.kaggle.com/datasets/zafarali27/laptop-price-prediction?select=laptop+Price+Prediction+Dataset.csv