Nombre | Código | Porcentaje |
---|---|---|
Luciano Bacigalupo Leon | 202010055 | 100% |
Silvana Nicol Garcia Castro | 202010259 | 100% |
Rafael Andre Galloso Andia (Líder) | 202010258 | 100% |
Alvaro Javier Villena Farfán | 202010531 | 100% |
Cielo Maria Ponce Retamozo (Líder) | 202010351 | 100% |
Si no tiene alguno de estos paquetes, por favor instalarlos con el siguiente código:
#install.packages('readr')
#install.packages('dplyr')
#install.packages('modeest')
Las compras en línea, son una forma en la que no es necesario hacer contacto físico para poder adquirir un producto o servicio. Debido al inicio de la pandemia de la COVID-19, restricciones como el distanciamiento social obligatorio, cuarentena obligatoria y toque de queda, hicieron que las personas eviten hacer contacto física con la finalidad de evitar contraer el virus. Es por ello que este proyecto busca determinar cómo la pandemia afectó a las compras online en la comunidad UTEC.
Mediante esta investigación podremos determinar cómo ha cambiado el modo adquirir distintos productos debido a la pandemia en la que estamos viviendo. Muchas empresas se han visto forzadas a buscar nuevas formas de vender sus productos, mientras que otras, convenientemente, ya venían ofreciendo un servicio que se acomoda perfectamente a la situación promoviendo su crecimiento acelerado.
Las actvidades para el desarrollo de la investigación se realizó de acuerdo a las metas planteadas por el grupo por periodos de tiempo. Se hizo uso de un diagrama de Gantt para asignar los límites para completar una determinada tarea.
Población: Comunidad UTEC
Muestra: 174 individuos de la comunidad UTEC
Unidad muestral: Un individuo parte de UTEC
Método de muestreo: Muestreo aleatorio simple
Nuestra base de datos se obtuvo a partir una encuesta, en donde llegamos a tener 174 observaciones teniendo como población objetivo a la comunidad UTEC. Sin embargo, el grupo consideró que la comunidad UTEC estará conformada no sólo estudiantes, sino también profesores. Esta encuesta se realizó de manera virtual, con el apoyo de algunas herramientas de Google como: Google Forms y Google Sheets.
El Data Frame obtenido es el la variable de nombre “DF”, obtenida del archivo “CEL.csv”.
Resumen de la base de datos proporcionado por R.
## Marca temporal Sexo Edad Ventaja
## Length:199 Length:199 Min. :16.00 Length:199
## Class :character Class :character 1st Qu.:18.00 Class :character
## Mode :character Mode :character Median :18.00 Mode :character
## Mean :21.34
## 3rd Qu.:20.00
## Max. :62.00
## FrecuenciaAP ProductoAP DispositivoAP CantidadAP
## Length:199 Length:199 Length:199 Min. : 0.000
## Class :character Class :character Class :character 1st Qu.: 1.000
## Mode :character Mode :character Mode :character Median : 3.000
## Mean : 2.578
## 3rd Qu.: 4.000
## Max. :10.000
## GastoAP CantidadMesAP GastoMesAP MetodoPagaAP
## Min. : 0 Min. : 0.00 Min. : 0.0 Length:199
## 1st Qu.: 30 1st Qu.: 1.00 1st Qu.: 30.0 Class :character
## Median : 50 Median : 3.00 Median : 60.0 Mode :character
## Mean : 124 Mean : 5.07 Mean : 123.6
## 3rd Qu.: 100 3rd Qu.: 6.00 3rd Qu.: 150.0
## Max. :2500 Max. :30.00 Max. :1000.0
## MomentoDiaAP EscalaAP FrecuenciaAC ProductoAC
## Length:199 Min. : 1.000 Length:199 Length:199
## Class :character 1st Qu.: 5.000 Class :character Class :character
## Mode :character Median : 7.000 Mode :character Mode :character
## Mean : 6.432
## 3rd Qu.: 8.000
## Max. :10.000
## DispositivoAC CantidadAC GastoAC CantidadMesAC
## Length:199 Min. : 0.00 Min. : 0.00 Min. : 0
## Class :character 1st Qu.: 2.00 1st Qu.: 30.00 1st Qu.: 2
## Mode :character Median : 3.00 Median : 50.00 Median : 4
## Mean : 4.02 Mean : 87.38 Mean : 8
## 3rd Qu.: 4.00 3rd Qu.:100.00 3rd Qu.:10
## Max. :100.00 Max. :600.00 Max. :70
## GastoMesAC MetodoPagaAC MomentoDiaAC EscalaAc
## Min. : 0.0 Length:199 Length:199 Min. : 1.000
## 1st Qu.: 70.0 Class :character Class :character 1st Qu.: 7.000
## Median :130.0 Mode :character Mode :character Median : 9.000
## Mean :200.9 Mean : 8.025
## 3rd Qu.:300.0 3rd Qu.: 9.000
## Max. :800.0 Max. :10.000
En donde se puede abstraer:
Se tienen en total 21 variables, donde 7 de ellas son numéricas y el resto, categóricas.
Para asegurar que nuestra muestra es representativa, a la hora de crear la encuesta restringimos las personas que podían llenar la encuesta solo a aquellos con el correo de la universidad, de esta forma sabemos que solo personas parte de la comunidad UTEC llenaron la encuesta. Además, para difundir nuestra encuesta mandamos un correo con la encuesta a todos los estudiantes de la universidad y también compartimos la encuesta en grupos de whatsapp, telegram y demás. Para asegurar que las proporciones de la población sean representativas nos aseguramos de enviarle correos personalmente a profesores con la intención de que puedan difundir la encuesta entre los docentes para poder tener una muestra mucho más completa y representativa.
Pregunta | Variable | Tipo de variable | Restricciones |
---|---|---|---|
Género | Género |
Nominal |
Femenino, masculino, otro |
Edad | Edad | Discreta | Valor entero máximo 40 |
Según su opinión, ¿Cuál es la mayor ventaja por la cual optaría a comprar online? | Mayor ventaja | Nominal | Rapidez, Seguridad, Mejores precios, Comodidad, Ofertas, Otros |
¿Con cuánta frecuencia SOLÍA comprar en línea ANTES DE LA PANDEMIA? | Frecuencia de compra AP | Ordinal | Nunca, Poco frecuente, Regularmente, Muy frecuente, Siempre |
¿Qué tipo de producto SOLÍA comprar con mayor frecuencia en línea? | Producto mas comprado AP | Nominal | Comida, Electrónicos, Ropa, Otros, Ninguno |
¿Qué dispositivo UTILIZABA con más frecuencia para comprar en línea? | Dispositivo utilizado AP | Nominal | Computadora/laptop, Smartphone/tablet, Otros, No compro online |
¿Cuál es la cantidad de productos que ADQUIRÍA en UNA sola compra en línea?(Ej: 2) | Cantidad de productos por pedido AP | Discreta | Valores enteros no negativos |
¿Cuántos productos COMPRABA en línea aproximadamente al mes? (Ej: 20) | Cantidad de productos al mes AP | Discreta | Valores enteros no negativos |
¿Aproximadamente cuánto SOLÍA gastar por mes en línea en soles? (Ej: 20) | Gasto por mes AP | Continua | Valores no negativos |
¿Qué método de pago SOLÍA usar más para realizar compras línea? | Metodo de pago más popular AP | Nominal | Efectivo, Tarjeta, Aplicación bancaria (Ejemplo: Yape), Otro, No compro online |
¿En qué momento del día SOLÍA comprar habitualmente? | Tiempo de compra AP | Ordinal | Mañana, Tarde, Noche, No compro online |
En la escala del 1 al 10, ¿Cuán dispuesto ESTABA a comprar en línea? | Dispuesto a comprar en linea AP | Ordinal | Del 1 al 10 |
¿Con cuánta frecuencia SUELE comprar en línea? | Frecuencia de compras en linea AC | Ordinal | Nunca, Poco frecuente, Regularmente, Muy frecuente, Siempre |
¿Qué tipo de producto SUELE comprar con mayor frecuencia en línea? | Producto mas comprado AC | Nominal | Comida, Electrónicos, Ropa, Otros, Ninguno |
¿Qué dispositivo UTILIZA más para comprar en línea? | Dispositivo utilizado AC | Nominal | Computadora/laptop, Smartphone/tablet, Otros, No compro online |
¿Cuál es la cantidad de productos que ADQUIERE en UNA sola compra en línea? (Ej: 2) | Cantidad de productos por pedido AC | Discreta | Valores enteros no negativos |
¿Cuántos productos compra online aproximadamente al mes? (Ej: 20) | Cantidad de productos al mes AC | Discreta | Valores enteros no negativos |
¿Aproximadamente cuánto SUELE gastar por mes en línea en soles? | Gasto por mes AC | Continua | Valores no negativos |
¿Qué método de pago SUELE usar para realizar compras en línea? | Metodo de pago más popular AC | Nominal | Efectivo, Tarjeta, Aplicación bancaria (Ejemplo: Yape), Otro, No compro online |
¿En qué momento del día SUELE comprar habitualmente? | Tiempo de compra AC | Ordinal | Mañana, Tarde, Noche, No compro online |
En la escala del 1 al 10, ¿Cuán dispuesto está a comprar en línea? | Dispuesto a comprar en linea AC | Ordinal | Del 1 al 10 |
Para la variable Edad hemos considerado los descriptores numéricos media, mediana, moda y rango porque son los más relevantes para estudiar la variable edad. La media nos indica el valor promedio de la variable, la mediana el valor que se encuentra justo en la mitad, la moda es el valor que más se repite y el rango nos brinda el mínimo y máximo valor de la variable Edad.
Para esta variable, que es cuantitativa, se usó un histograma para poder separar los rangos de edades respecto a su frecuencia.
Descriptores numéricos de Edad
## [1] "La media es 21.3417085427136"
## [1] "La mediana es 18"
## [1] "La moda es 18"
## [1] "El rango es 16 y 62"
Para la variable Género observamos que nuestra muestra contiene más hombres que mujeres. En esta variable se usó un gráfico de barras (barplot) para diferenciar las proporciones entre hombre y mujeres, y se consideró a la moda como el único descriptor numérico relevante para el análisis de esta variable ya que, nos ayuda a comprobar que el género predominante en nuestra muestra es el masculino.
Hipótesis: Por lo observado en la Universidad creemos que la mayor parte de la muestra pertenecerá al género masculino.
Patrón: Como podemos ver, gracias a nuestro gráfico de barras y el resultado de la moda, concluimos que nuestra hipótesis es correcta diciéndonos que la mayor parte de nuestra muestra es masculino.
Descriptores numéricos de Género
## [1] "La moda es Masculino"
Para la frecuencia de compra decidimos usar un gráfico de barras ya que, al ser una variable cualitativa, nos muestra claramente la popularidad de cada una de las opciones. Decidimos usar la moda ya que nos muestra la actitud más popular antes y después de la pandemia.
Hipótesis: Durante la pandemia, más personas van a empezar a usar la modalidad virtual debido a las restricciones para salir.
Patrón: Como podemos ver, la moda ha pasado de ser poco frecuente a regularmente lo cual demuestra que nuestra hipótesis era correcta. Además, las personas que nunca habían comprado se han reducido y las que compran más frecuentemente han incrementado, mostrando cómo la pandemia efectivamente ha aumentado la popularidad de las compras en línea.
## [1] "La moda de la frecuencia de compras antes de la pandemia es Poco frecuente"
## [1] "La moda de la frecuencia de compras actualmente es Regularmente"
Ya que se trata de una variable numérica optamos por encontrar la media para saber la cantidad promedio de productos que se compraban antes de la pandemia y actualmente. La desviación estándar nos indica que tan dispersos se encuentran los valores respecto a la media de nuestra variable.
Decidimos usar un boxplot para estas variables para poder visualizar mejor la diferencia entre los rangos antes y después de pandemia y la cantidad de valores atípicos en ambos casos. Además de los descriptores numéricos que se pueden visualizar gracias a esta gráfica.
Hipótesis: Nosotros creemos que, debido a las ofertas y restricciones, las personas van a comprar más productos por compra.
Patrón: Como podemos ver, la mediana no ha cambiado antes de pandemia y actualmente, sin embargo, se puede observar en la segunda gráfica que las algunas personas han comenzado a adquirir una mayor cantidad de productos (datos atípicos) logrando alterar los valores de la media y la desviación estándar incrementándolos, lo cual nos muestra que el rango de productos que se compra ha incrementado y creemos que puede ser debido a las compras en línea de supermercados que tienen una alta cantidad de productos por pedido.
Descriptores numéricos de Cantidad de productos por pedido AP
## [1] "La media es 2.57788944723618"
## [1] "La mediana es 3"
## [1] "La moda es 3"
## [1] "La desviación estándar es 1.3565640831109"
Descriptores numéricos de Cantidad de productos por pedido AC
## [1] "La media es 4.02010050251256"
## [1] "La mediana es 3"
## [1] "La moda es 2"
## [1] "La desviación estándar es 2.76553296030825"
En este caso decidimos usar un gráfico de barras para representar la cantidad de productos por mes en ambos casos debido a que es una variable numérica discreta y podemos visualizar mediante este tipo de gráfico claramente la popularidad de cada una de las cantidades. Esto nos ayuda a comparar de manera fácil lo que se observa antes de la pandemia y actualmente.
Se consideró la media y la mediana porque si el valor de la media es mayor al de la mediana se dice que la gráfica es sesgada a la derecha, lo cual se puede comprobar mediante los gráficos de barras. La moda nos indicará la cantidad de productos comprados que más se repite. La varianza nos indicará cómo es la variación de los datos.
Hipótesis: Debido a la pandemia, la cantidad de productos por mes incrementará debido a las restricciones para salir y las ofertas que se ofrecen.
Patrón: Como podemos observar, la cantidad de personas que no compraban antes ha disminuido bastante y la varianza es casi el doble, lo que sugiere que las personas compran más productos que antes y creemos que es debido a los supermercados, ya que ahora ofrecen servicios de compra en línea y, además, debido a que las personas piden más comida que antes.
Descriptores numéricos de Cantidad de productos adquiridos al mes AP
## [1] "La media es 5.07035175879397"
## [1] "La mediana es 3"
## [1] "La moda es 2"
## [1] "La varianza es 6.02562502536856"
Descriptores numéricos de Cantidad de productos adquiridos al mes AC
## [1] "La media es 8"
## [1] "La mediana es 4"
## [1] "La moda es 2"
## [1] "La varianza es 10.1896164220388"
El coeficiente de variabilidad nos indica al ver la variación que hay en los datos, que en este caso son de la variable Gasto aproximado antes de la pandemia y actualmente. Con ayuda del gráfico podemos verificar que la mayoría de los datos no se encuentran dispersos, es decir, el valor del coeficiente de variabilidad no debe ser muy grande. La mediana nos permite encontrar el valor del dato que se encuentra a la mitad. La media nos indica el gasto promedio antes de la pandemia y actualmente. Hipótesis: Antes de la pandemia la mayoría de personas gastaban muy poco en compras en línea por diversos motivos. En la actualidad, pensamos que habrá más personas que gasten una mayor cantidad de dinero en compras en línea comparado con la situación antes de la pandemia. Patrón: Pudimos concluir a partir de las gráficas que en la actualidad nuestra muestra presenta una menor cantidad de personas que su gasto aproximado es mínimo, concluyendo que las personas han comenzado a gastar un mayor monto en compras en línea.
Descriptores numéricos de Gastos por mes antes de la pandemia AP
## [1] "La media es 123.613065326633"
## [1] "La mediana es 60"
## [1] "La moda es 0"
## [1] "El coeficiente de variacion es 0.102968027027453"
Descriptores numéricos de Gastos por mes actualmente AC
## [1] "La media es 200.884422110553"
## [1] "La mediana es 130"
## [1] "La moda es 100"
## [1] "El coeficiente de variacion es 0.0674415232231212"
Decidimos usar un gráfico de barras ya que tenemos una variable cuantitativa con 5 opciones y esta gráfica representa claramente la popularidad de cada una de las opciones.
Hipótesis: Nosotros creemos que la comida va a ser uno de los productos que incrementará su popularidad y la cantidad de personas que no compran va a reducirse considerablemente.
Patrones: Como podemos ver, la cantidad de personas que compran comida ha incrementado y se mantiene como el producto más popular. Asimismo, la cantidad de personas que no compran se ha reducido mientras que la cantidad de personas que compran otros productos en línea ha incrementado. Esto posiblemente se debe a que muchos negocios que antes no funcionaban en línea, ahora han implementado este método de compra lo cual justificaría porque hay más productos calificados como “Otros” en nuestra data actualmente.
Se decidió realizar un gráfico de barras para poder apreciar cuáles eran las disposiciones que fueron más escogidas por los encuestados. Además, observar si existe algún cambio en la disposición a comprar en línea de antes a después de la pandemia.
Hipótesis: En general sentimos que la disposición a comprar va a aumentar debido a las restricciones que trae la pandemia y también debido a la mejora de los servicios online de las empresas debido a la alta demanda que surgirá.
Patrones: Como podemos ver en las gráficas de barras, la moda es la misma pero la cantidad de personas por encima de 5 en la escala es mucho mayor que en el gráfico de antes de la pandemia lo cual sugiere que efectivamente ha incrementado la disposición a comprar. En resumen, la disposición a comprar en línea ha aumentado comparado con antes de la pandemia.
Se optó por utilizar esta gráfica de barras porque se puede apreciar a primera vista la moda de las edades y, también, se indica la proporción de géneros que hay en cada edad, siendo la de color verde, masculino; azul, femenino y morado, otro.
Hipótesis: Nosotros esperamos que la mayoría de los encuestados sean hombres entre 17-20 años de edad debido a la naturaleza de la universidad y las personas que nos rodean.
Patrón: Como podemos ver, efectivamente la mayoría de encuestados son hombres entre 17-20 años de de edad lo cual coincide con nuestra hipótesis.
La gráfica nos muestra que los métodos de pago más frecuentes, efectivo y tarjeta, son usados mayormente para compras en línea relacionadas a la comida y electrónicos.
Hipótesis: Debido a la pandemia, el uso de tarjeta como método de pago se incrementa para evitar posibles contagios, y para evitar el contacto con otras personas los pedidos de comida se incrementarían.
Patrones: Como podemos ver, los pedidos de comida se han incrementado considerablemente en contraste a antes de la pandemia. El uso de la tarjeta ha incrementado como esperábamos y las personas que no compran en línea han disminuido considerablemente. Sorprendentemente, el uso de efectivo ha aumentado lo cual es inesperado pero creemos que este patrón se justifica por la popularidad de los emprendimientos personales en redes sociales que normalmente usan efectivo como medio de pago.
Este tipo de gráfico lo hemos utilizado para poder representar mejor la distribución de los productos dependiendo de la frecuencia con la que compran las personas vía en línea.
Hipótesis: Nosotros creemos que gracias a la pandemia las frecuencias de compras incrementa, y a su vez las compras de necesidades básicas como comida tendrían el mismo comportamiento.
Patrones: Como podemos observar, los pedidos de comida siguen predominando ante los demás productos que las personas consumen. Además, las compras de comidas antes de la pandemia se consideraban dentro de las compras poco frecuentes. Sin embargo, en la actualidad las compras de comidas pasaron a ser muy frecuentes o de manera regular.
Variable | Tipo | Distribución |
---|---|---|
Cantidad de productos adquiridos AP y AC | V.A Discreta | Binomial |
Edad | V.A Discreta | Binomial |
Frecuencia de compra | V.A Discreta | Binomial |
Gastos por mes AP y AC | V.A Continua | Normal |
Las variables a analizar son:
Estas variables nos permitirán conocer, a través de proporciones, cuál el producto que más se compra en la comunidad UTEC. Para determinar el nivel de confianza de esta variable se consideró que la precisión sea alta debido a que, los datos no varían demasiado lo cual nos permite reducir el nivel de confianza para aumentar la precisión. El valor elegido para el nivel de confianza es 80%.
Se eligió la variable Edad porque se desea conocer el promedio de edades de la comunidad UTEC. A causa de que el rango de esta variable va de 16 a 62 y se observa una gran dispersión en las edades, no podemos esperar una gran precisión, por ende, decidimos aumentar el nivel de confianza. El valor elegido para el nivel de confianza es 95% porque, si usamos valores más altos de confianza la zona de aceptación no varia mucho y tendríamos menor precisión, por esto, un valor central entre el nivel de confianza y precisión necesarios es el mencionado anteriormente.
Se desea analizar esta variable para conocer, aproximadamente, cuánto es el gasto que la comunidad UTEC realiza por mes en sus compras en línea. Los rangos de estas variables son [0,1000] y [0,800] antes y durante la pandemia respectivamente. Esto nos demuestra que los datos recolectados en la muestra son dispersos y la precisión esperada debe ser pequeña por lo que, al igual que en la anterior variable, usaremos un nivel de confianza alto pero tendrá cierto nivel de precisión. El valor del nivel de confianza elegido para esta variable será 90% debido a que con valores mayores a este el intervalo de aceptación no varia mucho y estaríamos perdiendo precisión.
Se utilizó el teorema del límite central para determinar los intervalos de confianza para la variables descritas anteriormente. Estos intervalos de confianza nos darán de resultado un rango, dependiendo del nivel de confianza usado, en el cual se espera que se encuentre el parámetro poblacional (media y proporciones de la población) de las variables edad, gasto por mes AC y AP, y producto más comprado AC y AP.
El producto más comprado antes de la pandemia (AP) y actualmente (AC) es la variable comida. Se calculó la proporción de personas que comprarban comida para ambos casos, antes de la pandemia y actualmente. La propoción AP es 0.44 y AC es 0.58. Se determinaron los intevalos de confianza para la proporción con las fórmulas mostradas en clase.
El límite inferior es: 0.39
El límite superior es: 0.49
El límite inferior es: 0.52
El límite superior es: 0.62
El límite inferior es: 20.22
El límite superior es: 22.46
El límite inferior es: 104.72
El límite superior es: 142.50
El límite inferior es: 179.48
El límite superior es: 222.29
El valor de la proporción para evaluar la hipótesis de 0.5 se determinó a partir de la proporción encontrada en la encuesta realizada, la cual es de 0.56. Además, en base a las gráficas descriptivas mostradas anteriormente acerca del producto mas comprado, se puedo inferir que la proporción de compra de productos actualmente, especialmente comida, aumenta.
\[H0: p >= 0.50\] \[H1: p < 0.50\]
Como el Zobservado cae en la zona de aceptación, la hipótesis nula planteada anteriormente no se rechaza. Por lo tanto, al menos el 50% de las personas consumían mayormente comida mediante compras en línea.
El valor de la proporción para evaluar la hipótesis de 0.4, este se determinó a partir de una aproximación de la proporción encontrada en la encuesta realizada, la cual es de 0.42.
Como el Zobservado cae en la zona de aceptación, la hipótesis nula planteada anteriormente no se rechaza. Por esto, al menos el 40% de las personas consumían mayormente comida mediante compras en línea.
Elegimos esta hipótesis porque en el gráfico de barras que presentamos anteriormente se pudo observar que la proporción de personas que más respondieron nuestra encuesta tienen 18 años, por lo que suponemos que la media de la población podría ser igual al valor mencionado.
La hipótesis nula presentada se rechaza, porque el valor de t calculado no se encuentra en la zona de aceptación. Esto quiere decir que la media de la edad de nuestra población es diferente a 18 años.
Decidimos utilizar el valor de 130 soles porque es ligeramente mayor al de la muestra. Por las gráficas y descriptores numéricos vistos anteriormente la media de la muestra es aproximadamente 123.61, por esto, decidimos probar con un valor cerca, pero un poco más grande que el obtenido en la muestra.
El valor de la hipótesis nula presentada anteriormente que es 130 cae en la zona de aceptación, por lo tanto no se rechaza. Esto quiere decir que la media de los gastos por mes antes de la pandemia es menor o igual a 130 nuevos soles.
Decidimos utilizar el valor de 210 soles porque es ligeramente mayor al de la muestra. Además, por las gráficas descriptivas anteriores vemos que las compras en línea aumentaron, por lo tanto, la media poblacional de la variable superará el valor de la media muestral.
El valor de la hipótesis nula presentada anteriormente, que es 210, cae en la zona de aceptación, por lo tanto no se rechaza. Esto explica que los gastos en línea sí aumentaron.
Utilizamos regresión lineal simple para relacionar cantidad de productos comprados por mes antes de la pandemia y actualmente con gasto aproximado por mes. Al realizar nuestra encuesta no especificamos el tipo de producto y por ello las variables utilizadas contienen datos que aplican a un rango amplio de productos lo cual lleva a una alta dispersión de los datos al realizar las gráficas. Sin embargo, se observa cierta relación lineal positiva y por ello decidimos usar regresión lineal. Las ecuaciones de regresión obtenidas para antes y durante la pandemia son: y=12.07x+62.44 y 7.88x+137.82 con un valor de r2 de 0.1973 y 0.1874 respectivamente. Los valores de r2 son muy bajos, debido a la alta dispersión de datos y la naturaleza de las variables previamente mencionado, lo cual nos indica que estas no son buenas funciones para aproximar los datos. A pesar de esto, se observa una relación entre ambas variables que tiene sentido, pero es afectada por fallas a la hora de diseñar la encuesta.
## (Intercept) DF$CantidadMesAP
## 62.43860 12.06513
El dominio para el cual consideramos que aplica esta regresión es de 0 a 30.
## (Intercept) DF$CantidadMesAC
## 137.820311 7.883014
El dominio para el cual consideramos que aplica esta regresión es de 0 a 40.
Nos pareció interesante utilizar regresión para estimar cuanto gastaba una persona antes de la pandemia usando el gasto por mes actual. Nuevamente la alta dispersión de los datos se debe a una falla en nuestra encuesta ya que no especificamos el tipo de producto para el gasto por mes y estos valores de gasto varían debido al amplio rango de productos que se pudieron haber comprado. En la gráfica vemos una relación positiva débil con la siguiente ecuación: 0.52x+20.06 y un coeficiente de determinación de 0.34. Concluimos que este modelo no es realmente bueno para estimar el gasto por mes antes de la pandemia debido al bajo coeficiente de determinación y la naturaleza impredecible de ambas variables. Sin embargo, la relación mostrada resulta interesante para comparar los gastos antes y durante la pandemia.
## (Intercept) DF$GastoMesAC
## 20.0601312 0.5154851
El dominio para el cual consideramos que aplica esta regresión es de 0 a 800.