En esta ocasión se tomo una base de datos de Amazon, en un periodo no especificado que, sin embargo, nos muestra interesantes detalles acerca de la relación de una muestra de 2500 usuarios registrados dentro de la plataforma y la misma plataforma. A través de esta base, nuestro objetivo es encontrar una relación entre dos variables que podamos recolectar de esta misma y saber si hay alguna relación entre ellas mediante un modelo de regresión lineal simple.
Para comenzar, cargaremos las librerias que utilizaremos:
library(dplyr)
library(lubridate)
library(ggplot2)
library(car)
Luego cargaremos la base de datos con la siguiente función:
Datos <- read.csv("data_amazon.csv", stringsAsFactors = TRUE)
Agregaremos columnas a la base de datos que pueda convertir algunos datos en valores númericos que nos puedan precisar nuestra hipotesis, la cual será : A medida que aumenta la edad de los usuarios de Amazon con mayor Metrica de compromiso (Engagment metrics), la comedia como género preferido tendrá una disminución gradual
Para hacer esto, hemos considerado lo siguiente: Primero haremos una previsualización de los géneros que la gente prefiere dentro de la plataforma de Amazon:
tabla_genero <- table(Proyecto$Favorite.Genres)
barplot(tabla_genero, main = "Géneros favoritos de los usuarios de amazon",
xlab = "Géneros",
ylab = "Frecuencia",
col = 8:16)
Después, haremos una nueva tabla la cual muestra el género comedia (Comedy = 3) y de la metrica de compromiso (HIGH = 3), junto con la edad de los usuarios y la frecuencia con la que los usuario toman como favorito el género de comedia, lo cual nos arroja la siguiente información:
Modelo_tabla <- Proyecto %>%
filter(Genero_fav == 3, Metrica == 3) %>%
group_by(Age, Genero_fav) %>%
summarise(contar = n()) %>%
select(Age, Genero_fav, contar)
## # A tibble: 6 × 3
## # Groups: Age [6]
## Age Genero_fav contar
## <dbl> <dbl> <int>
## 1 20 3 4
## 2 21 3 6
## 3 23 3 1
## 4 26 3 3
## 5 27 3 3
## 6 28 3 5
A partir de esto, vamos a considerar dos variables, X la consideraremos como la edad y Y la consideraremos la frecuencia con la que las edades tienen como genero favorito la comedia.
Con esto, podemos empezar a crear nuestra regresión lineal:
modelo <- lm(y ~ x, data = Proyecto)
summary(modelo)
##
## Call:
## lm(formula = y ~ x, data = Proyecto)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.6225 -0.8083 -0.1828 0.4345 3.3450
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 2.996958 0.452331 6.626 1.33e-08 ***
## x -0.016283 0.007727 -2.107 0.0395 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.193 on 57 degrees of freedom
## Multiple R-squared: 0.07227, Adjusted R-squared: 0.056
## F-statistic: 4.441 on 1 and 57 DF, p-value: 0.03951
Esta información nos arroja resultados interesantes, donde el P-value es menor al nivel de significancia de 0.05, el \(R^2\) = 0.07227 indica que aproximadamente el 7.2% de la variabilidad en Y puede ser explicada por X, tambien podemos encontrar que hay una relación negativa, con todos estos datos podemos graficar nuestro modelo para una representación más intuitiva.
Nuestro modelo nos llevó a mantener nuestra hipotesis, la cual indica que ha medida que aumente la edad, la frecuencia de mantener la comedia como el género favorito disminuirá en los usuarios con mayor metríca, la cual considera a estos usuario como aquellos que reaccionan más frente a las estrategias de marketing de la compañia. Aunque consideramos que la edad no es la unica variable que influye dentro del genero que la gente prefiere es interesante como ver que puede, que, debido a la edad se llegue a presentar una disminución en el favoritismo de la gente mayor por las peliculas de comedia.