Amazon prime es una compañia de streaming que lidera el mercado, por lo que es importante analizar datos para entender sus problemas y así mejorarlos. Por lo que en este proyecto nos enfocaremos en encontrar la relación que existe entre la frecuencia con que utilizan la plataforma y las calificaciones que brindan los ususuarios, con el fin de evaluar si existe un correcto funcionamiento de Amazon Prime.
Primero debemos instalar y llamar librerias
library(dplyr)
##
## Adjuntando el paquete: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
library(ggplot2)
## Warning: package 'ggplot2' was built under R version 4.4.1
library(car)
## Warning: package 'car' was built under R version 4.4.1
## Cargando paquete requerido: carData
## Warning: package 'carData' was built under R version 4.4.1
##
## Adjuntando el paquete: 'car'
## The following object is masked from 'package:dplyr':
##
## recode
Para poder trabajar, necesitamos fijar un directorio donde encontraremos todos los datos a ocupar
setwd("C:/Users/Mildred/Downloads/Proyecto")
Cargar la base a utilizar, así como las librerias dplyr, ggplot2, car, entre otras que se vayan necesitando
amazon <- read.csv("C:/Users/Mildred/Downloads/Proyecto/data_amazon.csv")
Como tenemos datos de 2500 personas, solo necesitaremos dos variables para evaluar la calidad del manejo de la página.
gustos <- amazon %>% select(Feedback.Ratings, Usage.Frequency) %>%
group_by(Feedback.Ratings, Usage.Frequency) %>%
count(Usage.Frequency)
print(gustos)
## # A tibble: 63 x 3
## # Groups: Feedback.Ratings, Usage.Frequency [63]
## Feedback.Ratings Usage.Frequency n
## <dbl> <chr> <int>
## 1 3 Frequent 21
## 2 3 Occasional 26
## 3 3 Regular 24
## 4 3.1 Frequent 48
## 5 3.1 Occasional 54
## 6 3.1 Regular 41
## 7 3.2 Frequent 39
## 8 3.2 Occasional 43
## 9 3.2 Regular 30
## 10 3.3 Frequent 45
## # i 53 more rows
Para analizar los datos encontrados de una manera visual, crearemos un grafico de barras con la funcion ggplot
ggplot((gustos), aes(x = Usage.Frequency, y = n)) +
geom_bar(stat = "identity", Fill = "blue")+
labs(title = "La afluencia del uso de la plataforma y las calificaciones de aprobatorias",
x = "Frecuencia de uso",
y = "") +
theme_minimal()
## Warning in geom_bar(stat = "identity", Fill = "blue"): Ignoring unknown
## parameters: `Fill`
En esta gráfica podemos observar que quienes utilizan la plataforma con mayor frecuencia son quienes ponen mayor calificación a la hora de la evaluación de la pagina, y como no hay tantas diferencias entre las opciones, es posible que incluso las personas que utilizan ocasionalmente la plataforma, no tengan necesidad de reportarla por su buen funcionamiento
summary(gustos)
## Feedback.Ratings Usage.Frequency n
## Min. :3.0 Length:63 Min. :19.00
## 1st Qu.:3.5 Class :character 1st Qu.:34.00
## Median :4.0 Mode :character Median :40.00
## Mean :4.0 Mean :39.68
## 3rd Qu.:4.5 3rd Qu.:45.00
## Max. :5.0 Max. :56.00
Aquí podemos observar gracias a este breve análisis descriptivo que de un rango de calificacion de 1 a 5, el promedio de calificación es de 4.
plot(gustos$Feedback.Ratings, gustos$n)
Tengo la hipotesis de que la gente pasa mayor tiempo en la aplicación ya que es muy intuitiva y no les causa problemas, por lo que no tiene baja calificación de retroalimentación. Por lo que con la siguiente función queremos observar la correlación entre la variable y (n) y x (Feedback.Ratings). Ya que estoy tratando de demostrar que existe correlación entre el uso de la plataforma y la calificación de retroalimentación
## declarando mis variables
x <- gustos$Feedback.Ratings
y <- gustos$n
# Correlación simple entre x y
cor(x, y)
## [1] 0.03644387
## Ajuste de modelo
modelo <- lm(Feedback.Ratings ~ n, data= gustos)
summary(modelo)
##
## Call:
## lm(formula = Feedback.Ratings ~ n, data = gustos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.96472 -0.53949 0.00176 0.49403 1.05332
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 3.897691 0.367460 10.607 1.78e-15 ***
## n 0.002578 0.009052 0.285 0.777
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.615 on 61 degrees of freedom
## Multiple R-squared: 0.001328, Adjusted R-squared: -0.01504
## F-statistic: 0.08113 on 1 and 61 DF, p-value: 0.7767
El modelo concluye que existe una correlación positiva entre el uso de la plataforma (n) y la calificacion de retroalimentación (Feedback.ratings) de 0.0025
La hipótesis es correcta, el modelo indica que si incrementa el uso de la plataforma es porque no hay calificaciones malas de retroalimentación.
#install.packages("car")
library(car)
car::scatterplot(data = gustos,
Feedback.Ratings ~ n,
smooth = FALSE)