Proyecto Final

Amazon prime es una compañia de streaming que lidera el mercado, por lo que es importante analizar datos para entender sus problemas y así mejorarlos. Por lo que en este proyecto nos enfocaremos en encontrar la relación que existe entre la frecuencia con que utilizan la plataforma y las calificaciones que brindan los ususuarios, con el fin de evaluar si existe un correcto funcionamiento de Amazon Prime.

Primero debemos instalar y llamar librerias

library(dplyr)
## 
## Adjuntando el paquete: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
library(ggplot2)
## Warning: package 'ggplot2' was built under R version 4.4.1
library(car)
## Warning: package 'car' was built under R version 4.4.1
## Cargando paquete requerido: carData
## Warning: package 'carData' was built under R version 4.4.1
## 
## Adjuntando el paquete: 'car'
## The following object is masked from 'package:dplyr':
## 
##     recode

Para poder trabajar, necesitamos fijar un directorio donde encontraremos todos los datos a ocupar

setwd("C:/Users/Mildred/Downloads/Proyecto")

Cargar la base a utilizar, así como las librerias dplyr, ggplot2, car, entre otras que se vayan necesitando

amazon <- read.csv("C:/Users/Mildred/Downloads/Proyecto/data_amazon.csv")

Construcción de la base de datos

Como tenemos datos de 2500 personas, solo necesitaremos dos variables para evaluar la calidad del manejo de la página.

gustos <- amazon %>% select(Feedback.Ratings, Usage.Frequency) %>%
  group_by(Feedback.Ratings, Usage.Frequency) %>%
  count(Usage.Frequency)
print(gustos)
## # A tibble: 63 x 3
## # Groups:   Feedback.Ratings, Usage.Frequency [63]
##    Feedback.Ratings Usage.Frequency     n
##               <dbl> <chr>           <int>
##  1              3   Frequent           21
##  2              3   Occasional         26
##  3              3   Regular            24
##  4              3.1 Frequent           48
##  5              3.1 Occasional         54
##  6              3.1 Regular            41
##  7              3.2 Frequent           39
##  8              3.2 Occasional         43
##  9              3.2 Regular            30
## 10              3.3 Frequent           45
## # i 53 more rows

Grafico utilizando ggplot2

Para analizar los datos encontrados de una manera visual, crearemos un grafico de barras con la funcion ggplot

ggplot((gustos), aes(x = Usage.Frequency, y = n)) +
  geom_bar(stat = "identity", Fill = "blue")+
  labs(title = "La afluencia del uso de la plataforma y las calificaciones de aprobatorias",
       x = "Frecuencia de uso",
       y = "") +
  theme_minimal()
## Warning in geom_bar(stat = "identity", Fill = "blue"): Ignoring unknown
## parameters: `Fill`

En esta gráfica podemos observar que quienes utilizan la plataforma con mayor frecuencia son quienes ponen mayor calificación a la hora de la evaluación de la pagina, y como no hay tantas diferencias entre las opciones, es posible que incluso las personas que utilizan ocasionalmente la plataforma, no tengan necesidad de reportarla por su buen funcionamiento

Análisis Exploratorio de Datos

summary(gustos)
##  Feedback.Ratings Usage.Frequency          n        
##  Min.   :3.0      Length:63          Min.   :19.00  
##  1st Qu.:3.5      Class :character   1st Qu.:34.00  
##  Median :4.0      Mode  :character   Median :40.00  
##  Mean   :4.0                         Mean   :39.68  
##  3rd Qu.:4.5                         3rd Qu.:45.00  
##  Max.   :5.0                         Max.   :56.00

Aquí podemos observar gracias a este breve análisis descriptivo que de un rango de calificacion de 1 a 5, el promedio de calificación es de 4.

Gráfico sencillo

plot(gustos$Feedback.Ratings, gustos$n)

Modelo de Regresion lineal

Tengo la hipotesis de que la gente pasa mayor tiempo en la aplicación ya que es muy intuitiva y no les causa problemas, por lo que no tiene baja calificación de retroalimentación. Por lo que con la siguiente función queremos observar la correlación entre la variable y (n) y x (Feedback.Ratings). Ya que estoy tratando de demostrar que existe correlación entre el uso de la plataforma y la calificación de retroalimentación

## declarando mis variables
x <- gustos$Feedback.Ratings
y <- gustos$n

# Correlación simple entre x y
cor(x, y)
## [1] 0.03644387
## Ajuste de modelo
modelo <- lm(Feedback.Ratings ~ n, data= gustos)
summary(modelo)
## 
## Call:
## lm(formula = Feedback.Ratings ~ n, data = gustos)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.96472 -0.53949  0.00176  0.49403  1.05332 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 3.897691   0.367460  10.607 1.78e-15 ***
## n           0.002578   0.009052   0.285    0.777    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.615 on 61 degrees of freedom
## Multiple R-squared:  0.001328,   Adjusted R-squared:  -0.01504 
## F-statistic: 0.08113 on 1 and 61 DF,  p-value: 0.7767

El modelo concluye que existe una correlación positiva entre el uso de la plataforma (n) y la calificacion de retroalimentación (Feedback.ratings) de 0.0025

La hipótesis es correcta, el modelo indica que si incrementa el uso de la plataforma es porque no hay calificaciones malas de retroalimentación.

#install.packages("car")
library(car) 
car::scatterplot(data = gustos,
            Feedback.Ratings ~ n,
            smooth = FALSE)