#cargamos librerias necesarias y la base de datos ##analizamos el uso de tarjetas respecto al uso frecuente del servicio

##Introducción Usando la base de datos de usuarios de amazon analizaremos el uso de las tarjetas más ocupadas en el mercado que son American Express, Visa y Mastercard, esto respecto al regularidad o frecuencia con la que ocupan el servicio que brinda Amazon. Amazon se caracteriza por ser actualemnte una de las empresas mas grandes del mundo, lo cual hace relevante el analisis de estas variables.

datos_tarjetas <- datos_amazon%>%
  group_by(Payment.Information)%>%
  count("Mastercard", "Visa", "Amex")

#hipotesis Nuestra hipotesis a trabajar cae en que; de acuerdo a diferentes paginas de interes bancario y financiero nos dice que las tarjetas más utilizadas son Visa y Mastercard, por encima un poco Visa, por ende las personas que ocupan visa son los que ocupan com más frecuencia el servicio. ##GRafica de uso en usuarios Primero graficamos el uso de las tarjetas por el nivel de usuarios que hay, donde observamos que mastercard esta en primer lugar, visa en segundo y tercero Amex lo cual dentro de los 2500 totales se distribuyen medianamente parecido. También lo veremos en una tabla

datos_tarjetas
## # A tibble: 3 × 5
## # Groups:   Payment.Information [3]
##   Payment.Information `"Mastercard"` `"Visa"` `"Amex"`     n
##   <chr>               <chr>          <chr>    <chr>    <int>
## 1 Amex                Mastercard     Visa     Amex       806
## 2 Mastercard          Mastercard     Visa     Amex       856
## 3 Visa                Mastercard     Visa     Amex       838
ggplot(datos_tarjetas, aes(x = Payment.Information, y= n, fill = Payment.Information))+ 
  geom_bar(stat = "identity", color ="blue", size = 0.5)+
  labs(tilte= "tarjetas utilizadas por usuarios",
       x = "tarjetas usadas",
       y= "usuarios") +
  theme_classic()+
  scale_fill_brewer(palette = "RdYlBu")
## Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
## ℹ Please use `linewidth` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.

##transfprmación de los datos Como tambien haremos un analisis de regresion lineal, convertiremos nuestros valores caracter a numerios para poder hallar estadisticas, tanto las tarjetas m´s utilizadas como la frecuencia. para AMEX =1, Mastercard = 2 y Visa =3, regular = 1, frecuente =2 y ocacional =3

data_transformada <- datos_amazon %>% 
  select(Payment.Information, Usage.Frequency)%>%
  mutate(tarjetas_mas_utilizadas = recode_factor(Payment.Information,
                                          "Amex" = 1,
                                          "Mastercard"= 2,
                                          "Visa"=3)) %>%
  mutate(frecuencia_de_uso = recode_factor(Usage.Frequency,
         "Regular"= 1,
         "Frequent"=2,
         "Occasional"= 3))

##Promedio de uso Así mismo ahora sacaremos los promedios con los que se utiliza cada tarjeta respecto a que tan frecuente se ocupa el servicio de Amazon.

data_transformada$frecuencia_de_uso <- as.numeric(data_transformada$frecuencia_de_uso)
data_transformada$tarjetas_mas_utilizadas <- as.numeric(data_transformada$tarjetas_mas_utilizadas)
promedio_de_uso <- data_transformada %>%
  group_by(Payment.Information) %>%
  summarise(promedio_de_frecuencia = mean(frecuencia_de_uso))

promedio_de_uso
## # A tibble: 3 × 2
##   Payment.Information promedio_de_frecuencia
##   <chr>                                <dbl>
## 1 Amex                                  2.03
## 2 Mastercard                            2.03
## 3 Visa                                  1.94

Como podemos observar la que tiene un promedio menor de uso es la visa, lo cual ya es un indicador que rechaza nuestra hipotesis planteada

#Convertimos para poder hacer la regresión tomamos la tabla anterior pero con el valor numerico que le asignamos para poderlo graficar en dispersion para posteriormente crear el modelo.

promedio_de_uso2 <- data_transformada %>%
  group_by(tarjetas_mas_utilizadas) %>%
  summarise(promedio_de_frecuencia = mean(frecuencia_de_uso))
promedio_de_uso2
## # A tibble: 3 × 2
##   tarjetas_mas_utilizadas promedio_de_frecuencia
##                     <dbl>                  <dbl>
## 1                       1                   2.03
## 2                       2                   2.03
## 3                       3                   1.94

#comienzo de creación del modelo Asignando cada variable primero analizamos el coeficiente de correlación entre ambas, lo cual nos dice plantea que la relación es negativa, relación 1:1, el cual nos dice que nuestro modelo no tiene mucho sentido, por ende no es tan real ni confiable. no tiene sentido estudiarlo

x <- data_transformada$frecuencia_de_uso
y <- data_transformada$tarjetas_mas_utilizadas
cor(x, y)
## [1] -0.04248102

#Modelo de regresioón Y=B0+B1∗X1+e

modelo_amazon <- lm(data_transformada$frecuencia_de_uso ~ data_transformada$tarjetas_mas_utilizadas, data = data_transformada)
summary(modelo_amazon)
## 
## Call:
## lm(formula = data_transformada$frecuencia_de_uso ~ data_transformada$tarjetas_mas_utilizadas, 
##     data = data_transformada)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1.04110 -0.95599  0.00146  0.95890  1.04401 
## 
## Coefficients:
##                                           Estimate Std. Error t value Pr(>|t|)
## (Intercept)                                2.08365    0.04345  47.956   <2e-16
## data_transformada$tarjetas_mas_utilizadas -0.04255    0.02002  -2.125   0.0337
##                                              
## (Intercept)                               ***
## data_transformada$tarjetas_mas_utilizadas *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.8117 on 2498 degrees of freedom
## Multiple R-squared:  0.001805,   Adjusted R-squared:  0.001405 
## F-statistic: 4.516 on 1 and 2498 DF,  p-value: 0.03367

Como vemos el valor de la pendiente es 2.00 aproximadamente, lo cual nos dice que si hay un incremento de cliente o usuario es más probable que sea con tarjeta mastercard y si no lo hay, los que mas predominen sean los mismos de mastercard.

plot(promedio_de_uso2$tarjetas_mas_utilizadas, 
     promedio_de_uso2$promedio_de_frecuencia)

car::scatterplot(promedio_de_uso2$tarjetas_mas_utilizadas~
     promedio_de_uso2$promedio_de_frecuencia,
     smooth = FALSE)

#conclusioón Como se pudo observar el modelo de regresión y las estadistticas rechazaron nuestra hipotesis, sin embargo ralemnte este modelo no es que sea tan real ni fiable de estudiar, la correlación es casi inexistente pero negativa o inversamente proporcional respecto que entre más se ocupe ocacionalemte tiende a ser más de la tarjeta Visa, el modelo quizas pueda ser arreglado con un ARIMA y ajuste de residuos, ademas de agregar más variables al mismo.