#cargamos librerias necesarias y la base de datos ##analizamos el uso de tarjetas respecto al uso frecuente del servicio
##Introducción Usando la base de datos de usuarios de amazon analizaremos el uso de las tarjetas más ocupadas en el mercado que son American Express, Visa y Mastercard, esto respecto al regularidad o frecuencia con la que ocupan el servicio que brinda Amazon. Amazon se caracteriza por ser actualemnte una de las empresas mas grandes del mundo, lo cual hace relevante el analisis de estas variables.
datos_tarjetas <- datos_amazon%>%
group_by(Payment.Information)%>%
count("Mastercard", "Visa", "Amex")
#hipotesis Nuestra hipotesis a trabajar cae en que; de acuerdo a diferentes paginas de interes bancario y financiero nos dice que las tarjetas más utilizadas son Visa y Mastercard, por encima un poco Visa, por ende las personas que ocupan visa son los que ocupan com más frecuencia el servicio. ##GRafica de uso en usuarios Primero graficamos el uso de las tarjetas por el nivel de usuarios que hay, donde observamos que mastercard esta en primer lugar, visa en segundo y tercero Amex lo cual dentro de los 2500 totales se distribuyen medianamente parecido. También lo veremos en una tabla
datos_tarjetas
## # A tibble: 3 × 5
## # Groups: Payment.Information [3]
## Payment.Information `"Mastercard"` `"Visa"` `"Amex"` n
## <chr> <chr> <chr> <chr> <int>
## 1 Amex Mastercard Visa Amex 806
## 2 Mastercard Mastercard Visa Amex 856
## 3 Visa Mastercard Visa Amex 838
ggplot(datos_tarjetas, aes(x = Payment.Information, y= n, fill = Payment.Information))+
geom_bar(stat = "identity", color ="blue", size = 0.5)+
labs(tilte= "tarjetas utilizadas por usuarios",
x = "tarjetas usadas",
y= "usuarios") +
theme_classic()+
scale_fill_brewer(palette = "RdYlBu")
## Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
## ℹ Please use `linewidth` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.
##transfprmación de los datos Como tambien haremos un analisis de
regresion lineal, convertiremos nuestros valores caracter a numerios
para poder hallar estadisticas, tanto las tarjetas m´s utilizadas como
la frecuencia. para AMEX =1, Mastercard = 2 y Visa =3, regular = 1,
frecuente =2 y ocacional =3
data_transformada <- datos_amazon %>%
select(Payment.Information, Usage.Frequency)%>%
mutate(tarjetas_mas_utilizadas = recode_factor(Payment.Information,
"Amex" = 1,
"Mastercard"= 2,
"Visa"=3)) %>%
mutate(frecuencia_de_uso = recode_factor(Usage.Frequency,
"Regular"= 1,
"Frequent"=2,
"Occasional"= 3))
##Promedio de uso Así mismo ahora sacaremos los promedios con los que se utiliza cada tarjeta respecto a que tan frecuente se ocupa el servicio de Amazon.
data_transformada$frecuencia_de_uso <- as.numeric(data_transformada$frecuencia_de_uso)
data_transformada$tarjetas_mas_utilizadas <- as.numeric(data_transformada$tarjetas_mas_utilizadas)
promedio_de_uso <- data_transformada %>%
group_by(Payment.Information) %>%
summarise(promedio_de_frecuencia = mean(frecuencia_de_uso))
promedio_de_uso
## # A tibble: 3 × 2
## Payment.Information promedio_de_frecuencia
## <chr> <dbl>
## 1 Amex 2.03
## 2 Mastercard 2.03
## 3 Visa 1.94
Como podemos observar la que tiene un promedio menor de uso es la visa, lo cual ya es un indicador que rechaza nuestra hipotesis planteada
#Convertimos para poder hacer la regresión tomamos la tabla anterior pero con el valor numerico que le asignamos para poderlo graficar en dispersion para posteriormente crear el modelo.
promedio_de_uso2 <- data_transformada %>%
group_by(tarjetas_mas_utilizadas) %>%
summarise(promedio_de_frecuencia = mean(frecuencia_de_uso))
promedio_de_uso2
## # A tibble: 3 × 2
## tarjetas_mas_utilizadas promedio_de_frecuencia
## <dbl> <dbl>
## 1 1 2.03
## 2 2 2.03
## 3 3 1.94
#comienzo de creación del modelo Asignando cada variable primero analizamos el coeficiente de correlación entre ambas, lo cual nos dice plantea que la relación es negativa, relación 1:1, el cual nos dice que nuestro modelo no tiene mucho sentido, por ende no es tan real ni confiable. no tiene sentido estudiarlo
x <- data_transformada$frecuencia_de_uso
y <- data_transformada$tarjetas_mas_utilizadas
cor(x, y)
## [1] -0.04248102
#Modelo de regresioón Y=B0+B1∗X1+e
modelo_amazon <- lm(data_transformada$frecuencia_de_uso ~ data_transformada$tarjetas_mas_utilizadas, data = data_transformada)
summary(modelo_amazon)
##
## Call:
## lm(formula = data_transformada$frecuencia_de_uso ~ data_transformada$tarjetas_mas_utilizadas,
## data = data_transformada)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.04110 -0.95599 0.00146 0.95890 1.04401
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 2.08365 0.04345 47.956 <2e-16
## data_transformada$tarjetas_mas_utilizadas -0.04255 0.02002 -2.125 0.0337
##
## (Intercept) ***
## data_transformada$tarjetas_mas_utilizadas *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.8117 on 2498 degrees of freedom
## Multiple R-squared: 0.001805, Adjusted R-squared: 0.001405
## F-statistic: 4.516 on 1 and 2498 DF, p-value: 0.03367
Como vemos el valor de la pendiente es 2.00 aproximadamente, lo cual nos dice que si hay un incremento de cliente o usuario es más probable que sea con tarjeta mastercard y si no lo hay, los que mas predominen sean los mismos de mastercard.
plot(promedio_de_uso2$tarjetas_mas_utilizadas,
promedio_de_uso2$promedio_de_frecuencia)
car::scatterplot(promedio_de_uso2$tarjetas_mas_utilizadas~
promedio_de_uso2$promedio_de_frecuencia,
smooth = FALSE)
#conclusioón Como se pudo observar el modelo de regresión y las
estadistticas rechazaron nuestra hipotesis, sin embargo ralemnte este
modelo no es que sea tan real ni fiable de estudiar, la correlación es
casi inexistente pero negativa o inversamente proporcional respecto que
entre más se ocupe ocacionalemte tiende a ser más de la tarjeta Visa, el
modelo quizas pueda ser arreglado con un ARIMA y ajuste de residuos,
ademas de agregar más variables al mismo.