TAREA 1 - MODELOS LINEALES 1
Caso: Banco Atlántida
Se tiene datos sobre una entidad bancaria. El gerente del banco desea saber qué estrategias aplicar para que no solo los clientes adquieran sus servicios de tarjetas de crédito adicionales, sino que también no abandonen este servicio. Para tal fin se ha recolectado datos de 252 clientes que cuentan con el servicio, el conjunto de datos ha sido segmentada en grupos según la Categoría de ingresos que tienen los clientes (Income_Category). (Link del conjunto de datos)
A continuación, se presenta la descripción de las variables en estudio:
Customer_Age: Edad del cliente (en años).
Gender: Género del cliente (F/M).
Education_Level: Nivel de educación del cliente (College/Doctorate/Graduate/High School/Post- Graduate/Uneducated).
Marital_Status: Estado civil del cliente (Divorced/Married/Single/Unknown).
Income_Category: Categoría de ingresos anuales de los clientes (Less than $40K/$40K - $60K/$60K - $80K).
Card_Category: Categoría de tarjeta de crédito del cliente (Blue/Gold/Silver).
Months_on_book: Periodo de relación con el banco.
Total_Relationship_Count: Número total de productos en poder del cliente.
Credit_Limit: Línea de crédito abierta para comprar (promedio de los últimos 12 meses en miles de dólares).
Total_Revolving_Bal: Saldo rotatorio total en la tarjeta de crédito (en miles de dólares).
Avg_Open_To_Buy: Crédito abierto promedio para comprar (en miles de dólares).
Total_Trans_Ct: Recuento total de transacciones (últimos 12 meses).
## 'data.frame': 252 obs. of 12 variables:
## $ Customer_Age : int 39 40 46 56 50 62 41 50 38 49 ...
## $ Gender : Factor w/ 2 levels "F","M": 1 2 1 1 1 1 1 1 1 1 ...
## $ Education_Level : Factor w/ 7 levels "College","Doctorate",..: 3 3 4 6 3 7 3 3 7 3 ...
## $ Marital_Status : Factor w/ 4 levels "Divorced","Married",..: 3 3 3 3 2 3 2 2 2 1 ...
## $ Income_Category : Factor w/ 3 levels "$40K - $60K",..: 3 1 3 3 3 3 3 3 1 1 ...
## $ Card_Category : Factor w/ 3 levels "Blue","Gold",..: 1 1 1 1 1 1 1 1 1 1 ...
## $ Months_on_book : int 26 36 36 46 38 55 36 40 36 30 ...
## $ Total_Relationship_Count: int 3 3 1 4 2 6 2 3 3 1 ...
## $ Credit_Limit : num 1876 6033 3759 2258 9546 ...
## $ Total_Revolving_Bal : int 1536 0 0 0 960 2517 0 2065 0 1648 ...
## $ Avg_Open_To_Buy : num 340 6033 3759 2258 8586 ...
## $ Total_Trans_Ct : int 47 74 106 72 111 63 78 47 85 71 ...
Prueba para el vector de medias con matriz de varianza-covarianza conocida
Prueba de Hipótesis
\(H_0\) : \(\mu\) = \(\mu_0\)
\(H_1\): \(\mu\) \(\neq\) \(\mu_0\)
Estadístico de Prueba
\(T = n( \bar{x} - \mu_0)'\Sigma^{-1}(\bar{x} - \mu_0) \sim X^2_p\)
Se rechaza \(H_0\) si \(T> X^2_{1- \alpha ,p}\) , por lo tanto el p-value = 1 - \(P(X^2_p,T)\)
Consideramos de la data: CreditCard Las variables:
- Months_on_book: Periodo de relación con el banco.
- Total_Trans_Ct: Recuento total de transacciones (últimos 12 meses).
## [,1] [,2]
## [1,] 63.0 1.1
## [2,] 1.1 550.0
## Months_on_book Total_Trans_Ct
## 36.08333 64.68651
# Aplicando la Prueba de matriz de varianza-covarianza:
T <- n*t(meanx-mu0)%*%solve(sigma)%*%(meanx-mu0) ; T
## [,1]
## [1,] 14.25378
## [1] 5.991465
## [,1]
## [1,] 0.0008032132
Prueba para el vector de medias con matriz de varianza-covarianza desconocida
Si la matriz de covarianza es desconocida el estadístico de prueba es:
\(T = \frac{n-p}{p}( \bar{x} - \mu_0)'\Sigma^{-1}(\bar{x} - \mu_0) \sim F_{p,n-p}\)
Se rechaza \(H_0\) si \(T > F_{1- \alpha ,p,n-p}\) , por lo tanto el p-value = 1 - \(P(F_{p,n-p},T)\)
Una variante es
\(T^2 = n( \bar{x} - \mu_0)'\Sigma^{-1}(\bar{x} - \mu_0) \sim \left ( \frac{n-p}{p} \right )F_{p,n-p}\)
Se rechaza \(H_0\) si \(T^2 > \left ( \frac{n-p}{p} \right )F_{p,n-p}\)
Consideramos de la data: CreditCard Las variables:
- Total_Relationship_Count: Número total de productos en poder del cliente.
- Total_Revolving_Bal: Saldo rotatorio total en la tarjeta de crédito (en miles de dólares).
- Total_Trans_Ct: Recuento total de transacciones (últimos 12 meses).
La prueba de Hotellings
##
## Hotelling's one sample T2-test
##
## data: CreditCard1
## T.2 = 17.663, df = 3, p-value = 0.0005162
## alternative hypothesis: true location is not equal to c(3.3,1120.5,62.8)
Conclusión: Dado que el p-value (0.0005162) es menor que 0.05, se concluye que hay suficiente evidencia para rechazar la hipótesis nula a favor de la alternativa. Es decir, a un nivel de significancia del 0.05, la media poblacional no es igual a \(\mu_0\). En otras palabras el promedio de Productos en poder del cliente no es igual a 3.3, el Saldo rotatorio promedio en la tarjeta de crédito (en miles de dólares) no es igual a 1120.5 y el Recuento promedio de transacciones no es igual a 62.8.
Prueba de Hotelling: Comparar dos categorías de ingresos anuales de clientes
Prueba de Hipótesis
\(H_0\) : \(\mu_1\) = \(\mu_2\)
\(H_1\): \(\mu_1\) \(\neq\) \(\mu_2\)
La gerencia desea probar si la media de: la Edad del cliente, el Periodo de relación con el banco, el Número total de productos en poder del cliente, Saldo rotatorio total en la tarjeta de crédito y el Recuento total de transacciones de los clientes con es diferente al de los clientes con , con un nivel de significación de 0.05.
#1 *Customer_Age:* Edad del cliente (en años)
#7 *Months_on_book:* Periodo de relación con el banco.
#8 *Total_Relationship_Count:* Número total de productos en poder del cliente.
#10 *Total_Revolving_Bal:* Saldo rotatorio total en la tarjeta de crédito.
#12 *Total_Trans_Ct:* Recuento total de transacciones (últimos 12 meses).
CreditCard[CreditCard$Income_Category =='$40K - $60K',c(1,7,8,10,12)]->
CreditCard40and60
CreditCard[CreditCard$Income_Category =='$60K - $80K',c(1,7,8,10,12)]->
CreditCard60and80
print(hotelling.test(CreditCard40and60,CreditCard60and80))
## Test stat: 7.5223
## Numerator df: 5
## Denominator df: 114
## P-value: 0.2107
# 2da forma:
print(hotelling.test(CreditCard$Customer_Age +
CreditCard$Months_on_book +
CreditCard$Total_Relationship_Count +
CreditCard$Total_Revolving_Bal+
CreditCard$Total_Trans_Ct ~ CreditCard$Income_Category,
data = CreditCard, perm = F))
## Test stat: 7.5223
## Numerator df: 5
## Denominator df: 114
## P-value: 0.2107
Como el p-value = 0.2107 > \(\alpha\) = 0.05, entonces No se rechaza H0.
Existe suficiente evidencia estadística estadística para No rechazar H0 cuando el nivel de significación es 0.05. Por lo tanto No se puede afirmar que el promedio de: Edad del cliente, el Periodo de relación con el banco, el Número total de productos en poder del cliente, Saldo rotatorio total en la tarjeta de crédito y el Recuento total de transacciones de los clientes con ingresos menores a $40K - $60K es diferente al de los clientes con ingresos de $60K - $80K
Normalidad Multivariada
Prueba de Mardia: Para las Categoría de ingresos anuales de los clientes
mvn(CreditCard40and60,subset = NULL,mvn = "mardia",
covariance = FALSE,showOutliers = FALSE)$multivariateNormality
## Test Statistic p value Result
## 1 Mardia Skewness 30.6135466362625 0.679853814680942 YES
## 2 Mardia Kurtosis -2.4797995787475 0.0131456249526376 NO
## 3 MVN <NA> <NA> NO
mvn(CreditCard60and80,subset = NULL,mvn = "mardia",
covariance = FALSE,showOutliers = FALSE)$multivariateNormality
## Test Statistic p value Result
## 1 Mardia Skewness 39.4459215621318 0.277795298090789 YES
## 2 Mardia Kurtosis -1.77106194730371 0.0765504009664704 YES
## 3 MVN <NA> <NA> YES
mardia <- mvn(data = CreditCard[c(1,7,8,10,12, 5)], subset="Income_Category",
mvnTest = "mardia", multivariatePlot = "qq",
multivariateOutlierMethod = "adj",
showOutliers = T, showNewData = T)
Nueva base de datos:
## Customer_Age Months_on_book Total_Relationship_Count Total_Revolving_Bal
## 1 39 26 3 1536
## 2 40 36 3 0
## 3 46 36 1 0
## 4 56 46 4 0
## 5 50 38 2 960
## 6 62 55 6 2517
## Total_Trans_Ct
## 1 47
## 2 74
## 3 106
## 4 72
## 5 111
## 6 63
Prueba de Mardia
## Test Statistic p value Result
## 1 Mardia Skewness 29.9979653129258 0.708223396052756 YES
## 2 Mardia Kurtosis -2.12175903044568 0.0338579786923245 NO
## 3 MVN <NA> <NA> NO
Prueba de Henze-Zirkler
## Test HZ p value MVN
## 1 Henze-Zirkler 1.284676 1.833521e-07 NO
Prueba de Royston’s
## Test H p value MVN
## 1 Royston 114.2999 3.091191e-23 NO
Prueba de Shapiro Wilk Generalizada
\(H_0:\) Los datos siguen una distribución normal p-variada
\(H_1:\) Los datos no siguen una distribución normal p-variada
##
## Generalized Shapiro-Wilk test for Multivariate Normality by
## Villasenor-Alva and Gonzalez-Estrada
##
## data: as.matrix(CreditCard2)
## MVW = 0.96603, p-value < 2.2e-16
Decisión: Pvalue (2.2e-16) <= alfa (0.05), se rechaza la hipótesis nula.
Conclusión: Existe suficiente evidencia estadística para rechazar la hipótesis nula. La prueba aplicada para probar normalidad multivariante indica que no se cumple que las variables siguen una distribución normal pentavariada.
Universidad Nacional Agraria La Molina, 20200339@lamolina.edu.pe↩︎