Problema6

1 Problema 6: Prueba de hipótesis e intervalo de confianza

1.1 Contexto - Objetivos Planteados

Identificar y describir las características demográficas y comportamentales de los clientes que aceptaron y rechazaron la oferta del nuevo dispositivo.

Segmentar la base de clientes en grupos homogéneos utilizando técnicas de análisis de datos, con el fin de reconocer perfiles con mayor y menor propensión de compra.

Evaluar la relación entre las variables de los clientes y la probabilidad de aceptación del producto, como insumo para la construcción de un modelo predictivo de la campaña de marketing directo.

Variables que involucran el analisis de

##  [1] "Income"               "Kidhome"              "Teenhome"            
##  [4] "Recency"              "MntWines"             "MntFruits"           
##  [7] "MntMeatProducts"      "MntFishProducts"      "MntSweetProducts"    
## [10] "MntGoldProds"         "NumDealsPurchases"    "NumWebPurchases"     
## [13] "NumCatalogPurchases"  "NumStorePurchases"    "NumWebVisitsMonth"   
## [16] "AcceptedCmp3"         "AcceptedCmp4"         "AcceptedCmp5"        
## [19] "AcceptedCmp1"         "AcceptedCmp2"         "Complain"            
## [22] "Response"             "Age"                  "Customer_Days"       
## [25] "marital_Divorced"     "marital_Married"      "marital_Single"      
## [28] "marital_Together"     "marital_Widow"        "education_2n_Cycle"  
## [31] "education_Basic"      "education_Graduation" "education_Master"    
## [34] "education_PhD"        "MntTotal"             "MntRegularProds"     
## [37] "AcceptedCmpOverall"

# Convertir la variable de respuesta a factor (categoría).
datos$Response <- as.factor(datos$Response)

1.1.1 OBJETIVO 1: Comparación de Ingresos según Aceptación de Oferta

1.1.1.1 Características demográficas y comportamentales

Pregunta de investigación 1: ¿Existe una diferencia significativa en el ingreso económico promedio entre los clientes que aceptaron la oferta del nuevo dispositivo y los que la rechazaron?

Prueba de Hipótesis: * Prueba t de Student para dos muestras independientes (o prueba t de Welch si las varianzas son distintas).

Hipótesis Nula (H0): El ingreso promedio de los que aceptan es igual al ingreso promedio de los que rechazan.

Hipótesis Alternativa (H1): Existe una diferencia significativa entre ambos promedios.

Intervalo de Confianza (IC): * Se calculará un IC del 95% para la diferencia de medias. Si este intervalo no contiene el cero, confirmaremos que la diferencia es estadísticamente significativa y sabremos hacia qué lado se inclina el perfil del comprador.

# Exploración inicial: Promedio de ingresos por grupo de respuesta
# Promedio de Income según Response
aggregate(Income ~ Response, data = datos, FUN = mean, na.rm = TRUE)

1.1.1.2 VERIFICACIÓN DE SUPUESTOS

# --- SUPUESTO 1: Normalidad ---
#--- Prueba de Normalidad (Shapiro-Wilk) ---
shapiro.test(ingresos_acepto)

## 
##  Shapiro-Wilk normality test
## 
## data:  ingresos_acepto
## W = 0.95674, p-value = 3.316e-08

shapiro.test(ingresos_rechazo)

## 
##  Shapiro-Wilk normality test
## 
## data:  ingresos_rechazo
## W = 0.9851, p-value = 7.62e-13

Evaluación del Supuesto de Normalidad:

Para determinar si el ingreso anual (Income) sigue una distribución normal dentro de cada grupo, se aplicó la prueba estadística de Shapiro-Wilk.

En el grupo de clientes que aceptaron la oferta, se obtuvo un estadístico $W = 0.956$ con un $p\text{-value} < 0.001$ ($3.31 \times 10^{-8}$).

En el grupo de clientes que rechazaron la oferta, se obtuvo un estadístico $W = 0.985$ con un $p\text{-value} < 0.001$ ($7.62 \times 10^{-13}$).

Decisión metodológica:

Para ambos casos el valor p es estrictamente menor al nivel de significancia del $0.05$, se rechaza la hipótesis nula. Esto indica que los ingresos en ambos grupos no provienen de una distribución normal (generalmente presentan asimetría hacia la derecha, común en variables monetarias).Sin embargo, dado que el tamaño de la muestra es considerablemente grande (muy superior a $n = 30$ por grupo), nos amparamos en el Teorema del Límite Central. Este teorema nos garantiza que la distribución de las medias muestrales tiende a la normalidad, permitiéndonos proceder de manera segura, robusta y válida con el uso de métodos paramétricos (como la Prueba T de Student o la T de Welch) para comparar los promedios.

Puesto que en ambos grupos el p-value obtenido es menor que 𝛼=0.05 α=0.05, se rechaza la hipótesis nula, concluyéndose que los datos no provienen de una distribución normal. Este resultado es consistente con el comportamiento habitual de las variables de ingreso, que suelen mostrar distribuciones asimétricas hacia la derecha.

Sin embargo, dado que el tamaño de muestra en ambos grupos es amplio, puede aplicarse el Teorema del Límite Central, según el cual la distribución de las medias muestrales se aproxima a la normalidad a medida que aumenta el tamaño muestral. Por ello, el incumplimiento de la normalidad en los datos originales no impide realizar inferencia mediante pruebas paramétricas, siendo apropiado emplear procedimientos como la t de Student o la t de Welch para comparar los promedios poblacionales.

## 
##  F test to compare two variances
## 
## data:  Income by Response
## F = 0.73303, num df = 1826, denom df = 324, p-value = 0.0001484
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
##  0.6170263 0.8622691
## sample estimates:
## ratio of variances 
##          0.7330336

Evaluación del Supuesto de Homocedasticidad: Para comprobar la igualdad de varianzas entre los ingresos de los clientes que aceptaron la campaña y los que la rechazaron, se aplicó la prueba F de Fisher (var.test).

El resultado arrojó un estadístico $F = 0.733$ con un $p\text{-value} < 0.001$ ($0.0001484$). Al ser el valor p menor a $0.05$, se rechaza la hipótesis nula de igualdad de varianzas, confirmando la presencia de heterocedasticidad.

Debido al incumplimiento de este supuesto, la comparación de medias no se realizará con la Prueba T de Student tradicional, sino empleando la Prueba T de Welch, la cual es robusta ante varianzas desiguales y garantiza la validez de los resultados estadísticos obtenidos.

## ---> Las varianzas son DIFERENTES. Usando T de Welch:

## 
##  Welch Two Sample t-test
## 
## data:  Income by Response
## t = -7.277, df = 412.76, p-value = 1.735e-12
## alternative hypothesis: true difference in means between group 0 and group 1 is not equal to 0
## 95 percent confidence interval:
##  -126452.36  -72664.73
## sample estimates:
## mean in group 0 mean in group 1 
##        501500.0        601058.6

Análisis mediante Prueba de Hipótesis: Para responder a la pregunta de investigación sobre las características demográficas, se evaluó si existía una diferencia estadísticamente significativa en el ingreso medio (Income) entre los clientes que rechazaron la oferta (Grupo 0) y los que la aceptaron (Grupo 1).

Al aplicar la Prueba T de Welch (dada la heterocedasticidad previa), se obtuvo un estadístico de prueba $t = -7.277$ con un $p\text{-value} < 0.001$ ($1.735 \times 10^{-12}$). Puesto que el valor p es estrictamente menor que nuestro nivel de significancia del 0.05, se rechaza la hipótesis nula. Se concluye que existe una diferencia estadísticamente significativa en los ingresos entre ambos grupos de clientes.

Estimación mediante Intervalos de Confianza: Las estimaciones puntuales muestran que el ingreso promedio de quienes rechazaron la campaña es de $501,500.0 anuales, mientras que el de quienes aceptaron asciende a $601,058.6 anuales.

El intervalo de confianza al 95% arrojado por la prueba es de [-126452.36, -72664.73]. Dado que el cálculo se realiza restando el Grupo 1 al Grupo 0, los valores negativos confirman la superioridad del segundo grupo. En términos de negocio, es decir, Con un 95% de nivel de confianza, podemos afirmar que los clientes que aceptan la campaña tienen un ingreso promedio que supera al de los que la rechazan por un monto de entre $72,664.73 y $126,452.36 adicionales al año.

Conclusión del Perfil Demográfico: El poder adquisitivo es un factor fuertemente determinante en la propensión de compra. El perfil demográfico del cliente con mayor probabilidad de aceptar el nuevo dispositivo corresponde al de personas con ingresos sustancialmente más altos (superiores a los 600 mil). Esto es un hallazgo clave para dirigir los esfuerzos de la campaña de marketing directo.

1.1.2 OBJETIVO 2: Propensión sujeto al segmento.

1.1.2.1 Segmento basado en la variable ¨Kidhome¨.

Pregunta de investigación 2: ¿Existe una diferencia estadísticamente significativa en la propensión de compra (tasa de aceptación de la campaña) entre el segmento de clientes que tienen niños en el hogar y el segmento de clientes que no tienen niños?

Prueba de Hipótesis: Prueba Z para diferencia de proporciones (implementada mediante la prueba prop.test).

Hipótesis Nula (H0): La proporción de clientes que aceptan la oferta es igual en el segmento con niños y en el segmento sin niños (el factor de tener niños no influye en la decisión de compra).

Hipótesis Alternativa (H1): Existe una diferencia significativa en la proporción de aceptación entre ambos segmentos.

Intervalo de Confianza (IC): Se calculará un IC del 95% para la diferencia de proporciones. Si este intervalo no contiene el cero, confirmaremos que la diferencia es estadísticamente significativa y sabremos exactamente cuál de los dos perfiles tiene mayor propensión de compra (y por qué margen porcentual).

# Crear el segmento basado en la variable Kidhome
# Si tiene más de 0 niños, es "Con ninos", de lo contrario "Sin ninos"
datos$Segmento_Ninos <- ifelse(datos$Kidhome > 0, "Con ninos", "Sin ninos")

# Crear una tabla cruzada para ver cuantos aceptaron y rechazaron por segmento
tabla_segmentos <- table(datos$Segmento_Ninos, datos$Response)
cat("--- Tabla de Frecuencias Reales ---")

## --- Tabla de Frecuencias Reales ---

print(tabla_segmentos)

##            
##                0    1
##   Con ninos  822  112
##   Sin ninos 1064  222

# Calcular el porcentaje de aceptacion de cada segmento
cat("--- Proporciones de Aceptacion (1 = Porcentaje que acepto) ---")

## --- Proporciones de Aceptacion (1 = Porcentaje que acepto) ---

proporciones <- prop.table(tabla_segmentos, margin = 1)
print(proporciones)

##            
##                     0         1
##   Con ninos 0.8800857 0.1199143
##   Sin ninos 0.8273717 0.1726283

Verificación de Supuestos

prueba_chi <- chisq.test(tabla_segmentos)
cat("--- Verificacion de Supuesto: Frecuencias Esperadas (> 10) ---")

## --- Verificacion de Supuesto: Frecuencias Esperadas (> 10) ---

print(prueba_chi$expected)

##            
##                     0        1
##   Con ninos  793.4793 140.5207
##   Sin ninos 1092.5207 193.4793

Para garantizar la validez de la prueba de proporciones, se verificó el supuesto de tamaño muestral adecuado mediante el cálculo de las frecuencias esperadas (basado en la prueba de Chi-cuadrado). Los resultados mostraron que la frecuencia esperada más baja fue de 140.5 (muy superior al mínimo requerido de 10). Por lo tanto, el supuesto se cumple satisfactoriamente y los resultados de la prueba Z son completamente válidos.

PRUEBA DE HIPOTESIS E INTERVALOS DE CONFIANZA

# Extraemos la cantidad de personas que aceptaron (Response = 1) y el total por segmento
exitos <- tabla_segmentos[, "1"]
totales <- rowSums(tabla_segmentos)
cat("--- Prueba de Diferencia de Proporciones (Z-test) ---")

## --- Prueba de Diferencia de Proporciones (Z-test) ---

# Aplicamos la prueba de proporciones al 95% de confianza
prueba_final_obj2 <- prop.test(x = exitos, n = totales, conf.level = 0.95)
print(prueba_final_obj2)

## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  exitos out of totales
## X-squared = 11.354, df = 1, p-value = 0.0007529
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.08297581 -0.02245210
## sample estimates:
##    prop 1    prop 2 
## 0.1199143 0.1726283

Para responder a la pregunta de investigación, se evaluó si existía una diferencia significativa en la propensión de compra entre el segmento “Con niños” y el segmento “Sin niños”.Al aplicar la prueba de igualdad de proporciones de dos muestras (prop.test), se obtuvo un estadístico $X^2 = 11.354$ con un $p\text{-value} < 0.001$ ($0.0007529$). Puesto que este valor p es estrictamente menor al nivel de significancia de 0.05, se rechaza la hipótesis nula. Se concluye que sí existe una diferencia estadísticamente significativa en la tasa de aceptación de la campaña entre ambos segmentos.

Las estimaciones puntuales de la muestra (sample estimates) revelan que la tasa de aceptación en los hogares “Con niños” fue del 11.99%, mientras que en los hogares “Sin niños” alcanzó un 17.26%.

El intervalo de confianza al 95% arrojado es de [-0.0829, -0.0224]. El signo negativo se debe a que R restó el grupo “Sin niños” al grupo “Con niños”. En términos prácticos, esto significa que: Con un 95% de confianza, podemos afirmar que la propensión de compra en el segmento “Sin niños” es superior a la del segmento “Con niños” por un margen de entre 2.25 y 8.30 puntos porcentuales.

Conclusión de Segmentación (Perfilamiento de Propensión): El análisis de datos nos permite perfilar a los clientes sin hijos en casa como el segmento con mayor propensión de compra. La ausencia de niños parece liberar presupuesto o cambiar las prioridades de consumo a favor del nuevo dispositivo. Para la campaña de marketing directo, se recomienda priorizar la inversión publicitaria en este segmento (“Sin niños”) para maximizar el retorno de inversión (ROI), o bien, diseñar una oferta totalmente distinta que logre penetrar en la barrera de entrada que presentan los hogares con niños

1.1.3 OBJETIVO 3: Variable susceptible de resultado de modelo.

1.1.3.1 Analisis de la variable ¨Recency¨ en la efectividad del modelo.

Pregunta de Investigación 3: ¿Existe una relación significativa entre la ‘Recency’ (días desde la última compra) y la probabilidad de que un cliente acepte la nueva campaña de marketing?

Prueba de Hipótesis: Regresión Logística Simple (Prueba de Wald para el coeficiente).

Hipótesis Nula (H0): La recencia no tiene ningún efecto sobre la probabilidad de aceptar la oferta (el coeficiente es igual a 0).

Hipótesis Alternativa (H1): La recencia tiene un efecto significativo sobre la probabilidad de aceptar la oferta.

Intervalo de Confianza: Se calculará un IC del 95% para el Odds Ratio (Razón de probabilidades).

1.1.3.2 Evaluacion para Modelo Predictivo (Regresion Logistica)

1.1.3.3 Variable predictora: Recency (Dias desde la ultima compra)

# Asegurarnos de que Response sea numerica (0 y 1) para el modelo logistico
datos$Response_Num <- as.numeric(as.character(datos$Response))

# VERIFICACION DE SUPUESTOS
# Para la regresion logistica, los supuestos principales son:
# - Variable dependiente binaria: Se cumple (Response es 0 o 1).
# - Independencia de observaciones: Se asume que cada cliente es unico.
# - Tamano de muestra grande: Se cumple (tenemos mas de 2000 registros).

# 3. Construccion del modelo predictivo rapido
modelo_logistico <- glm(Response_Num ~ Recency, data = datos, family = "binomial")

cat("--- Resumen del Modelo Predictivo (Prueba de Hipotesis) ---")

## --- Resumen del Modelo Predictivo (Prueba de Hipotesis) ---

print(summary(modelo_logistico))

## 
## Call:
## glm(formula = Response_Num ~ Recency, family = "binomial", data = datos)
## 
## Coefficients:
##              Estimate Std. Error z value Pr(>|z|)    
## (Intercept) -0.852790   0.103873  -8.210   <2e-16 ***
## Recency     -0.020339   0.002239  -9.083   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 1880.3  on 2219  degrees of freedom
## Residual deviance: 1790.4  on 2218  degrees of freedom
## AIC: 1794.4
## 
## Number of Fisher Scoring iterations: 5

Análisis mediante Prueba de Hipótesis (Regresión Logística):Para evaluar la relación entre las variables de los clientes y la probabilidad de aceptación del producto (insumo para el modelo predictivo), se construyó un modelo de Regresión Logística utilizando la variable Recency (días transcurridos desde la última compra) como predictor principal.Al evaluar el coeficiente de la variable mediante la prueba de Wald (estadístico Z), se obtuvo un valor $Z = -9.083$ con un $p\text{-value} < 0.001$ ($< 2 \times 10^{-16}$). Dado que el valor p es estrictamente menor al nivel de significancia del 0.05, se rechaza tajantemente la hipótesis nula. Se concluye que existe una relación estadísticamente significativa entre los días que han pasado desde la última compra y la probabilidad de que el cliente acepte la nueva campaña.

# Calculo de Intervalos de Confianza y Odds Ratios (OR)
# El exponente de los coeficientes nos da el "Odds Ratio", que es muy facil de interpretar.
cat("--- Odds Ratios e Intervalos de Confianza al 95% ---")

## --- Odds Ratios e Intervalos de Confianza al 95% ---

intervalos_or <- exp(cbind(OR = coef(modelo_logistico), confint(modelo_logistico)))

## Waiting for profiling to be done...

print(intervalos_or)

##                    OR     2.5 %    97.5 %
## (Intercept) 0.4262243 0.3469942 0.5214952
## Recency     0.9798664 0.9755225 0.9841282

El intervalo de confianza al 95% para este Odds Ratio es de [0.9755 , 0.9841]. Como este intervalo no contiene el valor 1 (el punto de “no efecto”), ratificamos estadísticamente que la disminución en la probabilidad es real y significativa. Con un 95% de confianza, podemos asegurar que la caída en la probabilidad de aceptación por cada día de inactividad oscila entre el 1.6% y el 2.4%.