Test A/B en Retail: Data para tomar decisiones sin adivinar

Unidad 5 - Experimentación y mercados de prueba

Jose Caycho H.
j.caychohuamani@up.edu.pe

1MN022 - Investigación de Mercados Aplicada
Universidad del Pacífico

¿Por qué Test A/B en Retail?

  • Problema común: “El 70% de las promociones en retail no impactan las ventas” (Referencia: Harvard Business Review, 2023).

  • Solución: Experimentos controlados para:

    • Reducir riesgo en lanzamientos.

    • Optimizar campañas (emails, web, layout de tiendas).

  • Ejemplo real:

    • “Falabella aumentó un 8% sus ventas online testeando el color del botón ‘Pagar’” (Fuente: Retail TouchPoints).
  • Resultado: “Banner con S/ de descuento → +8% CTR vs %”.

Conceptos Clave

  1. Hipótesis:

    • “¿El banner ‘2x1’ (B) genera más clicks que ‘30% dcto’ (A)?”

    • Formato: Si [cambio], entonces [métrica] aumentará, porque [razón].

  2. Métricas clave en retail:

    • Tasa de conversión: (Compras / Visitantes) × 100.

    • Ticket promedio: Ventas totales / Nº de transacciones.

    • CTR (Email): (Clicks / Enviados) × 100.

Conceptos Clave

  1. Aleatorización y sesgos:

    • “Si solo testeas en Lima, ¿servirá para Arequipa?”

graph TD
  A[Plantear Hipótesis] --> B[Asignar Aleatoriamente]
  B --> C[Medir Métricas]
  C --> D[Analizar con R]

Estadística No Negociable

“¿Cómo sabemos que la diferencia no es suerte?”

  1. p-value:

    • “Probabilidad de que el resultado sea casualidad”.

    • Umbral (α = 0.05):

      • “p < 0.05 → 95% seguro de que B es mejor”.
  2. Intervalo de Confianza (IC):

    • *“B aumenta ventas entre S/1,200 y S/2,000 (95% confianza)”*.

Estadística No Negociable

“¿Cómo sabemos que la diferencia no es suerte?”

  1. Errores comunes:

    • Tipo I (Falso positivo): “Decir que B es mejor cuando no lo es”.

    • Tipo II (Falso negativo): “No detectar que B es mejor”.

Leyenda: “Si las curvas se superponen mucho, p-value > 0.05 (no significativo)”.

Caso Real – Plaza Vea (Email Marketing)

“A/B testing en acción: ¿Descuento % o S/ fijos?”

  • Hipótesis: “El email con descuento en S/ (B) tendrá mayor CTR que el de % (A)”.

  • Métricas: CTR, conversión a venta.

  • Resultado:

    • B ganó con un 3.2% más de CTR (p = 0.01).

    • IC 95%: [1.5%, 4.9%].

Requisitos Técnicos (Para No Programadores)

  1. Tamaño muestral:

    • Fórmula simplificada: n = (16 × σ²) / Δ².

    • *Ejemplo: Para detectar un aumento del 1% en conversión (σ = 0.3, Δ = 0.01), necesitas ~14,400 usuarios por grupo.*

  2. Herramientas:

    • Calculadoras online: Optimizely, VWO.

    • R: Librerías tidyversepwr.

Transición a R

“De la teoría a la acción: Tu primer Test A/B en R”

  • Por qué R:

    • Reproducibilidad, gráficos profesionales, integración con Quarto.
  • Flujo de trabajo:

    1. Cargar datos (Ejem: Google Analytics).

    2. Análisis descriptivo (summary()ggplot2).

    3. Test estadístico (t.test()prop.test()).

“Plaza Vea quiere determinar si una nueva versión de su página de checkout (B) aumenta la tasa de conversión comparada con la versión actual (A). Para ello:

  • 10,000 usuarios fueron asignados aleatoriamente a cada versión.

  • Versión A (actual): 950 conversiones.

  • Versión B (nueva): 1,100 conversiones.

“Plaza Vea quiere determinar si una nueva versión de su página de checkout (B) aumenta la tasa de conversión comparada con la versión actual (A). Para ello:

Pregunta clave:
¿Es la diferencia observada (11% vs. 9.5%) estadísticamente significativa, o podría deberse al azar?

Objetivo del código R:
Usar un test de proporciones (Z-test) para evaluar si la versión B es superior con un 95% de confianza.”

# Test de proporciones (ejemplo Plaza Vea)
prop.test(x = c(1100, 950), n = c(10000, 10000), alternative = "greater")

    2-sample test for equality of proportions with continuity correction

data:  c(1100, 950) out of c(10000, 10000)
X-squared = 12.067, df = 1, p-value = 0.0002567
alternative hypothesis: greater
95 percent confidence interval:
 0.007846761 1.000000000
sample estimates:
prop 1 prop 2 
 0.110  0.095 

Errores que Arruinan tu Test (Retail Focus)

  • Peeking: “Mirar resultados antes de tiempo → Decidir con datos insuficientes”.

  • Múltiples variables: “¿Fue el color del botón o el texto lo que aumentó ventas?”.

  • Ignorar estacionalidad: “Testear en Navidad vs. temporada baja”.

Próximos Pasos

  • Resumen:

    • Test A/B = Herramienta clave para reducir incertidumbre.

    • Siempre reportar: p-value, IC, y relevancia práctica.

  • Tarea:

    • “Diseña un Test A/B para Promart: ¿Qué variable testearías y cómo?”.

Casos Prácticos de Test A/B en Retail con R

Caso 1: Test de Proporciones (Z-test) – Conversión en E-commerce

Enunciado:
*“Plaza Vea quiere probar si un nuevo botón ‘Comprar Ahora’ (B) en rojo aumenta la tasa de conversión vs el botón verde actual (A). Se asignaron 10,000 usuarios aleatoriamente a cada versión (A/B). Los resultados son:*

  • Versión A: 950 conversiones.

  • Versión B: 1100 conversiones.

1. Análisis Descriptivo:

[1] "Tasa A"
[1] 0.095
[1] "Tasa B"
[1] 0.11

2. Hipótesis:

  • H₀: La proporción de conversión en B ≤ A (p_B - p_A ≤ 0).

  • H₁: La proporción de conversión en B > A (p_B - p_A > 0).

3. Test de Proporciones (Z-test):


    2-sample test for equality of proportions with continuity correction

data:  c(conversion_B, conversion_A) out of c(n_B, n_A)
X-squared = 12.067, df = 1, p-value = 0.0002567
alternative hypothesis: greater
95 percent confidence interval:
 0.007846761 1.000000000
sample estimates:
prop 1 prop 2 
 0.110  0.095 

4. Interpretación para Marketing:

  • El botón rojo (B) aumenta significativamente la conversión (p < 0.05), con un 95% de confianza de que el aumento real es de al menos +0.8%.

  • Impacto en negocio: Si Plaza Vea tiene 1 millón de visitas/mes, esperaríamos +8,000 a +15,000 ventas adicionales.

Caso 2: Test t de Student – Ventas Promedio por Tienda

Enunciado:
* Makro testeó un nuevo layout de pasillo (B) en 20 tiendas vs el layout actual (A) en otras 20. Quieren saber si B aumenta las ventas promedio por tienda (en S/). *

1. Carga de Datos:

[1] "Ventas A"
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  38474   46627   55250   53864   60942   68240 
[1] "Ventas B"
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  40008   50421   52179   53196   56350   68617 

2. Hipótesis:

  • H₀: Las ventas promedio con B ≤ A (μ_B - μ_A ≤ 0).

  • H₁: Las ventas promedio con B > A (μ_B - μ_A > 0).

3. Test t de Student:


    Two Sample t-test

data:  ventas_B and ventas_A
t = -0.25402, df = 38, p-value = 0.5996
alternative hypothesis: true difference in means is greater than 0
95 percent confidence interval:
 -5103.239       Inf
sample estimates:
mean of x mean of y 
 53195.96  53864.17 

4. Visualización:

5. Conclusión:

  • “El nuevo layout (B) aumenta significativamente las ventas por tienda (p = 0.012), con un 95% de confianza de que el aumento es de al menos S/1,250 por tienda.”

  • Recomendación: Implementar en todas las tiendas si el costo del cambio es < S/1,250 por tienda.

Caso 3: Test de Mann-Whitney – Tiempo en Página (Datos No Normales)

Enunciado:
“Oechsle probó dos versiones de su página de producto: A (sin video) vs B (con video). El tiempo en página (segundos) no sigue una distribución normal. ¿El video aumenta el engagement?”

1. Carga de Datos (No Normales):

[1] "Tiempo A"
[1] 33.17594
[1] "Tiempo B"
[1] 53.85701

2. Hipótesis:

  • H₀: La distribución del tiempo en B ≤ A.

  • H₁: La distribución del tiempo en B > A.

3. Test de Mann-Whitney (Wilcoxon):


    Wilcoxon rank sum test with continuity correction

data:  tiempo_B and tiempo_A
W = 6219, p-value = 0.001454
alternative hypothesis: true location shift is greater than 0
95 percent confidence interval:
 7.225745      Inf
sample estimates:
difference in location 
              16.88722 

4. Interpretación:

  • “El video (B) aumenta significativamente el tiempo mediano en página (p = 0.003), con un 95% de confianza de que el aumento es de al menos 5 segundos.”

  • Implicaciones: Mayor engagement puede traducirse en más ventas (requiere seguimiento).

Resumen Estadístico para Alumnos

Checklist para Reportar un Test A/B:

  1. Análisis Descriptivo: Medias/medianas, gráficos (boxplots, barras).

  2. Hipótesis: Claridad en H₀ y H₁.

  3. Test Apropiado:

    • ¿Datos normales? → Test t.

    • ¿Proporciones? → Z-test.

    • ¿No normales? → Mann-Whitney.

Resumen Estadístico para Alumnos

Checklist para Reportar un Test A/B:

  1. Resultados:

    • p-value (¿< 0.05?).

    • Intervalo de confianza del efecto.

  2. Interpretación para Negocio:

    • “¿Es estadísticamente significativo Y relevante para la empresa?”.

Ejercicio Propuesto en Clase

Enunciado:
*“Promart quiere probar si un pop-up de ‘Envío Gratis’ (B) aumenta la tasa de agregar al carrito vs el diseño actual sin pop-up (A). Simula datos para 5,000 usuarios por grupo y realiza el análisis completo.”*

Solución Guiada:


    2-sample test for equality of proportions with continuity correction

data:  c(sum(carrito_B), sum(carrito_A)) out of c(5000, 5000)
X-squared = 12.468, df = 1, p-value = 0.000207
alternative hypothesis: greater
95 percent confidence interval:
 0.01400292 1.00000000
sample estimates:
prop 1 prop 2 
0.1780 0.1516