Estadística II - Evaluación 2 - Retroalimentación

Enunciado

Una gran empresa de retail tiene 400 tiendas en todo Chile. Desea probar la efectividad de una nueva campaña de marketing para aumentar las ventas en sus tiendas. Para ello realiza el siguiente estudio piloto.

Toma una muestra aleatoria de 30 tiendas, y los divide aleatoriamente en dos grupos: Tratamiento y Control. Solamente al grupo de tratamiento aplica la campaña de marketing durante un mes; al grupo de control no. Para medir los efectos de la campaña (o ausencia de), para cada tienda toma la diferencia porcentual en ventas entre el mes de la campaña versus el mes anterior.

Su archivo Excel de datos contiene dichas diferencias de ventas para ambos grupos.

En su archivo Excel de respuestas, escriba sus respuestas a las siguientes preguntas:

Calcule la diferencia media para el grupo de control.
Calcule la diferencia media para el grupo de tratamiento.
Escriba el intervalo de confianza de 95% para la diferencia media del grupo de control.
3.1 Cota inferior
3.2 Cota superior
Escriba el intervalo de confianza de 95% para la diferencia media del grupo de tratamiento.
4.1 Cota inferior
4.2 Cota superior
Escriba una interpretación (breve, de una o dos frases) de su resultado.
Escriba la diferencia entre la media del grupo tratamiento y el grupo control (Media tratamiento-Media control).
Realice una prueba t para verificar si la diferencia entre las medias de ambos grupos es estadísticamente significativa. Escriba el valor p de su prueba t.
¿Es efectiva la campaña de marketing? ¿Se puede rechazar la hipótesis nula de que no es efectiva? ¿A qué nivel de significancia convencional: 10%, 5%, 1%, 0,1%? Escriba su respuesta en una o dos frases.

Solución

Pregunta 1

Se usa la fórmula Excel PROMEDIO() aplicada a la columna B: \[PROMEDIO(B:B)\]

Pregunta 2

Se usa la fórmula Excel PROMEDIO() aplicada a la columna D: \[PROMEDIO(D:D)\]

Pregunta 3

Para calcular el intervalo de confianza de 95%, se usa la siguiente fórmula: \[\varepsilon = t_{n-1, \ 2.5\%} \frac{s}{\sqrt{n}}\] donde \(\varepsilon\) es el margen de error, \(t_{n-1, \ 2.5\%}\) es el factor de fiabilidad de 2.5%, \(s\) es la desviación estándar muestral y \(n\) es el tamaño de la muestra: \(n = 15\).

En Excel, \(t_{n-1, \ 2.5\%}\) y \(s\) se calculan con las siguientes fórmulas: \[t_{n-1, \ 2.5\%} = DISTR.T.INV(0.025; 14)\]

\[s = DESV.EST(B:B)\] Luego, la cota inferior y superior están dadas por las siguientes fórmulas: \[Cota \ inferior = \bar x - \varepsilon\] \[Cota \ superior = \bar x + \varepsilon\] donde \(\bar x\) es la media del grupo de control calculada en la pregunta 1.

Pregunta 4

Se procede igual que en la pregunta 3, pero ahora para el grupo de tratamiento en la columna D.

Pregunta 5

En general, se observa que, para el grupo de control, el valor cero está incluido o muy cerca del intervalo de confianza. En cambio, para la mayoría de los conjuntos de datos, para el grupo de tratamiento, el intervalo de confianza está a la derecha del cero. Entonces, a simple vista, la diferencia entre ambos grupos parece ser estadísticamente significativa.

En el caso que el cero estuviera dentro del intervalo de confianza del grupo de tratamiento, no se puede concluir que la diferencia sea estadísticamente significativa.

Pregunta 6

La diferencia es una simple resta:

\[d = \bar x_t - \bar x_c\] donde \(\bar x_t\) es la media del grupo de tratamiento y \(\bar x_c\) es la media del grupo de control.

Pregunta 7

En los datos, se observa que, el grupo de control consiste en las tiendas 1-15, mientras que el grupo de tratamiento consiste en las tiendas 16-30. Claramente entonces, se trata de muestras independientes (no pareadas). Además, nuestra hipótesis nula es que la campaña de marketing no es efectiva, esto es, no hay diferencia significativa en las diferencias entre mes 1 y mes 0 de ventas entre los dos grupos, o sea \(d = 0\). La hipótesis alternativa es que la diferencia entre mes 1 y mes 0 del grupo de tratamiento es mayor a dicha diferencia en el grupo de control, o sea \(d > 0\): \[H_0: d \le 0\] \[H_1: d > 0\] Descartamos \(H_0: d = 0\) y \(H_1: d \ne 0\), porque si d fuera menor que cero, significaría que la campaña de marketing *redujo” las ventas, lo cual claramente es contrario al efecto deseado.

Finalmente, suponemos que las varianza de ambos grupos pueden ser distintas, puesto que no tenemos razones para suponer que puedan ser iguales, tratándose de grupos de tiendas diferentes.

Por consiguiente, corresponde una prueba t de 1 cola, para muestras independientes, y varianzas diferentes.

Se use la función Excel PRUEBA.T(): \[PRUEBA.T(B:B; D:D, 1, 3)\] La función entrega el valor p de la prueba t.

Pregunta 8

Para concluir que la campaña de marketing es efectiva, tenemos que poder rechazar la hipótesis nula a algún nivel de significancia convencional. Para ello tenemos que comparar el valor p obtenido en la pregunta 7 con una de dichos niveles de significancia. Por ejemplo, si obtenemos \(p = 0.02\), podemos rechazar \(H_0\) al nivel de significancia de 5%, pero no 1%.

En la eventualidad que hubiéramos obtenido un valor \(p > 0.1\), no podríamos rechazar la hipótesis nula a ninguna de las significancias mencionadas, y tendríamos que concluir que la campaña de marketing no fue efectiva.