Como analista de datos de Oeschle, la cadena retail líder en moda y tecnología, has sido asignado para identificar los factores ocultos que influyen en los hábitos de compra de estudiantes de administración (tu público objetivo). Tras una encuesta a 150 alumnos, se recogieron valoraciones (escala Likert 1-5) sobre 8 variables relacionadas con su experiencia de compra. Tu misión es:
Reducir la dimensionalidad de los datos mediante AFE.
Identificar factores latentes que expliquen los patrones de compra.
Generar insights accionables para el equipo de marketing.
La base de datos “datos_oeschle.csv” contiene las siguientes variables evaluadas (1 = “Totalmente en desacuerdo”, 5 = “Totalmente de acuerdo”):
Variable | Descripción |
---|---|
x1 | “Prefiero comprar en Oeschle por su variedad de marcas” |
x2 | “Las promociones de Oeschle son más atractivas que las de la competencia” |
x3 | “La atención al cliente en tienda es excelente” |
x4 | “El proceso de compra online es rápido y sencillo” |
x5 | “Los productos de tecnología tienen buena relación calidad-precio” |
x6 | “La sección de moda juvenil está siempre actualizada” |
x7 | “Confío en la garantía de los productos electrónicos” |
x8 | “El programa de fidelización (Oeschle Club) me beneficia” |
Validar la adecuación del AFE con: 2.0 puntos
Prueba de Bartlett (esfericidad).
Índice KMO-MSA (adecuación muestral).
Determinar el número óptimo de factores. 1.0 puntos
Rotar la matriz factorial (Varimax si es necesario) e interpretar los factores. 1.0 puntos
Nombrar los factores según las variables agrupadas .2.0 puntos
Eres el Data Scientist de Promart, una de las mayores cadenas de mejoramiento del hogar en Perú. El departamento de Marketing te ha encargado identificar qué clientes tienen mayor probabilidad de convertirse en compradores frecuentes (leales) frente a aquellos que realizan compras esporádicas.
Para ello, aplicarás Análisis Discriminante Lineal , utilizando datos históricos de clientes. El objetivo es clasificar correctamente a los clientes y entender qué variables influyen más en su lealtad.
Para esto la base de datos se encuentra en el archivo : y contiene :
Variables consideradas (7 cuantitativas + 1 categórica binaria):
Variable | Descripción | Tipo |
---|---|---|
Monto_Total_Compra | Gasto total en los últimos 6 meses (S/) | Numérica |
Frecuencia_visitas | Número de visitas a tienda en el último año | Numérica |
Ticket_promedio | Monto promedio por compra (S/) | Numérica |
Edad | Edad del cliente | Numérica |
Distancia_Tienda | Distancia en km desde su casa a la tienda más cercana | Numérica |
Satisfacción_General | Puntuación de satisfacción (1-10) | Numérica |
Productos_Comprados | Número de productos distintos comprados | Numérica |
Cliente_Leal | Target: 1 = Leal (compra frecuente), 0 = No leal | Binaria |
Tamaño de la base de datos: 1500 registros almacenados en el archivo “datos_promart.csv”
Realizar la prueba de validación correspondiente. 2.0 puntos
Aplicar LDA para discriminar entre clientes leales y no leales. 1.0 puntos
Evaluar el modelo con métricas de clasificación . 1.0 puntos
Interpretar los coeficientes del discriminante lineal para identificar qué variables son más relevantes. 1.0 puntos
¿Qué tan bien predice la lealtad de nuevos clientes de Promart? Utiliza los siguientes casos inéditos para evaluar el modelo:
Monto_Total_Compra | Frecuencia_Visitas | Ticket_Promedio | Edad | Distancia_Tienda | Satisfaccion_General | Productos_Comprados |
---|---|---|---|---|---|---|
1350.50 | 10 | 180.25 | 35 | 5.2 | 8 | 6 |
850.75 | 4 | 120.50 | 42 | 15.8 | 5 | 3 |
2100.00 | 12 | 250.00 | 28 | 3.5 | 9 | 8 |
950.30 | 5 | 140.75 | 50 | 18.0 | 6 | 4 |
¿Cuantos clientes tienen oportunidad de ser fidelizado? 2.0 puntos
Real Plaza, el centro comercial más grande del Perú, busca redefinir su estrategia de fidelización para maximizar el valor de sus clientes. El equipo de marketing ha recolectado datos de 5,000 clientes frecuentes con información sobre su comportamiento de compra, preferencias y engagement digital.
Problema:
La base de datos contiene 13 variables cuantitativas,
lo que dificulta identificar patrones claros para diseñar campañas
efectivas.
Objetivos:
Reducir la dimensionalidad mediante Análisis de Componentes Principales (PCA) para identificar las variables latentes más influyentes.
Segmentar a los clientes usando Clustering Jerárquico (método Ward) basado en los componentes principales.
Definir estrategias de marketing personalizadas para cada segmento identificado.
Variable | Tipo | Descripción | Escala |
---|---|---|---|
Frecuencia_Compra | Cuantitativa | Veces que compra al mes | 1-30 |
Gasto_Promedio | Cuantitativa | Gasto promedio por visita (S/) | 50-1000 |
Ticket_Maximo | Cuantitativa | Ticket más alto registrado (S/) | 100-2000 |
Dias_Ultima_Visita | Cuantitativa | Días desde la última visita | 1-90 |
Visitas_Web | Cuantitativa | Visitas al sitio web por semana | 0-30 |
Clicks_Email | Cuantitativa | Clicks en emails promocionales/mes | 0-20 |
Tiempo_App | Cuantitativa | Minutos diarios en la app | 0-60 |
Punt_Moda | Cuantitativa | Preferencia por moda (1-10) | 1-10 |
Punt_Gastronomia | Cuantitativa | Preferencia por gastronomía (1-10) | 1-10 |
Punt_Electronica | Cuantitativa | Preferencia por electrónica (1-10) | 1-10 |
Satisfaccion | Cuantitativa | Nivel de satisfacción (1-10) | 1-10 |
Reclamos | Cuantitativa | Número de reclamos/año | 0-5 |
Devoluciones | Cuantitativa | Veces que devolvió productos/año | 0-5 |
La base de datos la encontrarás en el archivo “realplaza_clientes.csv”
a.¿Es factible realizar un analisis de componente principales?. Justifica tu respuesta. 2.0 puntos
b. Utiliza el(los) criterio(s) para identificar la cantidad idonea de componentes. Justifica tu respuesta.1.0 puntos
c. Brinda una explicación sencilla de las características de cada componente.1.0 puntos
d. Realiza un cluster jerárquico de 4 cluster, indica la cantidad de clientes por cada cluster.1.0 puntos
e. Realiza un diagrama de cajas para comparar el gasto promedio por cada cluster y realiza un análisis de lo encontrado.2.0 puntos