Ejercicio 01 : “Perfil de Compra de Jóvenes Administradores en Oeschle”

Como analista de datos de Oeschle, la cadena retail líder en moda y tecnología, has sido asignado para identificar los factores ocultos que influyen en los hábitos de compra de estudiantes de administración (tu público objetivo). Tras una encuesta a 150 alumnos, se recogieron valoraciones (escala Likert 1-5) sobre 8 variables relacionadas con su experiencia de compra. Tu misión es:

  1. Reducir la dimensionalidad de los datos mediante AFE.

  2. Identificar factores latentes que expliquen los patrones de compra.

  3. Generar insights accionables para el equipo de marketing.

Base de Datos

La base de datos “datos_oeschle.csv” contiene las siguientes variables evaluadas (1 = “Totalmente en desacuerdo”, 5 = “Totalmente de acuerdo”):

Variable Descripción
x1 “Prefiero comprar en Oeschle por su variedad de marcas”
x2 “Las promociones de Oeschle son más atractivas que las de la competencia”
x3 “La atención al cliente en tienda es excelente”
x4 “El proceso de compra online es rápido y sencillo”
x5 “Los productos de tecnología tienen buena relación calidad-precio”
x6 “La sección de moda juvenil está siempre actualizada”
x7 “Confío en la garantía de los productos electrónicos”
x8 “El programa de fidelización (Oeschle Club) me beneficia”

Objetivos del Ejercicio

  1. Validar la adecuación del AFE con: 2.0 puntos

    • Prueba de Bartlett (esfericidad).

    • Índice KMO-MSA (adecuación muestral).

  2. Determinar el número óptimo de factores. 1.0 puntos

  3. Rotar la matriz factorial (Varimax si es necesario) e interpretar los factores. 1.0 puntos

  4. Nombrar los factores según las variables agrupadas .2.0 puntos

Ejercicio 02 : Prediciendo la Lealtad de Clientes

Eres el Data Scientist de Promart, una de las mayores cadenas de mejoramiento del hogar en Perú. El departamento de Marketing te ha encargado identificar qué clientes tienen mayor probabilidad de convertirse en compradores frecuentes (leales) frente a aquellos que realizan compras esporádicas.

Para ello, aplicarás Análisis Discriminante Lineal , utilizando datos históricos de clientes. El objetivo es clasificar correctamente a los clientes y entender qué variables influyen más en su lealtad.

Para esto la base de datos se encuentra en el archivo : y contiene :

Base de Datos

Variables consideradas (7 cuantitativas + 1 categórica binaria):

Variable Descripción Tipo
Monto_Total_Compra Gasto total en los últimos 6 meses (S/) Numérica
Frecuencia_visitas Número de visitas a tienda en el último año Numérica
Ticket_promedio Monto promedio por compra (S/) Numérica
Edad Edad del cliente Numérica
Distancia_Tienda Distancia en km desde su casa a la tienda más cercana Numérica
Satisfacción_General Puntuación de satisfacción (1-10) Numérica
Productos_Comprados Número de productos distintos comprados Numérica
Cliente_Leal Target: 1 = Leal (compra frecuente), 0 = No leal Binaria

Tamaño de la base de datos: 1500 registros almacenados en el archivo “datos_promart.csv”

Objetivos del Ejercicio

  1. Realizar la prueba de validación correspondiente. 2.0 puntos

  2. Aplicar LDA para discriminar entre clientes leales y no leales. 1.0 puntos

  3. Evaluar el modelo con métricas de clasificación . 1.0 puntos

  4. Interpretar los coeficientes del discriminante lineal para identificar qué variables son más relevantes. 1.0 puntos

  5. ¿Qué tan bien predice la lealtad de nuevos clientes de Promart? Utiliza los siguientes casos inéditos para evaluar el modelo:

Tabla de Nuevos Clientes a Predecir

Monto_Total_Compra Frecuencia_Visitas Ticket_Promedio Edad Distancia_Tienda Satisfaccion_General Productos_Comprados
1350.50 10 180.25 35 5.2 8 6
850.75 4 120.50 42 15.8 5 3
2100.00 12 250.00 28 3.5 9 8
950.30 5 140.75 50 18.0 6 4

¿Cuantos clientes tienen oportunidad de ser fidelizado? 2.0 puntos

Ejercicio 03 : Optimización de la Experiencia del Cliente en Real Plaza

Real Plaza, el centro comercial más grande del Perú, busca redefinir su estrategia de fidelización para maximizar el valor de sus clientes. El equipo de marketing ha recolectado datos de 5,000 clientes frecuentes con información sobre su comportamiento de compra, preferencias y engagement digital.

Problema:
La base de datos contiene 13 variables cuantitativas, lo que dificulta identificar patrones claros para diseñar campañas efectivas.

Objetivos:

  1. Reducir la dimensionalidad mediante Análisis de Componentes Principales (PCA) para identificar las variables latentes más influyentes.

  2. Segmentar a los clientes usando Clustering Jerárquico (método Ward) basado en los componentes principales.

  3. Definir estrategias de marketing personalizadas para cada segmento identificado.

📊 Descripción de Variables

Variable Tipo Descripción Escala
Frecuencia_Compra Cuantitativa Veces que compra al mes 1-30
Gasto_Promedio Cuantitativa Gasto promedio por visita (S/) 50-1000
Ticket_Maximo Cuantitativa Ticket más alto registrado (S/) 100-2000
Dias_Ultima_Visita Cuantitativa Días desde la última visita 1-90
Visitas_Web Cuantitativa Visitas al sitio web por semana 0-30
Clicks_Email Cuantitativa Clicks en emails promocionales/mes 0-20
Tiempo_App Cuantitativa Minutos diarios en la app 0-60
Punt_Moda Cuantitativa Preferencia por moda (1-10) 1-10
Punt_Gastronomia Cuantitativa Preferencia por gastronomía (1-10) 1-10
Punt_Electronica Cuantitativa Preferencia por electrónica (1-10) 1-10
Satisfaccion Cuantitativa Nivel de satisfacción (1-10) 1-10
Reclamos Cuantitativa Número de reclamos/año 0-5
Devoluciones Cuantitativa Veces que devolvió productos/año 0-5

La base de datos la encontrarás en el archivo “realplaza_clientes.csv”

a.¿Es factible realizar un analisis de componente principales?. Justifica tu respuesta. 2.0 puntos

b. Utiliza el(los) criterio(s) para identificar la cantidad idonea de componentes. Justifica tu respuesta.1.0 puntos

c. Brinda una explicación sencilla de las características de cada componente.1.0 puntos

d. Realiza un cluster jerárquico de 4 cluster, indica la cantidad de clientes por cada cluster.1.0 puntos

e. Realiza un diagrama de cajas para comparar el gasto promedio por cada cluster y realiza un análisis de lo encontrado.2.0 puntos