Introduccion

Ejercicio:

  1. Importar la libreria “mall_customers.csv”.
  2. Identificar el problema en cuestion referente a los datos y hacer una descripcion de las estrategias que crea utiles para incrementar las utilidades o mejorar el rendimiento de los procesos al interior de la empresa en cuestion.
  3. Hacer un analisis descriptivo de las variables que crea pertinentes para la segmentacion de clientes.
  4. Utilizar las variables para crear modelos de agrupamiento(clustering) de los clientes
  1. Mostrar los resultados de la clasificacion forma grafica y realizar algunas observaciones finales sobre la posible segmentacion de los clientes.

Librerias en R

library(readr)
library(ggplot2)
library(reticulate)

Librerias de Python

# Tratamiento de data
# ==============================================================================
import numpy as np
import pandas as pd
import statsmodels.api as sm

# Gráficos
# ==============================================================================
import matplotlib.pyplot as plt
import matplotlib.font_manager
from matplotlib import style
style.use('ggplot') or plt.style.use('ggplot')

# Preprocesado y modelado
# ==============================================================================
from sklearn.decomposition import PCA
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import scale

# Configuración warnings
# ==============================================================================
import warnings
warnings.filterwarnings('ignore')

Los datos

El conjunto de datos “Mall Customers” contiene informacion sobre los clientes de un centro comercial y tiene las siguientes columnas:

data = pd.read_csv("Mall_Customers.csv")



data.info() #informacion de los data

data.isna().sum()# cuantos na hay
data = data.dropna() # borrar filas con na
data.isna().sum()

data.head(4) #primeros 4 filas

Problema

Los datos describen a la base actual de clentes de un Centro comercial el objetivo de agrupar a los clientes en segmentos con caracteristicas similares de ingresos, gastos y variables demograficas. De esta manera, se pueden dise