library(readr)
library(ggplot2)
library(reticulate)
# Tratamiento de data
# ==============================================================================
import numpy as np
import pandas as pd
import statsmodels.api as sm
# Gráficos
# ==============================================================================
import matplotlib.pyplot as plt
import matplotlib.font_manager
from matplotlib import style
style.use('ggplot') or plt.style.use('ggplot')
# Preprocesado y modelado
# ==============================================================================
from sklearn.decomposition import PCA
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import scale
# Configuración warnings
# ==============================================================================
import warnings
warnings.filterwarnings('ignore')
El conjunto de datos “Mall Customers” contiene informacion sobre los clientes de un centro comercial y tiene las siguientes columnas:
data = pd.read_csv("Mall_Customers.csv")
data.info() #informacion de los data
data.isna().sum()# cuantos na hay
data = data.dropna() # borrar filas con na
data.isna().sum()
data.head(4) #primeros 4 filas
Los datos describen a la base actual de clentes de un Centro comercial el objetivo de agrupar a los clientes en segmentos con caracteristicas similares de ingresos, gastos y variables demograficas. De esta manera, se pueden dise