Introducción

Column

A continuación explicaré a grandes rasgos lo que hice.

Primero hice análisis decriptivo sobre la base de datos, analicé la composición de la base, así como las correlaciones entre las variables numéricas y calculé los cuantiles de las variables numérocas para ver si las variables están en la misma escala o no; luego utilicé gráficos de caja y Componentes Principales para ver la distribución de los datos y ver si había datos atípicos. Luego apliqué un árbol de clasificación para ver si había alguna agrupación en los datos.

Luego, apliqué los modelos de clasificación en el siguiente orden: Bagging, Random Forest, Regresión Logística y LDA, para cada uno de ellos calculé las tasas de error por grupo y globales, tanto apartentes como las tasas sobre el conjunto de prueba. Además estimé la tasa de error con métodos de resmuestreo.

Por último hice la comparación de los tres métodos para ver cuál se equivoca menos y concluir.

La media de la variable PctDiscCH es 0.027, mientras que la media de la variable PriceMM es de 2.085, casi 77 veces más que 0.027.

Column

Información de la base

La base de datos OJ contiene 1070 registros con 18 variables. Los registros son ventas de jugos de naranja, en los cuales el comprador eligió entre la marca Citrus Hill y la marca Minute Maid Orange. Las variables son mediciones de características del cliente y del producto.

Quité las variables ID y WeekofPurchase.

11 variables numéricas.

5 variables categóricas - 4 dummies y 1 con 5 niveles.

Marca	Venta
CH	653
MM	417

Descripción de variable

Variable	Descripción
Purchase	Marca del jugo(variable respuesta)MM/CH
PriceCH	Precio del jugo para la marca CH
PriceMM	Precio del jugo para la marca MM
DiscCH	Descuento para la marca CH
DiscMM	Descuento para la marca MM
SpecialCH	Especial para la marca CH
SpecialMM	Especial para la marca MM
LoyalCH	Lealtad del cliente con la marca CH
SalePriceMM	Precio final(descuento) para MM
SalePriceCH	Precio final(descuento) para CH
PriceDiff	Precio final MM menos precio final CH
Store7	Indica si la venta se hizo en Store 7
PctDiscMM	Porcentaje de descuento para MM
PctDiscCH	Porcentaje de descuento para CH
ListPriceDiff	Precio de MM menos precio de CH
STORE	Indica en cuál tienda se hizo la venta

Correlaciones

Variable	Variables Correlacionadas
PriceCH	+PriceMM +SPCH
PriceMM	+SPMM +PriceDiff
DiscCH	-SPCH +PctDiscH
DiscMM	-SPMM -PriceDiff +PctDiscMM
SPMM	+PriceDiff -PctDiscMM
SPCH	-PctDisH
PiceDiff	-PtDiscMM

Las variables PriceCH y PriceMM tienen una correlación de 0.62, ésto es interesante ya que significa que si el precio de uno cambia entonces el del otro también.

Pairs

Fig. 1 Correlaciones entre variables numéricas, rojo para la marca CH, azul para la marca MM

Datos atípicos

Column

Gráficos de caja

Pocos datos atípicos.

Fig. 2 Gráficos de caja de las variables numéricas respecto a la variable categórica, rojo para la marca CH, azul para la marca MM

Column

Boxplot

LoyalCH separa los datos. Descuento en los precios influye en la decisión de la marca vendida. Lealtad a la marca CH.

Fig. 3 Gráficos de caja para las variables DiscCH, DiscMM y LoyalCH. Rojo: CH. Azul: MM.

Componentes Principales

Fig. 4. Primeros dos componentes principales y últimos dos componentes principales. Rojo: CH. Azul: MM

Los datos no se ven separados. Transformación a variable dummy.

Árbol de Clasificación

Fig 5. Árbol de clasificación para la variable respuesta

Métodos de Clasificación

Column

Modelos ajustados.

Se ajustaron los modelos siguientes: Bagging con 15 predictores, Random Forest con 3 predictores, Regresión Logística y LDA. con Weights of Evidence.

Se escogieron 3 predictores. Hice Random Forest variando la cantidad de predictores usados en cada iteración y al usar 3 se minimizan las tasas de errores por grupo y global.

Se hizo con WOE ya que las variables son mixtas y el método solo funciona para variables numéricas.

Column

Random Forest & Bagging

Importancia de las variables. Además ya incluye método de remuestreo OOB.

Fig. 5 Importancia de las variables

Regresión Logística y LDA

Summary arroja NA´s, hay problemas de colinealidad. Con las probas estimadas si la proba es mayor que .5 entonces claifiqué en la marca MM Usando función step me quedo con las variables:

Variables
PriceCH
PriceMM
DiscCH
DiscMM
LoyalCH
PctDiscMM
STORE

Para remuetreo, tanto en Regresión Logística como en LDA uso Bootstrap y Validation Approach. La única diferencia es que en la primera uso muetreo con reemplazo y en el otro no.

Errores

Método	Error Marca CH	Error Marca MM	Error Global
Bagging Test	0.14	0.26	0.18
Random Forest Test	0.11	0.22	0.15
Test Error Reg Log	0.11	0.20	0.15
Test Error LDA	0.20	0.12	0.15

Método	Error Marca CH	Error Marca MM	Error Global
OOB-Bagging	0.17	0.28	0.21
OOB-Random Forest	0.14	0.29	0.20
Bootstrap RG	0.12	0.25	0.17
Validation Approach RG	0.12	0.24	0.17
Bootstrap LDA	0.24	0.13	0.17
Validation Approach LDA	0.24	0.13	0.17

Conclusión

Por lo tanto, queda a punto de vista de la persona que quiera clasificar, ya que si se quiere un modelo que clasifique bien a la marca CH yo utilizaría el modelo de Regresión Logística o los modelos Bagging y Random Forest , ya que éstos tienen tasas de error sobre la marca CH menor que las del modelo LDA. Sin embargo si se quiere clasificar bien a la marca MM mejor utilizaría el modelo LDA. Cabe resaltar que Random Forest y Bagging tienen tasas de error global más altas que los demás métodos.