Lectura de datos

DMark <- read.csv("MarketingDirecto.csv", stringsAsFactors=TRUE)
Ejoven <- DMark[DMark$Edad == "Joven",]
head(Ejoven)

a) Halle el vector de medias

colMeans(Ejoven[,c(6,7,9,10)])
##      Salario        Hijos    Catalogos        Monto 
## 27715.679443     1.055749    13.024390   558.623693

En promedio, el numero de catalogos enviados a los clientes de edad joven es de 13.024 catalogos.

b) Halle el vector de medias según la Ubicación del negocio.

Ulejos <- Ejoven[Ejoven$Ubicacion == "Lejos",]
colMeans(Ulejos[,c(6,7,9,10)])
##      Salario        Hijos    Catalogos        Monto 
## 26487.777778     1.055556    14.200000   688.988889
UCerca <- Ejoven[Ejoven$Ubicacion == "Cerca",]
colMeans(UCerca[,c(6,7,9,10)])
##      Salario        Hijos    Catalogos        Monto 
## 28276.649746     1.055838    12.487310   499.065990

Para los clientes jovenes que viven lejos, el promedio de catalogos enviados es 14.20, en comparacion a los clientes jovenes que viven cerca, el promedio de catalogos enviados es de 12.487 catalogos. El numero de catalogos enviados a los clientes en edad joven difiere segun su cercania o lejania en 1.712690, es decir a proximadamente 2.

c) Estandarice las variables

EstEjoven<-scale(Ejoven[,c(6,7,9,10)])
head(EstEjoven)
##       Salario       Hijos  Catalogos      Monto
## 3  -0.8512697 -0.99948181  0.7689439 -0.5834190
## 6   0.1607437 -0.99948181 -1.0855679 -0.1413401
## 11  0.9571802 -0.05277792 -0.1583120  0.8183486
## 21 -0.8033637  0.89392597 -1.0855679 -0.8100122
## 22  1.3224632 -0.99948181 -0.1583120  0.5961984
## 24  0.9452037 -0.05277792 -0.1583120  0.5539899

La estandarización de variables implica ajustar sus escalas para que todas tengan un impacto equitativo en el análisis, lo cual es clave cuando estas provienen de distintas unidades de medida. Este proceso elimina sesgos y mejora la comparabilidad, haciendo que los datos sean más consistentes y manejables en análisis estadístico.

d) Halle la matriz de varianza- covarianza, su traza y determinante.

Matriz de covarianza

options(scipen=999)
S<-round(cov(Ejoven[,c(6,7,9,10)]),3)
S
##                 Salario    Hijos Catalogos       Monto
## Salario   278869438.610 -962.765  2738.427 5072347.529
## Hijos          -962.765    1.116    -0.834    -112.108
## Catalogos      2738.427   -0.834    41.870    1197.093
## Monto       5072347.529 -112.108  1197.093  202631.375

La covarianza negativa entre el numero de hijos de los clientes de edad joven y el numero de catalogos enviados indica una relacion inversa, es decir, el numero de catologos enviados a los clientes de edad joven, disminuye o aunmenta en relacion inversa al numero de hijos.

Traza

trS<-sum(diag(S))
trS
## [1] 279072113

La traza de la matriz(la suma de las varianzas), resulta en 279072113. Un valor más alto de traza sugiere una dispersión más amplia de los datos en las variables analizadas.

Determinante

det(S)
## [1] 949145735501744

Con un determinante de matriz de 949145735501744, se deduce que las variables Salario, Hijos, Catálogos y Monto mantienen una independencia significativa entre ellas en el conjunto de datos de clientes jóvenes.

e) Halle los autovalores y autovectores para la matriz hallada en la parte d)

Autovalores

eigenvalues <- eigen(S)
eigenvalues$values
## [1] 278961735.929004    110346.096341        29.914929         1.030726

La variable Salario destaca como la principal contribuyente a explicar la variabilidad en los datos de los jóvenes;las variables restantes, como Hijos, Catálogos y Montos, también influyen en la variabilidad, aunque su impacto es considerablemente menor.

Autovectores

autovectors <- eigenvalues$vectors
autovectors
##                 [,1]          [,2]          [,3]           [,4]
## [1,]  0.999834490776 -0.0181922720 -0.0001792236 -0.00001312221
## [2,] -0.000003457984 -0.0008571041 -0.0055056749  0.99998447633
## [3,]  0.000009892945  0.0103986244 -0.9999308263 -0.00549646665
## [4,]  0.018193156521  0.9997800634  0.0103922113  0.00091420881
sum(eigenvalues$values)  #traza
## [1] 279072113
prod(eigenvalues$values) #determinante 
## [1] 949145735534650

La primera componente principal se caracteriza por la variabilidad predominante en Salario, lo cual se alinea con su autovalor correspondiente. Las componentes subsecuentes ilustran la contribución de las otras variables a diversas dimensiones de variabilidad en los datos, con Hijos destacando en la segunda componente, Catálogos en la tercera y Montos en la cuarta.

f) Realice los gráficos de dispersión, correlación, caras de Chernoff y de estrellas y brinde la interpretación necesaria.

Gráfico de dispersión

pairs(Ejoven[,c(6,7,9,10)])

library(PerformanceAnalytics)
## Loading required package: xts
## Loading required package: zoo
## 
## Attaching package: 'zoo'
## The following objects are masked from 'package:base':
## 
##     as.Date, as.Date.numeric
## 
## Attaching package: 'PerformanceAnalytics'
## The following object is masked from 'package:graphics':
## 
##     legend

La relación entre las variables Salario y Monto observamos lo que parece ser una correlación positiva. En el diagrama de dispersión donde los puntos tienden a ascender a medida que nos movemos de izquierda a derecha a lo largo del eje de los salarios. Este patrón indica que existe una tendencia entre los participantes de este estudio: los individuos con mayores ingresos tienden a incurrir en montos de gasto superiores en comparación con aquellos con ingresos menores.

Gráfico de Correlación

library(corrplot)
## corrplot 0.92 loaded
corr<-cor(Ejoven[,c(6,7,9,10)])
corrplot(corr,method="circle")

library(psych)
cor.plot(corr,  main="Mapa de Calor", diag=TRUE,  
         show.legend = TRUE)

Salario y Monto tienen una correlación positiva fuerte, sugerida por un círculo azul grande, lo que implica que a medida que el salario aumenta, también lo hace el monto gastado.

Caras de Chernoff

library(aplpack)
faces(Ejoven[1:20,c(6,7,9,10)])
## effect of variables:
##  modified item       Var        
##  "height of face   " "Salario"  
##  "width of face    " "Hijos"    
##  "structure of face" "Catalogos"
##  "height of mouth  " "Monto"    
##  "width of mouth   " "Salario"  
##  "smiling          " "Hijos"    
##  "height of eyes   " "Catalogos"
##  "width of eyes    " "Monto"    
##  "height of hair   " "Salario"  
##  "width of hair   "  "Hijos"    
##  "style of hair   "  "Catalogos"
##  "height of nose  "  "Monto"    
##  "width of nose   "  "Salario"  
##  "width of ear    "  "Hijos"    
##  "height of ear   "  "Catalogos"
faces(Ejoven[1:20,c(6,7,9,10)], face.type = 1, main = "Caras de Chernoff", 
      print.info = 0, nrow.plot = 4, ncol.plot = 5)

Al observar las caras de chernoff podemos notar que una cara con una altura grande y orejas altas indicaría un alto salario y muchos catálogos recibidos. Mientras que una sonrisa grande junto con una cara ancha podría sugerir que la persona tiene muchos hijos.

Gráfico de Estrellas

stars(Ejoven[1:20,c(6,7,9,10)], key.loc=c(-2,12), lwd=1)

El gráfico de estrellas muestra la distribución de las variables Salario, Hijos, Catálogos y Monto para distintos clientes jóvenes en el estudio de marketing directo. Cada punto en el gráfico representa un cliente, con las líneas extendiéndose hacia afuera en diferentes direcciones según el valor de cada variable. Observaciones como las de los índices 48 y 66 muestran perfiles similares, indicando patrones de gasto y comportamiento de compra comparables. Por ejemplo, la observación 22 muestra un equilibrio entre el salario y el gasto total, junto con una cantidad menor de catálogos recibidos, lo que podría indicar una eficiencia en la conversión de catálogos en compras.

En conclusión, el gráfico de estrellas revela diferencias y similitudes en los perfiles de gasto y comportamiento de compra de los clientes jóvenes. Mientras que la variable salario muestra una variación significativa, las otras variables (Hijos, Catálogos, Monto) no presentan diferencias tan marcadas, sugiriendo que el salario es un factor determinante en el patrón de gasto de los clientes jóvenes.