El análisis multivariado se refiere a un conjunto de técnicas y métodos estadísticos utilizados para analizar conjuntos de datos que involucran múltiples variables. A diferencia del análisis univariado, que se centra en el estudio de una sola variable a la vez, el análisis multivariado busca comprender las relaciones y patrones entre múltiples variables simultáneamente. Puede abordar diferentes objetivos, como la descripción de la estructura de los datos, la identificación de patrones ocultos, la exploración de las relaciones entre variables, la predicción de valores futuros o la clasificación de observaciones en grupos. En el presente trabajo se pretende aplicar técnicas de estadística multivariada para resolver los problemas relacionados a la empresa HATCO que se plantearán a continuación.
Se proporcionaron 14 variables de diferentes tipos clasificadas en 3 grupos: Percepción de HATCO, Resultados de la Compra y Características del Comprador.
Cantidad de tiempo que toma entregar el producto una vez que el pedido ha sido confirmado.
Nivel de precios cobrado por los proveedores
Disponibilidad de los representantes de HATCO a negociar los precios
Imagen global del fabricante o proveedor
Percepción global del servicio necesario para mantener una relación satisfactoria entre el proveedor y el comprador
Percepción global con relación a los vendedores de HATCO
Percepción del nivel de calidad de un producto específico.
Proporción del producto total que tiene el comprador que es comprado de HATCO; Rango 0 – 100
Satisfacción del cliente con relación a sus últimas compras. (se utiliza la misma escala que X1 – X7).
Tamaño de la empresa relativo a las otras en el mercado. (1=grande; 0=pequeña)
Nivel en al cual un comprador particular evalúa cada compra por separado (análisis del valor total) versus el uso de compra por especificación (detalla específicamente las características del producto a comprar). Categorías (1= análisis del valor total; 0= análisis de compra por especificación)
Método de búsqueda/compra de productos en una compañía particular. La variable tiene dos categorías (1 = búsqueda centralizada, 0 = búsqueda descentralizada)
Tipo de empresa compradora ( 1 = industria tipo A; 0 = otro tipo de empresa)
(1 = nueva compra, 2 = modificación de compra, 3 = nueva compra directa)
Se quiere determinar la percepción sobre la empresa HATCO (X1 – X7), intentando determinar si es posible reducir el conjunto de variables.
Para representar la percepción de la empresa HATCO, con un grupo de variables de menor dimensionalidad, me apoyaré en el análisis de componentes principales o PCA por sus siglas en inglés.
A grandes rasgos, esta técnica de análisis multivariado busca reducir el número de variables mediante la creación de nuevas, llamadas componentes principales, que son combinaciones lineales de las primeras.
Antes de aplicar el algoritmo de PCA, es necesario verificar que el estadístico global de KMO>.6 para la validez del análisis.
## Kaiser-Meyer-Olkin factor adequacy
## Call: KMO(r = percep)
## Overall MSA = 0.45
## MSA for each item =
## x1 x2 x3 x4 x5 x6 x7
## 0.34 0.33 0.91 0.56 0.29 0.55 0.93
Como el estadístico no cumple la condición, será necesario eliminar alguna(s) variables para completar el PCA.
rowSums(round(cor(percep),2))
## x1 x2 x3 x4 x5 x6 x7
## 1.42 1.60 0.49 2.49 2.67 2.45 0.86
De la matriz de correlaciones, se puede ver que las variables X4, X5 y X6 son las más altamente correlacionadas por lo que podría prescindirse de alguna de ellas, principalmente X5.
Para encontrar el subconjunto óptimo de variables que deberían conservarse, realicé una simulación de todos los posibles, en donde de entre todos los que tenían un MSA>.6 los que conservaban más variables eran:
## VARS KMO NVARS
## 1: c(1, 2, 3, 4, 6, 7) 0.6645657 6
## 2: c(1, 2, 3, 4, 7) 0.7282054 5
## 3: c(1, 2, 3, 6, 7) 0.7256343 5
En efecto, en los 3 modelos se omite la variable X5 y, X4 y X6 en solo en uno respectivamente.
Los modelos entregan los siguientes gráficos de proporción de varianza:
Modelo 1:
Modelo 2:
Modelo 3:
Como el primer subconjunto (X1,X2,X3,X4,X6,X7) conserva más variables (solo omite la variable X5 que además es la de mayor correlación) y con 2 componentes alcanza un 70.88% de varianza, este será el utilizado en la reducción de dimensionalidad.
El nuevo conjunto bidimensional de variables para medir la percepción de la empresa de cada observación, estará dado por:
## PC1 PC2
## [1,] -1.369265 0.3840340
## [2,] 2.569867 -0.8734380
## [3,] 2.491926 0.2275507
## [4,] 0.267186 0.3443248
## [5,] -1.273561 -4.2570372
(Solo se muestran los componentes para las primeras 5 observaciones).
Se desea explorar la imagen y competitividad de HATCO, investigando la percepción que tiene HATCO y sus nueve competidores principales.
Para comparar a HATCO con sus 9 competidoras principales, me apoyaré en la siguiente matriz de similitudes.
## HATCO A B C D E F G H I
## HATCO 0.00 6.61 5.94 2.33 2.56 4.06 2.50 2.33 2.44 6.17
## A 6.61 0.00 5.39 2.61 2.56 2.39 3.50 2.39 4.94 6.94
## B 5.94 5.39 0.00 3.44 4.11 2.17 4.00 3.72 6.61 2.83
## C 2.33 2.61 3.44 0.00 6.94 4.06 2.22 2.67 2.50 2.50
## D 2.56 2.56 4.11 6.94 0.00 2.39 2.17 2.61 7.06 2.50
## E 4.06 2.39 2.17 4.06 2.39 0.00 4.06 3.67 5.61 3.50
## F 2.50 3.50 4.00 2.22 2.17 4.06 0.00 2.28 2.83 6.94
## G 2.33 2.39 3.72 2.67 2.61 3.67 2.28 0.00 2.56 2.44
## H 2.44 4.94 6.61 2.50 7.06 5.61 2.83 2.56 0.00 2.39
## I 6.17 6.94 2.83 2.50 2.50 3.50 6.94 2.44 2.39 0.00
La técnica de EMD, utiliza la matriz anterior para representar en un plano bidimensional o tridimensional las relaciones que esta incluye, conservandolas lo mejor posible.
Como se puede notar en ambos mapas, las empresas que se encuentran más cercanas a HATCO son G, F y G.
Al ser la imagen y competitividad dos variables latentes, es decir, que no pueden ser medidas directamente, es necesario utilizar herramientas como el análisis factorial, que basado en la estructura de correlación que tienen las variables, crea nuevas llamados factores que componen a las observadas y pueden ser interpretadas según sea el caso.
Para aplicar la técnica, se suponen 2 factores basados en la cantidad de componentes que obtuvimos en el PCA, a partir de la omisión de X5 de las primeras 7 variables.
##
## Loadings:
## Factor1 Factor2
## x1 -0.696 0.134
## x2 0.621 0.214
## x3 -0.722
## x4 0.111 0.936
## x6 0.837
## x7 0.673 0.144
##
## Factor1 Factor2
## SS loadings 1.858 1.663
## Proportion Var 0.310 0.277
## Cumulative Var 0.310 0.587
Por los valores obtenidos y gracias a la descripción de las variables observadas, una posible interpretación del primer factor es la ‘Competitividad’ ya que afecta en mayor magnitud a las variables X1,X2,X3 y X7 que representan Velocidad de entrega, Nivel de precios, Flexibilidad de precios y Calidad del producto, respectivamente. El segundo se puede entender como la ‘Imagen’ de la empresa ya que, contribuye en mayor medida a la construcción de las variables X4 y X6 que son la Imagen del fabricante y de los vendedores.
Además, para formular estrategias atractivas para los clientes, se busca segmentar a los mismos en grupos de individuos que tienen percepciones similares con relación a la empresa.
En primer lugar, será necesario descubir cual es el número de grupos idóneo para separar a los individuos/compradores, para esto implementaré la función NbClust, que realiza un conjunto de Test con dicho objetivo.
Como se puede apreciar en la gráfica anterior, la mayoría de las pruebas propone un k=3 grupos para segmentar en conglomerados.
Uno de los principales algoritmos para creación de conglomerados es el conocido como k-medias que, a partir de un número de grupos k previamente definido, hace una partición de las observaciones optimizando las distancias entre ellas con el objetivo de que los elementos de dichos grupos sean similares entre sí.
Aplicando el algoritmo y gracias a una función que reduce la dimensionalidad para apreciar la partición visualmente, se puede observar que los grupos son suficientemente disjuntos y homogéneos.
Como se puede ver en la gráfica, el cluster con una mayor proporción de individuos, es el número 3.
Gracias a las técnicas estudiadas de análisis multivariantes se resolvieron los 3 problemas:
A partir de 6 de las 7 variables disponibles (X5 no se incluyó) relacionadas a la percepción de los compradores se crearon 2 nuevas Componentes Principales que preservan la mayor cantidad de información posible y facilitan su análisis conjunto.
Obtuvimos una visualización bidimensional de la empresa HATCO y sus 9 competidoras principales, que preserva de la mejor manera posible las distancias reales, mediante la explotación de una matriz de similitudes por medio de un Escalamiento Multidimensional. Además, con la implementación del algoritmo de Análisis Factorial, se encontraron 2 nuevas variables latentes que se pueden interpretar como la Imagen y Competitividad.
Finalmente, basados en las métricas observadas y la técnica de clustering de K-medias, separamos a los individuos participantes en el estudio en 3 grupos, con el objetivo de la creación de campañas de publicidad centralizadas en cada uno de ellos.
De todo lo anterior, queda en evidencia la importancia del análisis multivariante pues es un paso vital entre la recolección de datos multivariados y su correcta interpretación; es por esto que, es crucial su aplicación no solo en el ámbito científico sino también en el empresarial.
Peña, Daniel (2002). Análisis de datos multivariantes.
IA abierta. (2023). ChatGPT (versión de junio) [Modelo de lenguaje grande]. https://chat.openai.com/chat
Librerías de R:
library(readxl)
library(ggplot2)
library(data.table)
library(psych)
library(patchwork)
library(igraph)
library(factoextra)
library(NbClust)