PROFESOR:
INTEGRANTES:
Gamboa Pizan, Maritza 20180260@lamolina.edu.pe
Gutarra Seguil, Gabriela 20180261@lamolina.edu.pe
Kuway Chero, Giancarlo Javier 20171043@lamolina.edu.pe
El análisis factorial mixto es una técnica de análisis multivariante que se utiliza para estudiar datos mixtos, es decir, datos que contienen tanto variables categóricas como cuantitativas. Esta técnica se basa en una aproximación analítica doble o mixta que permite analizar la varianza común entre las variables y la varianza específica de cada grupo o nivel de la estructura jerárquica. El análisis factorial mixto se utiliza comúnmente en estudios de diseño factorial mixto, en los que se disponen de datos obtenidos bajo cada una de las combinaciones de los niveles de al menos dos variables independientes, una de las cuales es tratada de forma entregrupos y otra de forma intrasujetos.
El número de variables en cada grupo puede diferir y la naturaleza de las variables (cualitativas o cuantitativas) puede variar de un grupo a otro, pero las variables deben ser de la misma naturaleza en un grupo determinado (Abdi y Williams, 2010).
El MFA puede considerarse como un análisis factorial general. Aproximadamente, el núcleo de MFA se basa en:
Análisis de componentes principales (PCA) cuando las variables son cuantitativas
Análisis de correspondencia múltiple (MCA) cuando las variables son cualitativas
¿Para que sirve un analisis factorial mixto?
La similaridad entre los individuos teniendo en cuenta TODAS las variables.
La relación entre TODAS las variables.
El análisis factorial mixto se puede utilizar en una variedad de campos (Pagès, 2002), donde las variables se organizan en grupos:
Análisis de encuestas, donde un individuo es una persona; una variable es una pregunta. Preguntas están organizadas por temas (grupo de preguntas).
Análisis sensorial, donde un individuo es un producto alimenticio. Un primer conjunto de variables incluye variables sensoriales (dulzor, amargor, etc.); una segunda incluye variables químicas (pH, tasa de glucosa, etc.).
Ecología, donde un individuo es un lugar de observación. Un primer conjunto de variables describe las características del suelo y la segunda la flora.
Fueron utilizadas el paquete (FactoMineR)[https://cran.r-project.org/web/packages/FactoMineR/index.html] y (factoextra)[https://cran.r-project.org/web/packages/factoextra/index.html]
#install.packages(c("FactoMineR", "factoextra"))
library("FactoMineR")
library("factoextra")
Los datos contienen 21 filas(vinos e individuos) y 31 columnas(variables):
Las dos primeras columnas son variables categoricas:
Etiqueta
Suelo
Las 29 columnas siguientes son variables cuantitativas continuas (sensoriales).Para cada vino,el valor es la puntuación media de todos los jueces
El objetivo de este estudio es analizar las características de los vinos segun sus variables.
library("FactoMineR")
data(wine)
colnames(wine)
## [1] "Label" "Soil"
## [3] "Odor.Intensity.before.shaking" "Aroma.quality.before.shaking"
## [5] "Fruity.before.shaking" "Flower.before.shaking"
## [7] "Spice.before.shaking" "Visual.intensity"
## [9] "Nuance" "Surface.feeling"
## [11] "Odor.Intensity" "Quality.of.odour"
## [13] "Fruity" "Flower"
## [15] "Spice" "Plante"
## [17] "Phenolic" "Aroma.intensity"
## [19] "Aroma.persistency" "Aroma.quality"
## [21] "Attack.intensity" "Acidity"
## [23] "Astringency" "Alcohol"
## [25] "Balance" "Smooth"
## [27] "Bitterness" "Intensity"
## [29] "Harmony" "Overall.quality"
## [31] "Typical"
df <- wine[,c(1,2, 16, 22, 29, 28, 30,31)]
head(df[, 1:7], 4)
## Label Soil Plante Acidity Harmony Intensity Overall.quality
## 2EL Saumur Env1 2.000 2.107 3.143 2.857 3.393
## 1CHA Saumur Env1 2.000 2.107 2.964 2.893 3.214
## 1FON Bourgueuil Env1 1.750 2.179 3.143 3.074 3.536
## 1VAU Chinon Env2 2.304 3.179 2.038 2.462 2.464
A continuación se muestra una imagen de los datos:
Figura 1:Formato de datos para analisis de multiples factores
De esta manera,las variables se organizan en 3 grupos:
Primer Grupo:
-Esta compuesto por variabl.es categóricas que especifican el origen de los vinos,incluidas las variables :
Etiqueta
Suelo
Segundo Grupo:
-Esta compuesto por variables continuas,que describen el olor de los vinos antes del batido,incluyendo las variables:
Intensidad del olor antes del batido
Calidad del aroma antes del batido
Afrutado antes del batido
Flor antes de agitar
Especia antes de agitar
Tercer Grupo:
-Conjunto de variables continuas que cuantifican la inspección visual de los vinos,incluyendo las variables:
Intensidad visual
Matiz
Sensación Superficial
Entre otros.
Etiqueta (label): La etiqueta se refiere a la presentación y diseño de la botella y la etiqueta del vino. No tiene un impacto directo en las características organolépticas del vino, pero puede influir en la percepción subjetiva del consumidor.
Suelo (Soil): Se refiere al tipo de suelo en el que se cultivaron las uvas. El suelo puede tener diferentes composiciones minerales, drenaje y características de retención de agua, lo que puede influir en las características del vino.
Plante (Plante): Hace referencia a la cepa o variedad de uva utilizada para producir el vino. Diferentes variedades de uva tienen características organolépticas únicas que afectan al sabor, aroma y estructura del vino.
Acidez (Acidity): La acidez se refiere a la frescura y vivacidad del vino. Una acidez equilibrada es importante para el equilibrio y la longevidad del vino. Un vino con una acidez alta puede tener un sabor agrio, mientras que un vino con una acidez baja puede parecer plano o insípido.
Armonía (Harmony): La armonía se refiere a la integración y equilibrio de los diferentes componentes del vino, como el sabor, el aroma, la acidez, los taninos y el alcohol. Un vino armonioso tiene una combinación equilibrada de estos elementos, lo que resulta en una experiencia de degustación agradable y sin desequilibrios notables.
Intensidad (Intensity): La intensidad se refiere a la concentración y fuerza de los aromas y sabores en el vino. Un vino con alta intensidad puede tener aromas y sabores pronunciados y vívidos, mientras que un vino con baja intensidad puede ser más sutil y delicado.
Calidad general (Overall.quality): La calidad general es una evaluación subjetiva del vino en su conjunto. Toma en cuenta diversos factores, como la complejidad, el equilibrio, la estructura, la intensidad y la persistencia de aromas y sabores, entre otros.
Típico (Typical): La característica de ser “típico” se refiere a que el vino presenta las características distintivas esperadas de su región de origen, variedad de uva o estilo de producción. Un vino típico muestra las características representativas de su categoría y puede ser evaluado en base a las expectativas establecidas para ese tipo específico de vino.
str(df)
## 'data.frame': 21 obs. of 8 variables:
## $ Label : Factor w/ 3 levels "Saumur","Bourgueuil",..: 1 1 2 3 1 2 2 1 3 1 ...
## $ Soil : Factor w/ 4 levels "Reference","Env1",..: 2 2 2 3 1 1 1 2 2 3 ...
## $ Plante : num 2 2 1.75 2.3 1.76 ...
## $ Acidity : num 2.11 2.11 2.18 3.18 2.57 ...
## $ Harmony : num 3.14 2.96 3.14 2.04 3.64 ...
## $ Intensity : num 2.86 2.89 3.07 2.46 3.64 ...
## $ Overall.quality: num 3.39 3.21 3.54 2.46 3.74 ...
## $ Typical : num 3.25 3.04 3.18 2.25 3.44 ...
library(FactoMineR)
res.famd <- FAMD(df, graph = FALSE)
print(res.famd)
## *The results are available in the following objects:
##
## name description
## 1 "$eig" "eigenvalues and inertia"
## 2 "$var" "Results for the variables"
## 3 "$ind" "results for the individuals"
## 4 "$quali.var" "Results for the qualitative variables"
## 5 "$quanti.var" "Results for the quantitative variables"
Se extrae la proporción de las varianzas retenidas por los diferentes dimensiones. La primera dimension retiene el 43.92%, con la segunda retenmos el 60.80%, con la tercera retenmos el 75.18% y asi progresivamente.
library("factoextra")
eig.val <- get_eigenvalue(res.famd)
head(eig.val)
## eigenvalue variance.percent cumulative.variance.percent
## Dim.1 4.8315174 43.922886 43.92289
## Dim.2 1.8568797 16.880724 60.80361
## Dim.3 1.5824794 14.386176 75.18979
## Dim.4 1.1491200 10.446546 85.63633
## Dim.5 0.6518053 5.925503 91.56183
fviz_screeplot(res.famd)
Del grafico anterior, podemos ver que la primera dimension posee un porcentaje de 43.92% siendo esta la mayor, mientras que la quinta, es la que menos porcentaje posee, con un valor inferior al 5%.
Almacenaremos 3 las coordenadas de las variables relacionadas con las dimensiones, la calidad de la representacion de cada variable y finalmente la contribucion de cada dimensión.
var <- get_famd_var(res.famd)
var
## FAMD results for variables
## ===================================================
## Name Description
## 1 "$coord" "Coordinates"
## 2 "$cos2" "Cos2, quality of representation"
## 3 "$contrib" "Contributions"
head(var$coord)
## Dim.1 Dim.2 Dim.3 Dim.4 Dim.5
## Plante 0.7344160 0.060551966 0.105902048 0.004011299 0.0010340559
## Acidity 0.1732738 0.491118153 0.126394029 0.115376784 0.0045862935
## Harmony 0.8943968 0.023628146 0.040124469 0.003653813 0.0086624633
## Intensity 0.6991811 0.134639254 0.065382234 0.023214984 0.0064730431
## Overall.quality 0.9115699 0.005246728 0.009336677 0.005445276 0.0007961880
## Typical 0.7808611 0.027094327 0.001549791 0.083446627 0.0005912942
fviz_famd_var(res.famd, repel = TRUE)
El gráfico de las coordenadas de las variables ilustra la correlación entre grupos y dimensiones. Las coordenadas de los cuatro grupos activos en la primera dimensión son casi idénticas. Esto significa que contribuyen de manera similar a la primera dimensión. Mientras que las que contribuyen mas a la dimension 2 son suelo y acidez.
head(var$cos2)
## Dim.1 Dim.2 Dim.3 Dim.4 Dim.5
## Plante 0.53936692 3.666541e-03 1.121524e-02 1.609052e-05 1.069272e-06
## Acidity 0.03002381 2.411970e-01 1.597545e-02 1.331180e-02 2.103409e-05
## Harmony 0.79994566 5.582893e-04 1.609973e-03 1.335035e-05 7.503827e-05
## Intensity 0.48885427 1.812773e-02 4.274836e-03 5.389355e-04 4.190029e-05
## Overall.quality 0.83095973 2.752815e-05 8.717353e-05 2.965103e-05 6.339153e-07
## Typical 0.60974400 7.341026e-04 2.401853e-06 6.963340e-03 3.496288e-07
head(var$contrib)
## Dim.1 Dim.2 Dim.3 Dim.4 Dim.5
## Plante 15.200526 3.2609526 6.69215972 0.3490757 0.15864490
## Acidity 3.586323 26.4485720 7.98708850 10.0404466 0.70362936
## Harmony 18.511716 1.2724651 2.53554453 0.3179662 1.32899551
## Intensity 14.471254 7.2508336 4.13163258 2.0202401 0.99309457
## Overall.quality 18.867156 0.2825562 0.59000304 0.4738648 0.12215119
## Typical 16.161818 1.4591321 0.09793437 7.2617850 0.09071638
fviz_contrib(res.famd, "var", axes = 1)
fviz_contrib(res.famd, "var", axes = 2)
quanti.var <- get_famd_var(res.famd, "quanti.var")
quanti.var
## FAMD results for quantitative variables
## ===================================================
## Name Description
## 1 "$coord" "Coordinates"
## 2 "$cos2" "Cos2, quality of representation"
## 3 "$contrib" "Contributions"
fviz_famd_var(res.famd, "quanti.var", col.var = "contrib",
gradient.cols = c("#00AFBB", "#E7B800", "#FC4E07"),
repel = TRUE)
Del grafico anterior, podemos ver que las variables con colores calidos pertenecen a un grupo (contribuyen más a la dimensión 1), mientras que las de colores frios (tan solo acidez) al otro grupo (contribuyen más a la dimensión 2).
quali.var <- get_famd_var(res.famd, "quali.var")
quali.var
## FAMD results for qualitative variable categories
## ===================================================
## Name Description
## 1 "$coord" "Coordinates"
## 2 "$cos2" "Cos2, quality of representation"
## 3 "$contrib" "Contributions"
fviz_famd_var(res.famd, "quali.var", col.var = "contrib",
gradient.cols = c("#00AFBB", "#E7B800", "#FC4E07")
)
En el grafico veos las categorias Chinon esta asociado con Env2 y Env4, mientras que Borgueuil esta asociado a Env1. Por otro lado Saumur se encuentra en el centro por lo que su inercia es baja.
quali.var$contrib[,1:2]
## Dim.1 Dim.2
## Saumur 0.01522912 0.6328503
## Bourgueuil 0.64472767 9.9258736
## Chinon 1.41147307 6.4484676
## Reference 6.11375771 3.6115700
## Env1 0.13490519 27.7092332
## Env2 2.01986625 10.0741200
## Env4 2.86124873 1.6233736
ind <- get_famd_ind(res.famd)
ind
## FAMD results for individuals
## ===================================================
## Name Description
## 1 "$coord" "Coordinates"
## 2 "$cos2" "Cos2, quality of representation"
## 3 "$contrib" "Contributions"
fviz_famd_ind(res.famd, col.ind = "cos2",
gradient.cols = c("#00AFBB", "#E7B800", "#FC4E07"),
repel = TRUE)
En este grafico unimos al grafico anterior de las categorias de las variables cualitativas junto a los individuos.
fviz_mfa_ind(res.famd,
habillage = "Label", # color by groups
palette = c("#00AFBB", "#E7B800", "#FC4E07"),
addEllipses = TRUE, ellipse.type = "confidence",
repel = TRUE # Avoid text overlapping
)
fviz_ellipses(res.famd, c("Label", "Soil"), repel = TRUE)
Alternativamente, puede especificar índices de variables categóricas:
fviz_ellipses(res.famd, 1:2, geom = "point")
Logramos analizar las caracteristicas de los vinos utilizando los paquetes factominer y factorextra haciendo uso del analisis factorial mixto.