Parte 1 PCA de wine

En sus propias palabras indique cuales son los beneficios de los archivos RMD en la visualizacion de los datos

Respuesta

Los archivos RMarkdown integran código, visualizaciones y narrativa en un único documento reproducible. Ademas, permiten generar gráficos dinámicos incrustados, combinar múltiples formatos de salida (HTML, PDF), facilitan la documentación del análisis y compartir resultados interactivos sin necesidad de que el receptor tenga R instalado, mejorando significativamente la comunicación de datos.

Proceda a cargar los datos de wine.csv _El URL es https://www.jaredlander.com/data/wine.csv_

##   Cultivar Alcohol Malic.acid  Ash Alcalinity.of.ash Magnesium Total.phenols
## 1        1   14.23       1.71 2.43              15.6       127          2.80
## 2        1   13.20       1.78 2.14              11.2       100          2.65
## 3        1   13.16       2.36 2.67              18.6       101          2.80
## 4        1   14.37       1.95 2.50              16.8       113          3.85
## 5        1   13.24       2.59 2.87              21.0       118          2.80
##   Flavanoids Nonflavanoid.phenols Proanthocyanins Color.intensity  Hue
## 1       3.06                 0.28            2.29            5.64 1.04
## 2       2.76                 0.26            1.28            4.38 1.05
## 3       3.24                 0.30            2.81            5.68 1.03
## 4       3.49                 0.24            2.18            7.80 0.86
## 5       2.69                 0.39            1.82            4.32 1.04
##   OD280.OD315.of.diluted.wines Proline
## 1                         3.92    1065
## 2                         3.40    1050
## 3                         3.17    1185
## 4                         3.45    1480
## 5                         2.93     735

Indique aquí de que se trata el dataset que acaba de cargar y los tipos de cada variable. Nos interesa especialmente aquellas que no sean numéricas

Respuesta

El dataset contiene información fisicoquímica de 178 vinos italianos de tres cultivares diferentes que incluye 14 variables: Cultivar (categórica/entera, identificador de variedad) y 13 variables numéricas continuas que representan propiedades químicas como alcohol, acidez málica, cenizas, magnesio, fenoles, flavonoides, proantocianinas, intensidad de color, matiz y prolina.

## 'data.frame':    178 obs. of  14 variables:
##  $ Cultivar                    : int  1 1 1 1 1 1 1 1 1 1 ...
##  $ Alcohol                     : num  14.2 13.2 13.2 14.4 13.2 ...
##  $ Malic.acid                  : num  1.71 1.78 2.36 1.95 2.59 1.76 1.87 2.15 1.64 1.35 ...
##  $ Ash                         : num  2.43 2.14 2.67 2.5 2.87 2.45 2.45 2.61 2.17 2.27 ...
##  $ Alcalinity.of.ash           : num  15.6 11.2 18.6 16.8 21 15.2 14.6 17.6 14 16 ...
##  $ Magnesium                   : int  127 100 101 113 118 112 96 121 97 98 ...
##  $ Total.phenols               : num  2.8 2.65 2.8 3.85 2.8 3.27 2.5 2.6 2.8 2.98 ...
##  $ Flavanoids                  : num  3.06 2.76 3.24 3.49 2.69 3.39 2.52 2.51 2.98 3.15 ...
##  $ Nonflavanoid.phenols        : num  0.28 0.26 0.3 0.24 0.39 0.34 0.3 0.31 0.29 0.22 ...
##  $ Proanthocyanins             : num  2.29 1.28 2.81 2.18 1.82 1.97 1.98 1.25 1.98 1.85 ...
##  $ Color.intensity             : num  5.64 4.38 5.68 7.8 4.32 6.75 5.25 5.05 5.2 7.22 ...
##  $ Hue                         : num  1.04 1.05 1.03 0.86 1.04 1.05 1.02 1.06 1.08 1.01 ...
##  $ OD280.OD315.of.diluted.wines: num  3.92 3.4 3.17 3.45 2.93 2.85 3.58 3.58 2.85 3.55 ...
##  $ Proline                     : int  1065 1050 1185 1480 735 1450 1290 1295 1045 1045 ...

Aplicacion de PCA

Indique que beneficios obtenemos de PCA

Respuesta

PCA reduce la dimensionalidad, elimina multicolinealidad, facilita la visualización de datos complejos en 2D/3D, identifica variables más influyentes, mejora el rendimiento de modelos al reducir ruido y permite descubrir patrones ocultos en los datos.

A continuacion proceda a revisar la data para asegurarse que no tiene variables con valor 0 o negativos

##                 Cultivar Alcohol Malic.acid Ash   Alcalinity.of.ash Magnesium
## tiene_ceros     FALSE    FALSE   FALSE      FALSE FALSE             FALSE    
## tiene_negativos FALSE    FALSE   FALSE      FALSE FALSE             FALSE    
## count_ceros     0        0       0          0     0                 0        
## count_negativos 0        0       0          0     0                 0        
##                 Total.phenols Flavanoids Nonflavanoid.phenols Proanthocyanins
## tiene_ceros     FALSE         FALSE      FALSE                FALSE          
## tiene_negativos FALSE         FALSE      FALSE                FALSE          
## count_ceros     0             0          0                    0              
## count_negativos 0             0          0                    0              
##                 Color.intensity Hue   OD280.OD315.of.diluted.wines Proline
## tiene_ceros     FALSE           FALSE FALSE                        FALSE  
## tiene_negativos FALSE           FALSE FALSE                        FALSE  
## count_ceros     0               0     0                            0      
## count_negativos 0               0     0                            0
## 
## Columnas sin valores 0 o negativos - Listas para PCA
##  [1] "Alcohol"                      "Malic.acid"                  
##  [3] "Ash"                          "Alcalinity.of.ash"           
##  [5] "Magnesium"                    "Total.phenols"               
##  [7] "Flavanoids"                   "Nonflavanoid.phenols"        
##  [9] "Proanthocyanins"              "Color.intensity"             
## [11] "Hue"                          "OD280.OD315.of.diluted.wines"
## [13] "Proline"

Indique en este lugar cual es el proposito de la funcion prcomp

Respuesta

La función prcomp() realiza Análisis de Componentes Principales (PCA) para reducir la dimensionalidad de datos multivariados y transforma variables correlacionadas en componentes principales no correlacionados, preservando la máxima varianza posible. Facilita la visualización de datos complejos, identifica patrones ocultos y elimina redundancia, permitiendo análisis más eficientes con menos variables sin perder información significativa.

Aplicando PRCOMP

## Importance of components:
##                          PC1    PC2    PC3     PC4     PC5     PC6     PC7
## Standard deviation     2.169 1.5802 1.2025 0.95863 0.92370 0.80103 0.74231
## Proportion of Variance 0.362 0.1921 0.1112 0.07069 0.06563 0.04936 0.04239
## Cumulative Proportion  0.362 0.5541 0.6653 0.73599 0.80162 0.85098 0.89337
##                            PC8     PC9   PC10    PC11    PC12    PC13
## Standard deviation     0.59034 0.53748 0.5009 0.47517 0.41082 0.32152
## Proportion of Variance 0.02681 0.02222 0.0193 0.01737 0.01298 0.00795
## Cumulative Proportion  0.92018 0.94240 0.9617 0.97907 0.99205 1.00000
## 
## Primeros 5 valores eigen:
## [1] 4.7058503 2.4969737 1.4460720 0.9189739 0.8532282
## 
## Vectores eigen (primeros 3 componentes):
##                                       PC1          PC2         PC3
## Alcohol                      -0.144329395 -0.483651548 -0.20738262
## Malic.acid                    0.245187580 -0.224930935  0.08901289
## Ash                           0.002051061 -0.316068814  0.62622390
## Alcalinity.of.ash             0.239320405  0.010590502  0.61208035
## Magnesium                    -0.141992042 -0.299634003  0.13075693
## Total.phenols                -0.394660845 -0.065039512  0.14617896
## Flavanoids                   -0.422934297  0.003359812  0.15068190
## Nonflavanoid.phenols          0.298533103 -0.028779488  0.17036816
## Proanthocyanins              -0.313429488 -0.039301722  0.14945431
## Color.intensity               0.088616705 -0.529995672 -0.13730621
## Hue                          -0.296714564  0.279235148  0.08522192
## OD280.OD315.of.diluted.wines -0.376167411  0.164496193  0.16600459
## Proline                      -0.286752227 -0.364902832 -0.12674592
## 
## Scores (primeras 5 observaciones):
##            PC1        PC2        PC3        PC4        PC5        PC6
## [1,] -3.307421 -1.4394023 -0.1652728 -0.2150246 -0.6910933 -0.2232504
## [2,] -2.203250  0.3324551 -2.0207571 -0.2905387  0.2569299 -0.9245123
## [3,] -2.509661 -1.0282507  0.9800541  0.7228632  0.2503270  0.5477310
## [4,] -3.746497 -2.7486184 -0.1756962  0.5663856  0.3109644  0.1141091
## [5,] -1.006070 -0.8673840  2.0209873 -0.4086131 -0.2976180 -0.4053761
##              PC7         PC8         PC9        PC10       PC11          PC12
## [1,]  0.59474883  0.06495586 -0.63963836 -1.01808396  0.4502932 -0.5392891439
## [2,]  0.05362434  1.02153432  0.30797798 -0.15925214  0.1422560 -0.3871456499
## [3,]  0.42301218 -0.34324787  1.17452129 -0.11304198  0.2858665 -0.0005819316
## [4,] -0.38225899  0.64178311 -0.05239662 -0.23873915 -0.7574476  0.2413387757
## [5,]  0.44282531  0.41552831 -0.32589984  0.07814604  0.5244656  0.2160546934
##              PC13
## [1,]  0.066052305
## [2,] -0.003626273
## [3,] -0.021655423
## [4,]  0.368444194
## [5,]  0.079140320

Indique cual es el concepto que se utiliza para la seleccion de componentes principales

Respuesta

La selección de componentes principales se basa en el criterio de varianza explicada. Se eligen componentes que acumulen al menos 80-90% de la varianza total, usando el scree plot (método del codo) o el criterio de Kaiser (valores eigen > 1).

##    Componente Valor_Eigen    Varianza Varianza_Porcentaje Varianza_Acumulada
## 1           1   4.7058503 0.361988481          36.1988481          0.3619885
## 2           2   2.4969737 0.192074903          19.2074903          0.5540634
## 3           3   1.4460720 0.111236305          11.1236305          0.6652997
## 4           4   0.9189739 0.070690302           7.0690302          0.7359900
## 5           5   0.8532282 0.065632937           6.5632937          0.8016229
## 6           6   0.6416570 0.049358233           4.9358233          0.8509812
## 7           7   0.5510283 0.042386793           4.2386793          0.8933680
## 8           8   0.3484974 0.026807489           2.6807489          0.9201754
## 9           9   0.2888799 0.022221534           2.2221534          0.9423970
## 10         10   0.2509025 0.019300191           1.9300191          0.9616972
## 11         11   0.2257886 0.017368357           1.7368357          0.9790655
## 12         12   0.1687702 0.012982326           1.2982326          0.9920479
## 13         13   0.1033779 0.007952149           0.7952149          1.0000000
##    Varianza_Acum_Porcentaje
## 1                  36.19885
## 2                  55.40634
## 3                  66.52997
## 4                  73.59900
## 5                  80.16229
## 6                  85.09812
## 7                  89.33680
## 8                  92.01754
## 9                  94.23970
## 10                 96.16972
## 11                 97.90655
## 12                 99.20479
## 13                100.00000

Realice un análisis de la visualización anterior, que indica

Respuesta

El scree plot muestra que los primeros 2-3 componentes capturan la mayor varianza (método del codo visible). La varianza acumulada indica que aproximadamente 5-6 componentes explican más del 80% de la variabilidad total de los datos, sugiriendo que podemos reducir de 13 variables originales a 5-6 componentes sin pérdida significativa de información.

Relación entre las variables originales y las Componentes Principales

## Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
## ℹ Please use `linewidth` instead.
## ℹ The deprecated feature was likely used in the ggpubr package.
##   Please report the issue at <https://github.com/kassambara/ggpubr/issues>.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.
## Warning: `aes_string()` was deprecated in ggplot2 3.0.0.
## ℹ Please use tidy evaluation idioms with `aes()`.
## ℹ See also `vignette("ggplot2-in-packages")` for more information.
## ℹ The deprecated feature was likely used in the factoextra package.
##   Please report the issue at <https://github.com/kassambara/factoextra/issues>.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.

## corrplot 0.95 loaded

Realice un análisis de la visualización anterior, que indica

Respuesta

El biplot revela qué variables originales contribuyen más a cada componente principal. Las variables con flechas largas y en direcciones opuestas están negativamente correlacionadas, mientras que flechas en la misma dirección indican correlación positiva. Los loadings muestran el peso de cada variable en los componentes, permitiendo interpretar el significado químico de cada PC.

Indique cual es el concepto de la calidad de la representación cos2

Respuesta

cos2 (coseno cuadrado) mide la calidad de representación de cada observación en el espacio de componentes principales. Valores cercanos a 1 indican que la observación está bien representada en las dimensiones seleccionadas; valores bajos sugieren que necesitaríamos más componentes para representarla adecuadamente.

## Ignoring unknown labels:
## • fill : "cos2"
## • linetype : "cos2"
## • shape : "cos2"

Realice un análisis de la visualización anterior, que indica

Respuesta

Los puntos con colores brillantes (amarillo/verde en escala viridis) tienen alta calidad de representación (cos2 alto), indicando que su posición en el gráfico PC1-PC2 refleja fielmente su variabilidad original. Los puntos oscuros (morado) están menos representados y requerirían componentes adicionales para capturar completamente su variabilidad.

Parte 2 MDS de wine

En sus propias palabras indique cuales son los beneficios de hacer un análisis de conglomerados, en que nos ayuda en la visualización de los datos

Respuesta

El análisis de conglomerados agrupa observaciones similares, revelando estructuras naturales en los datos. Facilita la identificación de patrones, segmentación de grupos homogéneos, reducción de complejidad visual y descubrimiento de relaciones entre observaciones que no son evidentes en el espacio original de alta dimensión.

Indique aquí que es la matriz de distancias, que algoritmos de distancias existen

Respuesta

La matriz de distancias cuantifica la disimilaridad entre pares de observaciones. Algoritmos comunes: Euclidiana (distancia geométrica directa), Manhattan (suma de diferencias absolutas), Minkowski (generalización), Correlación (similaridad de perfiles), Mahalanobis (considera covarianzas) y Gower (datos mixtos).

## Dimensiones de la matriz de distancias: 178 x 178
## 
## Primeras 10 distancias:
##           1         2        3        4        5
## 1   0.00000  31.26501 122.8312 415.2454 330.1745
## 2  31.26501   0.00000 135.2247 430.2516 315.6688
## 3 122.83115 135.22469   0.0000 295.2627 450.3311
## 4 415.24540 430.25156 295.2627   0.0000 745.0394
## 5 330.17450 315.66880 450.3311 745.0394   0.0000

indique aquí que hace la función cmdscale

Respuesta

cmdscale realiza Escalamiento Multidimensional Clásico (Classical MDS), proyectando la matriz de distancias en un espacio de menor dimensión (típicamente 2D o 3D) preservando las distancias relativas entre observaciones, facilitando la visualización de relaciones complejas en datos multidimensionales.

##         MDS1       MDS2 Cultivar
## 1 -318.56298 21.4921307        1
## 2 -303.09742 -5.3647177        1
## 3 -438.06113 -6.5373094        1
## 4 -733.24014  0.1927290        1
## 5   11.57143 18.4899946        1
## 6 -703.23119 -0.3321587        1

Cree el diagrama de los componentes principales del MDS

indique como nos ayudan los widgets de Shiny para ingresar argumentos

Respuesta

Los widgets de Shiny permiten interactividad dinámica, donde usuarios ajustan parámetros (número de clusters, variables, métodos) en tiempo real sin modificar código. Facilitan la exploración de datos, comparación de configuraciones y democratizan el análisis permitiendo que no-programadores experimenten con los datos.

Obtenga el diagrama de conglomerados de acuerdo al widget anterior

Emita un comentario final sobre el trabajo

Comentario Final

Este análisis demuestra la potencia de técnicas de reducción dimensional (PCA y MDS) para visualizar y comprender datasets complejos. PCA revela que pocas componentes capturan la mayoría de la varianza en las propiedades químicas del vino, mientras que MDS permitió visualizar agrupaciones naturales. La interactividad con Shiny enriquece la exploración (siempre y cuando se tengo absuelto el tema de compatibilidad de versiones), permitiendo ajustar dinámicamente parámetros de clustering.

Por ultimo, ambas técnicas complementan el análisis, facilitando la identificación de patrones y relaciones en datos multidimensionales que serían imposibles de percibir en el espacio original de 13 variables.