Parte 1 PCA de wine

En sus propias palabras indique cuales son los beneficios de los archivos RMD en la visualizaci?n de los datos on beneficiosos para la visualización porque integran en un solo documento: (1) el contexto y explicación del análisis, (2) el código que genera las visualizaciones y (3) las salidas (gráficos/tablas) ya renderizadas. Esto mejora la comunicación de hallazgos, la reproducibilidad y la facilidad de compartir resultados en formatos como HTML/PDF/Word. Con runtime: shiny, además se pueden incluir controles interactivos (widgets) para explorar la información sin construir una aplicación completa.

## 
## Adjuntando el paquete: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
## 
## Adjuntando el paquete: 'shiny'
## The following objects are masked from 'package:DT':
## 
##     dataTableOutput, renderDataTable
## Cargando paquete requerido: viridisLite

Proceda a cargar los datos de wine.csv _El URL es https://www.jaredlander.com/data/wine.csv_

##   Cultivar Alcohol Malic acid  Ash Alcalinity of ash Magnesium Total phenols
## 1        1   14.23       1.71 2.43              15.6       127          2.80
## 2        1   13.20       1.78 2.14              11.2       100          2.65
## 3        1   13.16       2.36 2.67              18.6       101          2.80
## 4        1   14.37       1.95 2.50              16.8       113          3.85
## 5        1   13.24       2.59 2.87              21.0       118          2.80
##   Flavanoids Nonflavanoid phenols Proanthocyanins Color intensity  Hue
## 1       3.06                 0.28            2.29            5.64 1.04
## 2       2.76                 0.26            1.28            4.38 1.05
## 3       3.24                 0.30            2.81            5.68 1.03
## 4       3.49                 0.24            2.18            7.80 0.86
## 5       2.69                 0.39            1.82            4.32 1.04
##   OD280/OD315 of diluted wines Proline
## 1                         3.92    1065
## 2                         3.40    1050
## 3                         3.17    1185
## 4                         3.45    1480
## 5                         2.93     735

Indique aqu? de que se trata el dataset que acaba de cargar y los tipos de cada variable. Nos interesa especialmente aquellas que no sean num?ricas Este dataset corresponde a mediciones fisicoquímicas de vinos (por ejemplo Alcohol, Ash, Magnesium, etc.) y una variable de clase (Cultivar) que identifica el tipo/grupo del vino. En esta base todas las columnas son numéricas; la variable Cultivar se usa como etiqueta (clase) y no como variable de entrada para el PCA.

Aplicaci?n de PCA

_Indique que beneficios obtenemos de PCA, PCA permite reducir dimensionalidad resumiendo muchas variables en pocas componentes, conservando la mayor parte de la variabilidad; también facilita visualizar patrones (por ejemplo en PC1–PC2) y reduce redundancia cuando variables están correlacionadas.

A continuaci?n proceda a revisar la data para asegurarse que no tiene variables con valor 0 o negativos

## character(0)

Indique en este lugar cual es el prop?sito de la funci?n prcomp prcomp() ejecuta el Análisis de Componentes Principales (PCA) sobre variables numéricas: calcula nuevas variables (componentes) como combinaciones lineales ortogonales de las variables originales, ordenadas para explicar la mayor varianza posible (PC1, PC2, ). Devuelve, entre otros, los loadings (rotation), los scores de cada observación (x) y la escala asociada (sdev).

Aplicando PRCOMP

## $eigen_values
##  [1] 4.7058503 2.4969737 1.4460720 0.9189739 0.8532282 0.6416570 0.5510283
##  [8] 0.3484974 0.2888799 0.2509025 0.2257886 0.1687702 0.1033779
## 
## $eigen_vectors_head
##                            PC1        PC2         PC3         PC4         PC5
## Alcohol           -0.144329395 -0.4836515 -0.20738262 -0.01785630  0.26566365
## Malic acid         0.245187580 -0.2249309  0.08901289  0.53689028 -0.03521363
## Ash                0.002051061 -0.3160688  0.62622390 -0.21417556  0.14302547
## Alcalinity of ash  0.239320405  0.0105905  0.61208035  0.06085941 -0.06610294
## Magnesium         -0.141992042 -0.2996340  0.13075693 -0.35179658 -0.72704851
##                           PC6         PC7         PC8         PC9        PC10
## Alcohol           -0.21353865 -0.05639636 -0.39613926 -0.50861912 -0.21160473
## Malic acid        -0.53681385  0.42052391 -0.06582674  0.07528304  0.30907994
## Ash               -0.15447466 -0.14917061  0.17026002  0.30769445  0.02712539
## Alcalinity of ash  0.10082451 -0.28696914 -0.42797018 -0.20044931 -0.05279942
## Magnesium         -0.03814394  0.32288330  0.15636143 -0.27140257 -0.06787022
##                          PC11        PC12        PC13
## Alcohol            0.22591696  0.26628645 -0.01496997
## Malic acid        -0.07648554 -0.12169604 -0.02596375
## Ash                0.49869142  0.04962237  0.14121803
## Alcalinity of ash -0.47931378  0.05574287 -0.09168285
## Magnesium         -0.07128891 -0.06222011 -0.05677422
## 
## $scores_head
##            PC1        PC2        PC3        PC4        PC5        PC6
## [1,] -3.307421 -1.4394023 -0.1652728 -0.2150246 -0.6910933 -0.2232504
## [2,] -2.203250  0.3324551 -2.0207571 -0.2905387  0.2569299 -0.9245123
## [3,] -2.509661 -1.0282507  0.9800541  0.7228632  0.2503270  0.5477310
## [4,] -3.746497 -2.7486184 -0.1756962  0.5663856  0.3109644  0.1141091
## [5,] -1.006070 -0.8673840  2.0209873 -0.4086131 -0.2976180 -0.4053761
##              PC7         PC8         PC9        PC10       PC11          PC12
## [1,]  0.59474883  0.06495586 -0.63963836 -1.01808396  0.4502932 -0.5392891439
## [2,]  0.05362434  1.02153432  0.30797798 -0.15925214  0.1422560 -0.3871456499
## [3,]  0.42301218 -0.34324787  1.17452129 -0.11304198  0.2858665 -0.0005819316
## [4,] -0.38225899  0.64178311 -0.05239662 -0.23873915 -0.7574476  0.2413387757
## [5,]  0.44282531  0.41552831 -0.32589984  0.07814604  0.5244656  0.2160546934
##              PC13
## [1,]  0.066052305
## [2,] -0.003626273
## [3,] -0.021655423
## [4,]  0.368444194
## [5,]  0.079140320

Indique aqu? cu?l es el concepto que se utiliza para la selecci?n de componentes principales Se usa la varianza explicada: se eligen las primeras componentes que acumulan un porcentaje alto de la variabilidad (por ejemplo 80%–90%), apoyándose en la varianza acumulada y/o en el “codo” del scree plot (cuando agregar más componentes aporta muy poco).

Realice un an?lisis de la visualizaci?n anterior, que indica El gráfico muestra cuánta variabilidad captura cada componente. Normalmente, las primeras componentes explican una fracción importante y luego la ganancia marginal disminuye; por eso se seleccionan las primeras PCs que logran una varianza acumulada suficiente para representar el dataset de forma compacta. ### Relaci?n entre las variables originales y las Componentes Principales

Realice un an?lisis de la visualizaci?n anterior, que indica Las flechas muestran qué variables están más asociadas a PC1 y PC2: flechas más largas indican mayor contribución en ese plano. Variables con dirección similar tienden a relacionarse positivamente; direcciones opuestas sugieren relación negativa; casi perpendiculares indican baja relación. Indique cual es el concepto de la calidad de la representaci?n cos2 El cos² (coseno cuadrado) mide qué tan bien una observación queda representada por una(s) componente(s): es la proporción de su “inercia” (distancia al origen en el espacio de PCs) explicada por el plano seleccionado (por ejemplo PC1–PC2). Valores altos implican mejor representación en ese plano.

Realice un an?lisis de la visualizaci?n anterior, que indica Puntos con color más intenso (cos² alto) son los mejor representados por el plano PC1–PC2; si varios puntos tienen cos² bajo, significa que una parte importante de su variación está en componentes posteriores y el plano 2D los resume con menor fidelidad.

Parte 2 MDS de wine

En sus propias palabras indique cuales son los beneficios de hacer un an?lisis de conglomerados, en que nos ayuda en la visualizaci?n de los datos El análisis de conglomerados ayuda a descubrir grupos naturales (segmentos) sin etiquetas previas. En visualización, permite colorear/ordenar observaciones por grupos para interpretar patrones, similitudes y posibles perfiles dentro de los datos.

Indique aqu? que es la matriz de distancias, que algoritmos de distancias existen La matriz de distancias resume la disimilitud entre cada par de observaciones (tamaño n×n). Distancias comunes: Euclídea (la más usada), Manhattan, Minkowski, entre otras; la elección depende de la naturaleza de las variables y de la sensibilidad que se quiere al cambio por dimensión.

##          1        2        3        4        5        6
## 1 0.000000 3.487697 3.018094 2.834509 3.556821 2.518186
## 2 3.487697 0.000000 4.131258 4.348349 4.614454 3.382216
## 3 3.018094 4.131258 0.000000 3.237354 2.972721 2.859721
## 4 2.834509 4.348349 3.237354 0.000000 4.483310 1.899712
## 5 3.556821 4.614454 2.972721 4.483310 0.000000 3.878217
## 6 2.518186 3.382216 2.859721 1.899712 3.878217 0.000000

indique aqu? que hace la funci?n cmdscale cmdscale() aplica escalamiento multidimensional clásico (Classical MDS): toma una matriz de distancias y calcula coordenadas en baja dimensión (por ejemplo 2D) de modo que esas coordenadas preserven, lo mejor posible, las distancias originales.

##        Dim1       Dim2 Cultivar
## 1 -3.307421 -1.4394023        1
## 2 -2.203250  0.3324551        1
## 3 -2.509661 -1.0282507        1
## 4 -3.746497 -2.7486184        1
## 5 -1.006070 -0.8673840        1

Cree el diagrama de los componentes principales del MDS

indique como nos ayudan los widgets de Shiny para ingresar argumentos Los widgets permiten que el usuario ingrese parámetros (por ejemplo, el número de clusters) de forma interactiva; el gráfico se actualiza automáticamente según el valor seleccionado, facilitando exploración sin reescribir código.

## [1] 3

Obtenga el diagrama de conglomerados de acuerdo al widget anterior

## [1] TRUE
## [1] TRUE

Emita un comentario final sobre el trabajo El PCA permitió resumir y visualizar la estructura global del dataset en pocas componentes, mientras que el MDS proyectó las distancias entre observaciones en 2D. El clustering sobre el plano MDS facilita explorar segmentaciones y compararlas con la etiqueta Cultivar, apoyando interpretación visual de similitudes y diferencias entre vinos.