TAREA6_REPO_PCA_MDS

Christian_Tapia

2026-01-07

Parte 1 PCA de wine

En sus propias palabras indique cuales son los beneficios de los archivos RMD en la visualización de los datos:

Los archivos RMD permiten integrar código, resultados, texto y visualizaciones en un solo documento reproducible, facilitando el análisis, la interpretación y la comunicación clara de los resultados.

Proceda a cargar los datos de wine.csv _El URL es https://www.jaredlander.com/data/wine.csv_

##   Cultivar Alcohol Malic.acid  Ash Alcalinity.of.ash Magnesium Total.phenols Flavanoids
## 1        1   14.23       1.71 2.43              15.6       127          2.80       3.06
## 2        1   13.20       1.78 2.14              11.2       100          2.65       2.76
## 3        1   13.16       2.36 2.67              18.6       101          2.80       3.24
## 4        1   14.37       1.95 2.50              16.8       113          3.85       3.49
## 5        1   13.24       2.59 2.87              21.0       118          2.80       2.69
##   Nonflavanoid.phenols Proanthocyanins Color.intensity  Hue OD280.OD315.of.diluted.wines
## 1                 0.28            2.29            5.64 1.04                         3.92
## 2                 0.26            1.28            4.38 1.05                         3.40
## 3                 0.30            2.81            5.68 1.03                         3.17
## 4                 0.24            2.18            7.80 0.86                         3.45
## 5                 0.39            1.82            4.32 1.04                         2.93
##   Proline
## 1    1065
## 2    1050
## 3    1185
## 4    1480
## 5     735

Indique aquí de que se trata el dataset que acaba de cargar y los tipos de cada variable. Nos interesa especialmente aquellas que no sean numéricas:

El dataset contiene características químicas de vinos.La variable Type es categórica (factor), el resto son variables numéricas continuas.

## 'data.frame':    178 obs. of  14 variables:
##  $ Cultivar                    : int  1 1 1 1 1 1 1 1 1 1 ...
##  $ Alcohol                     : num  14.2 13.2 13.2 14.4 13.2 ...
##  $ Malic.acid                  : num  1.71 1.78 2.36 1.95 2.59 1.76 1.87 2.15 1.64 1.35 ...
##  $ Ash                         : num  2.43 2.14 2.67 2.5 2.87 2.45 2.45 2.61 2.17 2.27 ...
##  $ Alcalinity.of.ash           : num  15.6 11.2 18.6 16.8 21 15.2 14.6 17.6 14 16 ...
##  $ Magnesium                   : int  127 100 101 113 118 112 96 121 97 98 ...
##  $ Total.phenols               : num  2.8 2.65 2.8 3.85 2.8 3.27 2.5 2.6 2.8 2.98 ...
##  $ Flavanoids                  : num  3.06 2.76 3.24 3.49 2.69 3.39 2.52 2.51 2.98 3.15 ...
##  $ Nonflavanoid.phenols        : num  0.28 0.26 0.3 0.24 0.39 0.34 0.3 0.31 0.29 0.22 ...
##  $ Proanthocyanins             : num  2.29 1.28 2.81 2.18 1.82 1.97 1.98 1.25 1.98 1.85 ...
##  $ Color.intensity             : num  5.64 4.38 5.68 7.8 4.32 6.75 5.25 5.05 5.2 7.22 ...
##  $ Hue                         : num  1.04 1.05 1.03 0.86 1.04 1.05 1.02 1.06 1.08 1.01 ...
##  $ OD280.OD315.of.diluted.wines: num  3.92 3.4 3.17 3.45 2.93 2.85 3.58 3.58 2.85 3.55 ...
##  $ Proline                     : int  1065 1050 1185 1480 735 1450 1290 1295 1045 1045 ...

Aplicación de PCA

Indique que beneficios obtenemos de PCA:

PCA permite reducir la dimensionalidad de los datos conservando la mayor variabilidad posible, facilitando la visualización y detección de patrones.

A continuación proceda a revisar la data para asegurarse que no tiene variables con valor 0 o negativos

No existen valores negativos ni ceros que requieran eliminación. Las variables numéricas serán normalizadas automáticamente en PCA.

##                     Cultivar                      Alcohol                   Malic.acid 
##                        FALSE                        FALSE                        FALSE 
##                          Ash            Alcalinity.of.ash                    Magnesium 
##                        FALSE                        FALSE                        FALSE 
##                Total.phenols                   Flavanoids         Nonflavanoid.phenols 
##                        FALSE                        FALSE                        FALSE 
##              Proanthocyanins              Color.intensity                          Hue 
##                        FALSE                        FALSE                        FALSE 
## OD280.OD315.of.diluted.wines                      Proline 
##                        FALSE                        FALSE

Indique en este lugar cual es el propósito de la función prcomp:

La función prcomp calcula las componentes principales usando descomposición en valores singulares, entregando eigenvalores, eigenvectores y scores.

Aplicando PRCOMP

Indique aquí cuál es el concepto que se utiliza para la selección de componentes principales:

Se utiliza el criterio de varianza explicada acumulada y el codo del scree plot.

##    Componente    Varianza Varianza_Acumulada
## 1           1 0.395424860          0.3954249
## 2           2 0.178362589          0.5737874
## 3           3 0.103291016          0.6770785
## 4           4 0.066279845          0.7433583
## 5           5 0.062678751          0.8060371
## 6           6 0.048055596          0.8540927
## 7           7 0.039557068          0.8936497
## 8           8 0.025002441          0.9186522
## 9           9 0.021038710          0.9396909
## 10         10 0.018736150          0.9584270
## 11         11 0.016132030          0.9745591
## 12         12 0.012056908          0.9866160
## 13         13 0.009254584          0.9958705
## 14         14 0.004129451          1.0000000
## Warning in geom_bar(stat = "identity", fill = barfill, color = barcolor, : Ignoring empty
## aesthetic: `width`.

Realice un análisis de la visualización anterior, que indica:

Las primeras componentes explican la mayor parte de la variabilidad del dataset.

Relación entre las variables originales y las Componentes Principales

Realice un análisis de la visualización anterior, que indica:

Las variables con mayor contribución influyen más en la formación de las componentes principales.

Indique cual es el concepto de la calidad de la representación cos2:

El cos2 mide qué tan bien una observación o variable está representada en el plano factorial.

Realice un análisis de la visualización anterior, que indica:

Los puntos con colores más intensos están mejor representados por las componentes seleccionadas.

Parte 2 MDS de wine

En sus propias palabras indique cuales son los beneficios de hacer un análisis de conglomerados, en que nos ayuda en la visualización de los datos:

Permite identificar grupos similares dentro de los datos y facilita la interpretación visual de relaciones entre observaciones.

Indique aquí que es la matriz de distancias, que algoritmos de distancias existen:

La matriz de distancias mide la similitud o disimilitud entre observaciones. Algunos algoritmos comunes son: Euclidiana, Manhattan, Canberra y Minkowski.

indique aquí que hace la función cmdscale:

cmdscale realiza escalamiento multidimensional clásico (MDS) para representar distancias en un espacio de menor dimensión.

Cree el diagrama de los componentes principales del MDS:

indique como nos ayudan los widgets de Shiny para ingresar argumentos:

Los widgets de Shiny permiten ingresar valores dinámicos que actualizan los resultados en tiempo real.

Obtenga el diagrama de conglomerados de acuerdo al widget anterior:

Emita un comentario final sobre el trabajo:

El uso combinado de PCA y MDS permite una comprensión profunda de la estructura del dataset, facilitando la reducción dimensional, visualización y detección de patrones relevantes en los datos.