TAREA6_REPO_PCA_MDS

Miguel Flores

2025-01-20

Parte 1 PCA de wine

En sus propias palabras indique cuales son los beneficios de los archivos RMD en la visualización de los datos:Los archivos RMD integran texto, código y visualizaciones en un solo documento dinámico, facilitando la interpretación y presentación clara de los análisis de datos.

## Warning: package 'tidyverse' was built under R version 4.3.3

## Warning: package 'ggplot2' was built under R version 4.3.3

## Warning: package 'tidyr' was built under R version 4.3.3

## Warning: package 'readr' was built under R version 4.3.3

## Warning: package 'purrr' was built under R version 4.3.3

## Warning: package 'dplyr' was built under R version 4.3.3

## Warning: package 'stringr' was built under R version 4.3.3

## Warning: package 'forcats' was built under R version 4.3.3

## Warning: package 'lubridate' was built under R version 4.3.3

## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr     1.1.4     ✔ readr     2.1.5
## ✔ forcats   1.0.0     ✔ stringr   1.5.1
## ✔ ggplot2   3.5.1     ✔ tibble    3.2.1
## ✔ lubridate 1.9.4     ✔ tidyr     1.3.1
## ✔ purrr     1.0.2     
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag()    masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors

## Warning: package 'viridis' was built under R version 4.3.3

## Loading required package: viridisLite

Proceda a cargar los datos de wine.csv _El URL es https://www.jaredlander.com/data/wine.csv_

##   Cultivar Alcohol Malic.acid  Ash Alcalinity.of.ash Magnesium Total.phenols
## 1        1   14.23       1.71 2.43              15.6       127          2.80
## 2        1   13.20       1.78 2.14              11.2       100          2.65
## 3        1   13.16       2.36 2.67              18.6       101          2.80
## 4        1   14.37       1.95 2.50              16.8       113          3.85
## 5        1   13.24       2.59 2.87              21.0       118          2.80
##   Flavanoids Nonflavanoid.phenols Proanthocyanins Color.intensity  Hue
## 1       3.06                 0.28            2.29            5.64 1.04
## 2       2.76                 0.26            1.28            4.38 1.05
## 3       3.24                 0.30            2.81            5.68 1.03
## 4       3.49                 0.24            2.18            7.80 0.86
## 5       2.69                 0.39            1.82            4.32 1.04
##   OD280.OD315.of.diluted.wines Proline
## 1                         3.92    1065
## 2                         3.40    1050
## 3                         3.17    1185
## 4                         3.45    1480
## 5                         2.93     735

Indique aquí de qué se trata el dataset que acaba de cargar y los tipos de cada variable. Nos interesa especialmente aquellas que no sean numéricas: El dataset cargado contiene características químicas y organolépticas de diferentes cultivares de vino, donde todas las variables son numéricas excepto la variable Cultivar, que es categórica y representa las clases de vino.

## 'data.frame':    178 obs. of  14 variables:
##  $ Cultivar                    : int  1 1 1 1 1 1 1 1 1 1 ...
##  $ Alcohol                     : num  14.2 13.2 13.2 14.4 13.2 ...
##  $ Malic.acid                  : num  1.71 1.78 2.36 1.95 2.59 1.76 1.87 2.15 1.64 1.35 ...
##  $ Ash                         : num  2.43 2.14 2.67 2.5 2.87 2.45 2.45 2.61 2.17 2.27 ...
##  $ Alcalinity.of.ash           : num  15.6 11.2 18.6 16.8 21 15.2 14.6 17.6 14 16 ...
##  $ Magnesium                   : int  127 100 101 113 118 112 96 121 97 98 ...
##  $ Total.phenols               : num  2.8 2.65 2.8 3.85 2.8 3.27 2.5 2.6 2.8 2.98 ...
##  $ Flavanoids                  : num  3.06 2.76 3.24 3.49 2.69 3.39 2.52 2.51 2.98 3.15 ...
##  $ Nonflavanoid.phenols        : num  0.28 0.26 0.3 0.24 0.39 0.34 0.3 0.31 0.29 0.22 ...
##  $ Proanthocyanins             : num  2.29 1.28 2.81 2.18 1.82 1.97 1.98 1.25 1.98 1.85 ...
##  $ Color.intensity             : num  5.64 4.38 5.68 7.8 4.32 6.75 5.25 5.05 5.2 7.22 ...
##  $ Hue                         : num  1.04 1.05 1.03 0.86 1.04 1.05 1.02 1.06 1.08 1.01 ...
##  $ OD280.OD315.of.diluted.wines: num  3.92 3.4 3.17 3.45 2.93 2.85 3.58 3.58 2.85 3.55 ...
##  $ Proline                     : int  1065 1050 1185 1480 735 1450 1290 1295 1045 1045 ...

Aplicación de PCA

Indique qué beneficios obtenemos de PCA:El análisis de componentes principales (PCA) permite reducir la dimensionalidad de los datos manteniendo la mayor parte de la variabilidad, lo que facilita la visualización, simplifica los modelos y elimina redundancias entre variables correlacionadas.

A continuación proceda a revisar la data para asegurarse que no tiene variables con valor 0 o negativos

##                     Cultivar                      Alcohol 
##                        FALSE                        FALSE 
##                   Malic.acid                          Ash 
##                        FALSE                        FALSE 
##            Alcalinity.of.ash                    Magnesium 
##                        FALSE                        FALSE 
##                Total.phenols                   Flavanoids 
##                        FALSE                        FALSE 
##         Nonflavanoid.phenols              Proanthocyanins 
##                        FALSE                        FALSE 
##              Color.intensity                          Hue 
##                        FALSE                        FALSE 
## OD280.OD315.of.diluted.wines                      Proline 
##                        FALSE                        FALSE

Indique en este lugar cuál es el propósito de la función prcomp: El propósito de la función prcomp en R es realizar un análisis de componentes principales (PCA) calculando las combinaciones lineales óptimas de las variables originales, generando los vectores propios (direcciones principales) y valores propios (varianza explicada) para simplificar y comprender la estructura de los datos.

Aplicando PRCOMP

## Importance of components:
##                           PC1    PC2    PC3     PC4     PC5     PC6     PC7
## Standard deviation     2.3529 1.5802 1.2025 0.96328 0.93675 0.82023 0.74418
## Proportion of Variance 0.3954 0.1784 0.1033 0.06628 0.06268 0.04806 0.03956
## Cumulative Proportion  0.3954 0.5738 0.6771 0.74336 0.80604 0.85409 0.89365
##                           PC8     PC9    PC10    PC11    PC12    PC13    PC14
## Standard deviation     0.5916 0.54272 0.51216 0.47524 0.41085 0.35995 0.24044
## Proportion of Variance 0.0250 0.02104 0.01874 0.01613 0.01206 0.00925 0.00413
## Cumulative Proportion  0.9186 0.93969 0.95843 0.97456 0.98662 0.99587 1.00000

Indique aquí cuál es el concepto que se utiliza para la selección de componentes principales:El concepto utilizado para la selección de componentes principales es la varianza explicada acumulada, donde se eligen las componentes que explican un porcentaje significativo de la variabilidad total de los datos, generalmente basado en un umbral predefinido (como el 70-90%) o el criterio de codo en el gráfico de scree.

##  [1] 0.3954249 0.5737874 0.6770785 0.7433583 0.8060371 0.8540927 0.8936497
##  [8] 0.9186522 0.9396909 0.9584270 0.9745591 0.9866160 0.9958705 1.0000000

Realice un análisis de la visualización anterior, qué indica

Relación entre las variables originales y las Componentes Principales

Realice un análisis de la visualización anterior, qué indica

Indique cuál es el concepto de la calidad de la representación cos2:El concepto de la calidad de la representación cos2 se refiere a la proporción de la varianza de una observación explicada por un componente principal específico, indicando qué tan bien una observación está representada en el espacio reducido; valores altos de cos2 implican una representación precisa en el componente seleccionado.

## Warning: package 'factoextra' was built under R version 4.3.3

## Welcome! Want to learn more? See two factoextra-related books at https://goo.gl/ve3WBa

Realice un análisis de la visualización anterior, qué indica

Parte 2 MDS de wine

En sus propias palabras indique cuáles son los beneficios de hacer un análisis de conglomerados, en qué nos ayuda en la visualización de los datos:El análisis de conglomerados permite agrupar datos similares en conjuntos homogéneos, lo que facilita identificar patrones, relaciones ocultas y estructuras subyacentes, ayudándonos a simplificar y visualizar de manera más clara la organización de los datos.

## Warning: package 'cluster' was built under R version 4.3.3

Indique aquí qué es la matriz de distancias, qué algoritmos de distancias existen:La matriz de distancias es una representación matemática que mide las diferencias o similitudes entre pares de observaciones en un conjunto de datos, utilizando una métrica de distancia específica. Existen varios algoritmos de distancias, entre los cuales destacan:Distancia Euclidiana: Mide la distancia directa en línea recta entre dos puntos en un espacio n-dimensional.

Indique aquí qué hace la función cmdscale:La función cmdscale en R realiza un escalado multidimensional clásico (MDS), que transforma una matriz de distancias en coordenadas en un espacio de menor dimensión, preservando las relaciones de proximidad entre los puntos para facilitar la visualización y el análisis.

Cree el diagrama de los componentes principales del MDS

Indique cómo nos ayudan los widgets de Shiny para ingresar argumentos:Los widgets de Shiny permiten a los usuarios ingresar argumentos de forma interactiva, facilitando la personalización de parámetros en tiempo real, lo que enriquece el análisis y hace más intuitiva la exploración de los datos y resultados.

Obtenga el diagrama de conglomerados de acuerdo al widget anterior

Emita un comentario final sobre el trabajo:Este trabajo demuestra cómo el uso de técnicas como PCA y MDS facilita la comprensión y visualización de datos complejos al reducir su dimensionalidad, mientras que la integración de estas herramientas en un entorno dinámico como Shiny permite explorar resultados de manera interactiva y ajustable, enriqueciendo el análisis y la toma de decisiones.

rmarkdown::render(“wine.Rmd”)