Parte 1 : PCA de wine

En sus propias palabras indique cuales son los beneficios de los archivos RMD en la visualizacion de los datos.

Un archivo RMD nos permite diseñar un documento estructurado, combinando código, texto y gráficos con widgets integrados lo que lo hace más interactivo; y así obteniendo como salida un archivo en el formato que desee el usuario.

## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr     1.1.4     ✔ readr     2.1.5
## ✔ forcats   1.0.0     ✔ stringr   1.5.1
## ✔ ggplot2   3.5.2     ✔ tibble    3.2.1
## ✔ lubridate 1.9.4     ✔ tidyr     1.3.1
## ✔ purrr     1.0.4     
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag()    masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
## Welcome! Want to learn more? See two factoextra-related books at https://goo.gl/ve3WBa
## 
## Loading required package: viridisLite

Proceda a cargar los datos de wine.csv _El URL es https://www.jaredlander.com/data/wine.csv_

##   Cultivar Alcohol Malic.acid  Ash Alcalinity.of.ash Magnesium Total.phenols
## 1        1   14.23       1.71 2.43              15.6       127          2.80
## 2        1   13.20       1.78 2.14              11.2       100          2.65
## 3        1   13.16       2.36 2.67              18.6       101          2.80
## 4        1   14.37       1.95 2.50              16.8       113          3.85
## 5        1   13.24       2.59 2.87              21.0       118          2.80
##   Flavanoids Nonflavanoid.phenols Proanthocyanins Color.intensity  Hue
## 1       3.06                 0.28            2.29            5.64 1.04
## 2       2.76                 0.26            1.28            4.38 1.05
## 3       3.24                 0.30            2.81            5.68 1.03
## 4       3.49                 0.24            2.18            7.80 0.86
## 5       2.69                 0.39            1.82            4.32 1.04
##   OD280.OD315.of.diluted.wines Proline
## 1                         3.92    1065
## 2                         3.40    1050
## 3                         3.17    1185
## 4                         3.45    1480
## 5                         2.93     735

Indique aquí de que se trata el dataset que acaba de cargar y los tipos de cada variable. Nos interesa especialmente aquellas que no sean numéricas.

Este dataset contiene variables que describen características físico-químicas de 3 clases de vinos. Todas son numéricas a excepción del tipo de vino que se considera como categórica.

## 'data.frame':    178 obs. of  14 variables:
##  $ Cultivar                    : int  1 1 1 1 1 1 1 1 1 1 ...
##  $ Alcohol                     : num  14.2 13.2 13.2 14.4 13.2 ...
##  $ Malic.acid                  : num  1.71 1.78 2.36 1.95 2.59 1.76 1.87 2.15 1.64 1.35 ...
##  $ Ash                         : num  2.43 2.14 2.67 2.5 2.87 2.45 2.45 2.61 2.17 2.27 ...
##  $ Alcalinity.of.ash           : num  15.6 11.2 18.6 16.8 21 15.2 14.6 17.6 14 16 ...
##  $ Magnesium                   : int  127 100 101 113 118 112 96 121 97 98 ...
##  $ Total.phenols               : num  2.8 2.65 2.8 3.85 2.8 3.27 2.5 2.6 2.8 2.98 ...
##  $ Flavanoids                  : num  3.06 2.76 3.24 3.49 2.69 3.39 2.52 2.51 2.98 3.15 ...
##  $ Nonflavanoid.phenols        : num  0.28 0.26 0.3 0.24 0.39 0.34 0.3 0.31 0.29 0.22 ...
##  $ Proanthocyanins             : num  2.29 1.28 2.81 2.18 1.82 1.97 1.98 1.25 1.98 1.85 ...
##  $ Color.intensity             : num  5.64 4.38 5.68 7.8 4.32 6.75 5.25 5.05 5.2 7.22 ...
##  $ Hue                         : num  1.04 1.05 1.03 0.86 1.04 1.05 1.02 1.06 1.08 1.01 ...
##  $ OD280.OD315.of.diluted.wines: num  3.92 3.4 3.17 3.45 2.93 2.85 3.58 3.58 2.85 3.55 ...
##  $ Proline                     : int  1065 1050 1185 1480 735 1450 1290 1295 1045 1045 ...

Aplicación de PCA

Indique qué beneficios obtenemos de PCA, A continuación proceda a revisar la data para asegurarse que no tiene variables con valor “0” o negativos.

Con el PCA se logra reducir la cantidad de variables totales de un dataset manteniendo la varianza del contenido. Así se puede simplificar un poco los modelos sin perder información.

Indique cuál es el propósito de la función prcomp

La funcion prcomp sirve para realizar un PCA de una matriz de datos mediante el SVD o descomposicion por valores singulares. De esta función de obtiene la proporción de la varianza explicada de cada componente e información sobre cómo contribuye cada uno.

Aplicando PRCOMP

Indique cuál es el concepto que se utiliza para la selección de componentes principales.

El concepto que se utiliza es tomar únicamente los componentes cuya varianza acumulada sea aproximadamente del 75-80%, de esta forma se garantiza representar correctamente los datos originales.

##    Componente    Varianza Acumulada
## 1           1 0.395424860 0.3954249
## 2           2 0.178362589 0.5737874
## 3           3 0.103291016 0.6770785
## 4           4 0.066279845 0.7433583
## 5           5 0.062678751 0.8060371
## 6           6 0.048055596 0.8540927
## 7           7 0.039557068 0.8936497
## 8           8 0.025002441 0.9186522
## 9           9 0.021038710 0.9396909
## 10         10 0.018736150 0.9584270
## 11         11 0.016132030 0.9745591
## 12         12 0.012056908 0.9866160
## 13         13 0.009254584 0.9958705
## 14         14 0.004129451 1.0000000

Realice un análisis de la visualización anterior, qué indica?

El gráfico de barras con la varianza sirve para establecer cuántos componentes serán adecuados para describir o abarcar un porcentaje acumulado considerable de la varianza. Se puede también visualizar el codo o punto donde la varianza comienza a ser menor.

Relación entre las variables originales y los Componentes Principales

Realice un análisis de la visualización anterior, qué indica?

Los vectores más largos indican que la variable contribuye en mayor proporción. Adicionalmente los vectores con la misma dirección indican que las variables están relacionadas.

Indique cual es el concepto de la calidad de la representación cos2

El cos2 representa el coseno al cuadrado del angulo formado entre una variable y el componente, de tal forma que valores cercanos a 1 indican que la variable está bien representada por los componentes; valores bajos indican lo contrario.

Realice un análisis de la visualización anterior, qué indica?

La escala de colores permite diferenciar qué observaciones están mejor representadas por los componentes; un color más intenso significa mejor representación.

Parte 2 MDS de wine

En sus propias palabras indique cuales son los beneficios de hacer un análisis de conglomerados, en que nos ayuda en la visualización de los datos

El análisis de conglomerados nos permite identificar grupos o agrupaciones en las observaciones según sus características similares, lo cual nos puede dar más información sobre la estructura o comportamiento de los datos.

Indique qué es la matriz de distancias, qué algoritmos de distancias existen.

Es una matriz que contiene las distancias entre pares de observaciones y describe qué tan semejantes son entre sí. Se puede calcular con distancia Euclideana, algoritmo de Manhattan o Mahalanobis.

Indique qué hace la función cmdscale.

Esta función utiliza la matriz de distancias para transformarlas en coordenadas de 2 o 3 dimensiones, para que la distancia espacial sea lo mas cercana a las distancias originales.

Cree el diagrama de los componentes principales del MDS

Indique cómo nos ayudan los widgets de Shiny para ingresar argumentos.

Los widgets de shiny son especialmente útiles para proporcionar elementos interactivos en las visualizaciones sin tener que modificar el código. También permite al usuario personalizar ciertos inputs para mejorar la interpretación.

Obtenga el diagrama de conglomerados de acuerdo al widget anterior

Emita un comentario final sobre el trabajo

El uso de PCA y MDS son métodos que facilitan la interpretación y análisis de datos; el uso de RMD y herramientas como shiny hacen que las visualizaciones sean de mejor aporte para comprender estos métodos.