TAREA6_REPO_PCA

Beneficios de los archivos RMD

Los archivos RMD permiten la integración del código con la visualización, con textos explicativos. Gracias a que permite el uso de librerías avanzadas, las visualizaciones que ofrece son dinámicas y reproducibles. Por otra parte se pueden crear archivos HTML, PDF y hasta word

Parte 1 PCA de wine

## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr     1.1.4     ✔ readr     2.1.5
## ✔ forcats   1.0.0     ✔ stringr   1.5.1
## ✔ ggplot2   3.5.2     ✔ tibble    3.2.1
## ✔ lubridate 1.9.4     ✔ tidyr     1.3.1
## ✔ purrr     1.0.4     
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag()    masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
## Welcome! Want to learn more? See two factoextra-related books at https://goo.gl/ve3WBa
## 
## Cargando paquete requerido: viridisLite

Proceda a cargar los datos de wine.csv (URL: https://www.jaredlander.com/data/wine.csv).

##   Cultivar Alcohol Malic.acid  Ash Alcalinity.of.ash Magnesium Total.phenols
## 1        1   14.23       1.71 2.43              15.6       127          2.80
## 2        1   13.20       1.78 2.14              11.2       100          2.65
## 3        1   13.16       2.36 2.67              18.6       101          2.80
## 4        1   14.37       1.95 2.50              16.8       113          3.85
## 5        1   13.24       2.59 2.87              21.0       118          2.80
##   Flavanoids Nonflavanoid.phenols Proanthocyanins Color.intensity  Hue
## 1       3.06                 0.28            2.29            5.64 1.04
## 2       2.76                 0.26            1.28            4.38 1.05
## 3       3.24                 0.30            2.81            5.68 1.03
## 4       3.49                 0.24            2.18            7.80 0.86
## 5       2.69                 0.39            1.82            4.32 1.04
##   OD280.OD315.of.diluted.wines Proline
## 1                         3.92    1065
## 2                         3.40    1050
## 3                         3.17    1185
## 4                         3.45    1480
## 5                         2.93     735

Indique aquí de que se trata el dataset que acaba de cargar y los tipos de cada_ variable. Nos interesa especialmente aquellas que no sean numéricas:

Los datos del dataset comprenden información sobre las carácteristicas en general que tienen vinos de diferentes orígenes o cosechas. Contiene muestras de cada vino.

## 'data.frame':    178 obs. of  14 variables:
##  $ Cultivar                    : int  1 1 1 1 1 1 1 1 1 1 ...
##  $ Alcohol                     : num  14.2 13.2 13.2 14.4 13.2 ...
##  $ Malic.acid                  : num  1.71 1.78 2.36 1.95 2.59 1.76 1.87 2.15 1.64 1.35 ...
##  $ Ash                         : num  2.43 2.14 2.67 2.5 2.87 2.45 2.45 2.61 2.17 2.27 ...
##  $ Alcalinity.of.ash           : num  15.6 11.2 18.6 16.8 21 15.2 14.6 17.6 14 16 ...
##  $ Magnesium                   : int  127 100 101 113 118 112 96 121 97 98 ...
##  $ Total.phenols               : num  2.8 2.65 2.8 3.85 2.8 3.27 2.5 2.6 2.8 2.98 ...
##  $ Flavanoids                  : num  3.06 2.76 3.24 3.49 2.69 3.39 2.52 2.51 2.98 3.15 ...
##  $ Nonflavanoid.phenols        : num  0.28 0.26 0.3 0.24 0.39 0.34 0.3 0.31 0.29 0.22 ...
##  $ Proanthocyanins             : num  2.29 1.28 2.81 2.18 1.82 1.97 1.98 1.25 1.98 1.85 ...
##  $ Color.intensity             : num  5.64 4.38 5.68 7.8 4.32 6.75 5.25 5.05 5.2 7.22 ...
##  $ Hue                         : num  1.04 1.05 1.03 0.86 1.04 1.05 1.02 1.06 1.08 1.01 ...
##  $ OD280.OD315.of.diluted.wines: num  3.92 3.4 3.17 3.45 2.93 2.85 3.58 3.58 2.85 3.55 ...
##  $ Proline                     : int  1065 1050 1185 1480 735 1450 1290 1295 1045 1045 ...

Aplicación de PCA

Indique que beneficios obtenemos de PCA:

PCA permite reducir el número de variables (dimensiones) manteniendo la mayor parte de la variabilidad (información) del conjunto de datos. Esto es especialmente útil cuando hay muchas variables correlacionadas entre sí.

A continuaci?n proceda a revisar la data para asegurarse que no tiene variables con valor 0_ o negativos_

Indique en este lugar cual es el propósito de la función prcomp

Su propósito es transformar un conjunto de variables posiblemente correlacionadas en un conjunto de componentes principales no correlacionados, ordenados por la cantidad de varianza que explican en los datos.

Aplicando PRCOMP

Indique aquí cuál es el concepto que se utiliza para la selección de componentes principales

Cada componente principal (PC) explica una parte de la varianza total de los datos. El objetivo es seleccionar un número reducido de componentes que: 1_ Conserven la mayor parte de la información original. 2_ Expliquen un alto porcentaje de la varianza (por ejemplo, 80% o 90%).

##    Componente    Varianza Acumulada
## 1           1 0.395424860 0.3954249
## 2           2 0.178362589 0.5737874
## 3           3 0.103291016 0.6770785
## 4           4 0.066279845 0.7433583
## 5           5 0.062678751 0.8060371
## 6           6 0.048055596 0.8540927
## 7           7 0.039557068 0.8936497
## 8           8 0.025002441 0.9186522
## 9           9 0.021038710 0.9396909
## 10         10 0.018736150 0.9584270
## 11         11 0.016132030 0.9745591
## 12         12 0.012056908 0.9866160
## 13         13 0.009254584 0.9958705
## 14         14 0.004129451 1.0000000

Realice un análisis de la visualización anterior, que indica

1_ El primer componente (PC1) explica aproximadamente el 39.5% de la varianza total. 2_ Los primeros tres componentes explican en conjunto el 67.7%, lo cual ya da una representación razonablemente fiel de los datos originales. 3_ Con los primeros cinco componentes, se alcanza un 80.6% de la varianza acumulada, superando el umbral comúnmente aceptado del 80%. 4_ A partir del sexto componente en adelante, cada uno aporta una cantidad muy baja de varianza, indicando rendimiento decreciente en términos de información adicional.

Relación entre las variables originales y las Componentes Principales

Realice un an?lisis de la visualizaci?n anterior, que indica_

El gráfico muestra cómo las variables originales se proyectan en el plano definido por las dos primeras componentes principales (PC1 y PC2): - Dim1 (PC1) explica el 39.5% de la varianza, y Dim2 (PC2) el 17.8%, sumando un 57.3% en total. - Las variables con vectores más largos y colores más intensos (azul fuerte) tienen mayor contribución a las componentes. - Las variables que están cercanas entre sí están positivamente correlacionadas. - Las que apuntan en direcciones opuestas tienen una correlación negativa.

Indique cual es el concepto de la calidad de la representaci?n cos2_

El cos2 (coseno cuadrado) mide la calidad de la representación de una variable u observación en los ejes principales. Valores cercanos a 1 indican una buena representación en el plano factorial.

Realice un análisis de la visualización anterior, ¿qué indica?

El gráfico muestra la calidad de representación (cos2) de cada individuo en el plano PC1-PC2. Los puntos con colores más claros (amarillo) están mejor representados; los más oscuros (violeta) tienen menor calidad en este plano.

Parte 2 MDS de wine

En sus propias palabras indique cuales son los beneficios de hacer un análisis de conglomerados, en que nos ayuda en la visualización de los datos

El análisis de conglomerados permite agrupar observaciones similares, lo cual ayuda a descubrir patrones o estructuras ocultas. También facilita la visualización al reducir la complejidad del conjunto de datos y mostrar relaciones entre grupos.

Indique que es la matriz de distancias, que algoritmos de distancias existen

La matriz de distancias muestra qué tan diferentes son las observaciones entre sí. Se construye comparando cada par de puntos según alguna métrica. Algoritmos comunes: Euclidiana, Manhattan, Minkowski y distancia de Mahalanobis.

Indique que hace la función cmdscale

La función cmdscale() realiza un escalamiento multidimensional clásico (MDS), reduce dimensiones a partir de una matriz de distancias. Devuelve coordenadas que preservan lo mejor posible las distancias originales

Cree el diagrama de los componentes principales del MDS_

indique como nos ayudan los widgets de Shiny para ingresar argumentos

Los widgets de Shiny permiten a los usuarios ingresar argumentos de forma interactiva (como seleccionar columnas o ajustar parámetros), facilitando el control dinámico del análisis sin modificar el código.

Clusters

Obtenga el diagrama de conglomerados de acuerdo al widget anterior_

Emita un comentario final sobre el trabajo

El trabajo permitió interactuar más con la herramienta RMarkdown, conocer y aplicar técnicas de reducción de dimensionalidad y agrupamiento, facilitando la visualización e interpretación de datos. Se integró RMD y Shiny para lograr análisis interactivos y reproducibles.

TAREA6_REPO_PCA_MDS

Carlos Junior Basurto Lara - Maestrante

2025-06-28