Parte 1 PCA de wine

En sus propias palabras indique cuales son los beneficios de los archivos RMD en la visualización de los datos

Beneficios de los archivos RMD en la visualización de datos

Los archivos RMD son muy utiles porque permiten combinar texto y codigo en un mismo documento. Esto hace que los analisis sean reproducibles y faciles de entender. Ademas, se pueden generar reportes en diferentes formatos (HTML, PDF, Word) y agregar gráficos interactivos, lo que ayuda a explicar mejor los resultados. Tambien son prácticos para automatizar informes y mantener todo el trabajo en un solo lugar.

Proceda a cargar los datos de wine.csv _El URL es https://www.jaredlander.com/data/wine.csv_

##   Cultivar Alcohol Malic.acid  Ash Alcalinity.of.ash Magnesium Total.phenols
## 1        1   14.23       1.71 2.43              15.6       127          2.80
## 2        1   13.20       1.78 2.14              11.2       100          2.65
## 3        1   13.16       2.36 2.67              18.6       101          2.80
## 4        1   14.37       1.95 2.50              16.8       113          3.85
## 5        1   13.24       2.59 2.87              21.0       118          2.80
##   Flavanoids Nonflavanoid.phenols Proanthocyanins Color.intensity  Hue
## 1       3.06                 0.28            2.29            5.64 1.04
## 2       2.76                 0.26            1.28            4.38 1.05
## 3       3.24                 0.30            2.81            5.68 1.03
## 4       3.49                 0.24            2.18            7.80 0.86
## 5       2.69                 0.39            1.82            4.32 1.04
##   OD280.OD315.of.diluted.wines Proline
## 1                         3.92    1065
## 2                         3.40    1050
## 3                         3.17    1185
## 4                         3.45    1480
## 5                         2.93     735

Indique aqui de que se trata el dataset que acaba de cargar y los tipos de cada variable. Nos interesa especialmente aquellas que no sean numéricas

Descripcion del dataset y tipos de variables

El dataset wine.csv contiene información sobre diferentes cultivares de vino y sus características químicas. Cada fila representa una muestra de vino y cada columna una variable medida en laboratorio.

En resumen, solo la variable Cultivar no es numérica en sentido analítico (es una etiqueta de clase), mientras que todas las dem?s son numéricas continuas, ideales para an?lisis multivariado como PCA y MDS.

## 'data.frame':    178 obs. of  14 variables:
##  $ Cultivar                    : int  1 1 1 1 1 1 1 1 1 1 ...
##  $ Alcohol                     : num  14.2 13.2 13.2 14.4 13.2 ...
##  $ Malic.acid                  : num  1.71 1.78 2.36 1.95 2.59 1.76 1.87 2.15 1.64 1.35 ...
##  $ Ash                         : num  2.43 2.14 2.67 2.5 2.87 2.45 2.45 2.61 2.17 2.27 ...
##  $ Alcalinity.of.ash           : num  15.6 11.2 18.6 16.8 21 15.2 14.6 17.6 14 16 ...
##  $ Magnesium                   : int  127 100 101 113 118 112 96 121 97 98 ...
##  $ Total.phenols               : num  2.8 2.65 2.8 3.85 2.8 3.27 2.5 2.6 2.8 2.98 ...
##  $ Flavanoids                  : num  3.06 2.76 3.24 3.49 2.69 3.39 2.52 2.51 2.98 3.15 ...
##  $ Nonflavanoid.phenols        : num  0.28 0.26 0.3 0.24 0.39 0.34 0.3 0.31 0.29 0.22 ...
##  $ Proanthocyanins             : num  2.29 1.28 2.81 2.18 1.82 1.97 1.98 1.25 1.98 1.85 ...
##  $ Color.intensity             : num  5.64 4.38 5.68 7.8 4.32 6.75 5.25 5.05 5.2 7.22 ...
##  $ Hue                         : num  1.04 1.05 1.03 0.86 1.04 1.05 1.02 1.06 1.08 1.01 ...
##  $ OD280.OD315.of.diluted.wines: num  3.92 3.4 3.17 3.45 2.93 2.85 3.58 3.58 2.85 3.55 ...
##  $ Proline                     : int  1065 1050 1185 1480 735 1450 1290 1295 1045 1045 ...

Aplicación de PCA

_Indique que beneficios obtenemos de PCA,

El Análisis de Componentes Principales (PCA) es una técnica estadística que nos ayuda a:

A continuacion proceda a revisar la data para asegurarse que no tiene variables con valor 0 o negativos

## [1] FALSE
##   Cultivar   Alcohol  Malic.acid        Ash Alcalinity.of.ash  Magnesium
## 1        1 1.5143408 -0.56066822  0.2313998        -1.1663032 1.90852151
## 2        1 0.2455968 -0.49800856 -0.8256672        -2.4838405 0.01809398
## 3        1 0.1963252  0.02117152  1.1062139        -0.2679823 0.08810981
## 4        1 1.6867914 -0.34583508  0.4865539        -0.8069748 0.92829983
## 5        1 0.2948684  0.22705328  1.8352256         0.4506745 1.27837900
##   Total.phenols Flavanoids Nonflavanoid.phenols Proanthocyanins Color.intensity
## 1     0.8067217  1.0319081           -0.6577078       1.2214385       0.2510088
## 2     0.5670481  0.7315653           -0.8184106      -0.5431887      -0.2924962
## 3     0.8067217  1.2121137           -0.4970050       2.1299594       0.2682629
## 4     2.4844372  1.4623994           -0.9791134       1.0292513       1.1827317
## 5     0.8067217  0.6614853            0.2261576       0.4002753      -0.3183774
##          Hue OD280.OD315.of.diluted.wines     Proline
## 1  0.3611585                    1.8427215  1.01015939
## 2  0.4049085                    1.1103172  0.96252635
## 3  0.3174085                    0.7863692  1.39122370
## 4 -0.4263410                    1.1807407  2.32800680
## 5  0.3611585                    0.4483365 -0.03776747

Indique en este lugar cual es el proposito de la funcion prcomp

La función prcomp() sirve para realizar el Análisis de Componentes Principales (PCA). Su objetivo es reducir la dimensionalidad del conjunto de datos, transformando las variables originales en componentes que explican la mayor parte de la variación, facilitando la interpretación y la visualización.

Aplicando PRCOMP

Indique aqui cual es el concepto que se utiliza para la seleccion de componentes principales

El criterio más común para seleccionar los componentes principales es la varianza explicada. Se eligen aquellos componentes que acumulan un porcentaje alto de la variabilidad total (por ejemplo, 80% o mas). Esto asegura que se conserve la mayor parte de la información original con el menor número de componentes.

## Warning in geom_bar(stat = "identity", fill = barfill, color = barcolor, :
## Ignoring empty aesthetic: `width`.

Realice un analisis de la visualizacion anterior, que indica

El gráfico de codo muestra que el Componente 1 explica aproximadamente el 36% de la varianza y el Componente 2 cerca del 19%, sumando un 55% acumulado. Al incluir el Componente 3, la varianza acumulada supera el 70%. Esto indica que los tres primeros componentes concentran la mayor parte de la información del dataset, mientras que los siguientes aportan poca variabilidad adicional. Por lo tanto, es razonable seleccionar los primeros 2 o 3 componentes para reducir la dimensionalidad sin perder información relevante.

Relacion entre las variables originales y las Componentes Principales

## Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
## ℹ Please use `linewidth` instead.
## ℹ The deprecated feature was likely used in the ggpubr package.
##   Please report the issue at <https://github.com/kassambara/ggpubr/issues>.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.

Realice un analisis de la visualizacion anterior, que indica

En el plano CP1-CP2, cada flecha representa como cada variable original contribuye a los componentes:

  • Dirección del vector: indica el sentido de la relación con CP1 y CP2. Variables con flechas en direcciones similares tienden a estar positivamente correlacionadas; si apuntan en direcciones opuestas, la correlación es negativa.
  • Longitud del vector: a mayor longitud, mayor contribución de la variable a los componentes.
  • Agrupamientos de flechas: sugieren bloques de variables relacionadas (redundancia). Esto justifica que PCA concentre su variación en pocos componentes.

En conjunto, el gráfico muestra que variables explican la mayor variación en los dos primeros componentes y que relaciones (positivas/negativas) existen entre ellas, ayudando a seleccionar las variables mas influyentes y a interpretar los ejes CP1 y CP2.

Indique cual es el concepto de la calidad de la representación cos2

Realice un análisis de la visualización anterior, que indica

El gráfico muestra la calidad de representación (cos2) de cada observación en el plano formado por los dos primeros componentes principales (CP1 y CP2):

  • Observaciones con colores mas oscuros (valores altos de cos2) están bien representadas en este plano, lo que significa que la mayor parte de su variabilidad se explica por CP1 y CP2.
  • Observaciones con colores claros (valores bajos de cos2) tienen una representación pobre en este plano; parte importante de su información se encuentra en componentes posteriores (CP3, CP4, etc.).

Parte 2 MDS de wine

En sus propias palabras indique cuales son los beneficios de hacer un análisis de conglomerados, en que nos ayuda en la visualización de los datos

El análisis de conglomerados bajo MDS permite agrupar observaciones similares y proyectarlas en un espacio reducido, lo que facilita:

Indique aqui que es la matriz de distancias, que algoritmos de distancias existen

La matriz de distancias es una representación que muestra la distancia entre cada par de observaciones en el dataset. Cada elemento indica cuán similares o diferentes son dos puntos según sus características.

Existen varios algoritmos para calcular estas distancias, entre los más comunes: - Euclidiana: mide la distancia en línea recta entre dos puntos en el espacio. - Manhattan: suma las diferencias absolutas entre coordenadas, es como recorrer calles en una cuadricula. - Minkowski: generaliza la distancia Euclidiana y Manhattan. - Chebyshev: toma la diferencia máxima entre coordenadas. - Mahalanobis: considera correlaciones entre variables.

## [1] "Tamanio de la matriz de distancias: 178 observaciones"
##          1        2        3        4        5
## 1 0.000000 3.487697 3.018094 2.834509 3.556821
## 2 3.487697 0.000000 4.131258 4.348349 4.614454
## 3 3.018094 4.131258 0.000000 3.237354 2.972721
## 4 2.834509 4.348349 3.237354 0.000000 4.483310
## 5 3.556821 4.614454 2.972721 4.483310 0.000000

indique aqui que hace la función cmdscale

La función cmdscale() en R se utiliza para realizar Escalamiento Multidimensional Métrico (MDS). Su objetivo es proyectar las observaciones en un espacio de menor dimensión (generalmente 2D) preservando lo mejor posible las distancias originales entre ellas. Esto permite visualizar relaciones y similitudes entre puntos de manera intuitiva.

Cree el diagrama de los componentes principales del MDS

indique como nos ayudan los widgets de Shiny para ingresar argumentos

Los widgets de Shiny permiten que el usuario ingrese argumentos directamente en el documento o aplicación, haciendo que las visualizaciones sean interactivas. Con ellos podemos:

Obtenga el diagrama de conglomerados de acuerdo al widget anterior

Emita un comentario final sobre el trabajo

En este trabajo se integraron dos técnicas fundamentales para el análisis multivariado: PCA y MDS, implementadas en un documento R Markdown. Con PCA logramos reducir la dimensionalidad del dataset de vinos, identificando las variables más influyentes y facilitando la interpretacián mediante gráficos. Posteriormente, aplicamos MDS para representar las relaciones entre observaciones en un espacio bidimensional, lo que permitió visualizar similitudes y diferencias de manera intuitiva. Finalmente, incorporamos widgets interactivos con Shiny para explorar dinámicamente la cantidad de clusters, enriqueciendo la experiencia analítica. Este flujo demuestra cómo combinar estadística, visualización y herramientas interactivas para obtener análisis más claros y útiles.