En sus propias palabras indique cuales son los beneficios de los archivos RMD en la visualización de los datos
Los archivos RMD son muy utiles porque permiten combinar texto y codigo en un mismo documento. Esto hace que los analisis sean reproducibles y faciles de entender. Ademas, se pueden generar reportes en diferentes formatos (HTML, PDF, Word) y agregar gráficos interactivos, lo que ayuda a explicar mejor los resultados. Tambien son prácticos para automatizar informes y mantener todo el trabajo en un solo lugar.
Proceda a cargar los datos de wine.csv _El URL es https://www.jaredlander.com/data/wine.csv_
## Cultivar Alcohol Malic.acid Ash Alcalinity.of.ash Magnesium Total.phenols
## 1 1 14.23 1.71 2.43 15.6 127 2.80
## 2 1 13.20 1.78 2.14 11.2 100 2.65
## 3 1 13.16 2.36 2.67 18.6 101 2.80
## 4 1 14.37 1.95 2.50 16.8 113 3.85
## 5 1 13.24 2.59 2.87 21.0 118 2.80
## Flavanoids Nonflavanoid.phenols Proanthocyanins Color.intensity Hue
## 1 3.06 0.28 2.29 5.64 1.04
## 2 2.76 0.26 1.28 4.38 1.05
## 3 3.24 0.30 2.81 5.68 1.03
## 4 3.49 0.24 2.18 7.80 0.86
## 5 2.69 0.39 1.82 4.32 1.04
## OD280.OD315.of.diluted.wines Proline
## 1 3.92 1065
## 2 3.40 1050
## 3 3.17 1185
## 4 3.45 1480
## 5 2.93 735
Indique aqui de que se trata el dataset que acaba de cargar y los tipos de cada variable. Nos interesa especialmente aquellas que no sean numéricas
El dataset wine.csv contiene información sobre diferentes cultivares de vino y sus características químicas. Cada fila representa una muestra de vino y cada columna una variable medida en laboratorio.
En resumen, solo la variable Cultivar no es numérica en
sentido analítico (es una etiqueta de clase), mientras que todas las
dem?s son numéricas continuas, ideales para an?lisis
multivariado como PCA y MDS.
## 'data.frame': 178 obs. of 14 variables:
## $ Cultivar : int 1 1 1 1 1 1 1 1 1 1 ...
## $ Alcohol : num 14.2 13.2 13.2 14.4 13.2 ...
## $ Malic.acid : num 1.71 1.78 2.36 1.95 2.59 1.76 1.87 2.15 1.64 1.35 ...
## $ Ash : num 2.43 2.14 2.67 2.5 2.87 2.45 2.45 2.61 2.17 2.27 ...
## $ Alcalinity.of.ash : num 15.6 11.2 18.6 16.8 21 15.2 14.6 17.6 14 16 ...
## $ Magnesium : int 127 100 101 113 118 112 96 121 97 98 ...
## $ Total.phenols : num 2.8 2.65 2.8 3.85 2.8 3.27 2.5 2.6 2.8 2.98 ...
## $ Flavanoids : num 3.06 2.76 3.24 3.49 2.69 3.39 2.52 2.51 2.98 3.15 ...
## $ Nonflavanoid.phenols : num 0.28 0.26 0.3 0.24 0.39 0.34 0.3 0.31 0.29 0.22 ...
## $ Proanthocyanins : num 2.29 1.28 2.81 2.18 1.82 1.97 1.98 1.25 1.98 1.85 ...
## $ Color.intensity : num 5.64 4.38 5.68 7.8 4.32 6.75 5.25 5.05 5.2 7.22 ...
## $ Hue : num 1.04 1.05 1.03 0.86 1.04 1.05 1.02 1.06 1.08 1.01 ...
## $ OD280.OD315.of.diluted.wines: num 3.92 3.4 3.17 3.45 2.93 2.85 3.58 3.58 2.85 3.55 ...
## $ Proline : int 1065 1050 1185 1480 735 1450 1290 1295 1045 1045 ...
_Indique que beneficios obtenemos de PCA,
El Análisis de Componentes Principales (PCA) es una técnica estadística que nos ayuda a:
A continuacion proceda a revisar la data para asegurarse que no tiene variables con valor 0 o negativos
## [1] FALSE
## Cultivar Alcohol Malic.acid Ash Alcalinity.of.ash Magnesium
## 1 1 1.5143408 -0.56066822 0.2313998 -1.1663032 1.90852151
## 2 1 0.2455968 -0.49800856 -0.8256672 -2.4838405 0.01809398
## 3 1 0.1963252 0.02117152 1.1062139 -0.2679823 0.08810981
## 4 1 1.6867914 -0.34583508 0.4865539 -0.8069748 0.92829983
## 5 1 0.2948684 0.22705328 1.8352256 0.4506745 1.27837900
## Total.phenols Flavanoids Nonflavanoid.phenols Proanthocyanins Color.intensity
## 1 0.8067217 1.0319081 -0.6577078 1.2214385 0.2510088
## 2 0.5670481 0.7315653 -0.8184106 -0.5431887 -0.2924962
## 3 0.8067217 1.2121137 -0.4970050 2.1299594 0.2682629
## 4 2.4844372 1.4623994 -0.9791134 1.0292513 1.1827317
## 5 0.8067217 0.6614853 0.2261576 0.4002753 -0.3183774
## Hue OD280.OD315.of.diluted.wines Proline
## 1 0.3611585 1.8427215 1.01015939
## 2 0.4049085 1.1103172 0.96252635
## 3 0.3174085 0.7863692 1.39122370
## 4 -0.4263410 1.1807407 2.32800680
## 5 0.3611585 0.4483365 -0.03776747
Indique en este lugar cual es el proposito de la funcion prcomp
La función prcomp() sirve para realizar el Análisis de Componentes Principales (PCA). Su objetivo es reducir la dimensionalidad del conjunto de datos, transformando las variables originales en componentes que explican la mayor parte de la variación, facilitando la interpretación y la visualización.
Indique aqui cual es el concepto que se utiliza para la seleccion de componentes principales
El criterio más común para seleccionar los componentes principales es la varianza explicada. Se eligen aquellos componentes que acumulan un porcentaje alto de la variabilidad total (por ejemplo, 80% o mas). Esto asegura que se conserve la mayor parte de la información original con el menor número de componentes.
## Warning in geom_bar(stat = "identity", fill = barfill, color = barcolor, :
## Ignoring empty aesthetic: `width`.
Realice un analisis de la visualizacion anterior, que indica
El gráfico de codo muestra que el Componente 1 explica aproximadamente el 36% de la varianza y el Componente 2 cerca del 19%, sumando un 55% acumulado. Al incluir el Componente 3, la varianza acumulada supera el 70%. Esto indica que los tres primeros componentes concentran la mayor parte de la información del dataset, mientras que los siguientes aportan poca variabilidad adicional. Por lo tanto, es razonable seleccionar los primeros 2 o 3 componentes para reducir la dimensionalidad sin perder información relevante.
## Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
## ℹ Please use `linewidth` instead.
## ℹ The deprecated feature was likely used in the ggpubr package.
## Please report the issue at <https://github.com/kassambara/ggpubr/issues>.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.
Realice un analisis de la visualizacion anterior, que indica
En el plano CP1-CP2, cada flecha representa como cada variable original contribuye a los componentes:
En conjunto, el gráfico muestra que variables explican la mayor variación en los dos primeros componentes y que relaciones (positivas/negativas) existen entre ellas, ayudando a seleccionar las variables mas influyentes y a interpretar los ejes CP1 y CP2.
Indique cual es el concepto de la calidad de la representación cos2
Realice un análisis de la visualización anterior, que indica
El gráfico muestra la calidad de representación (cos2) de cada observación en el plano formado por los dos primeros componentes principales (CP1 y CP2):
En sus propias palabras indique cuales son los beneficios de hacer un análisis de conglomerados, en que nos ayuda en la visualización de los datos
El análisis de conglomerados bajo MDS permite agrupar observaciones similares y proyectarlas en un espacio reducido, lo que facilita:
Indique aqui que es la matriz de distancias, que algoritmos de distancias existen
La matriz de distancias es una representación que muestra la distancia entre cada par de observaciones en el dataset. Cada elemento indica cuán similares o diferentes son dos puntos según sus características.
Existen varios algoritmos para calcular estas distancias, entre los más comunes: - Euclidiana: mide la distancia en línea recta entre dos puntos en el espacio. - Manhattan: suma las diferencias absolutas entre coordenadas, es como recorrer calles en una cuadricula. - Minkowski: generaliza la distancia Euclidiana y Manhattan. - Chebyshev: toma la diferencia máxima entre coordenadas. - Mahalanobis: considera correlaciones entre variables.
## [1] "Tamanio de la matriz de distancias: 178 observaciones"
## 1 2 3 4 5
## 1 0.000000 3.487697 3.018094 2.834509 3.556821
## 2 3.487697 0.000000 4.131258 4.348349 4.614454
## 3 3.018094 4.131258 0.000000 3.237354 2.972721
## 4 2.834509 4.348349 3.237354 0.000000 4.483310
## 5 3.556821 4.614454 2.972721 4.483310 0.000000
indique aqui que hace la función cmdscale
La función cmdscale() en R se utiliza
para realizar Escalamiento Multidimensional Métrico (MDS). Su
objetivo es proyectar las observaciones en un espacio de menor dimensión
(generalmente 2D) preservando lo mejor posible las distancias
originales entre ellas. Esto permite visualizar relaciones y
similitudes entre puntos de manera intuitiva.
Cree el diagrama de los componentes principales del MDS
indique como nos ayudan los widgets de Shiny para ingresar
argumentos
Los widgets de Shiny permiten que el usuario ingrese argumentos directamente en el documento o aplicación, haciendo que las visualizaciones sean interactivas. Con ellos podemos:
Obtenga el diagrama de conglomerados de acuerdo al widget anterior
Emita un comentario final sobre el trabajo
En este trabajo se integraron dos técnicas fundamentales para el análisis multivariado: PCA y MDS, implementadas en un documento R Markdown. Con PCA logramos reducir la dimensionalidad del dataset de vinos, identificando las variables más influyentes y facilitando la interpretacián mediante gráficos. Posteriormente, aplicamos MDS para representar las relaciones entre observaciones en un espacio bidimensional, lo que permitió visualizar similitudes y diferencias de manera intuitiva. Finalmente, incorporamos widgets interactivos con Shiny para explorar dinámicamente la cantidad de clusters, enriqueciendo la experiencia analítica. Este flujo demuestra cómo combinar estadística, visualización y herramientas interactivas para obtener análisis más claros y útiles.