En sus propias palabras indique cuales son los beneficios de los archivos RMD en la visualización de los datos:
Los archivos RMD permiten integrar código, resultados, texto y visualizaciones en un solo documento reproducible, facilitando el análisis, la interpretación y la comunicación clara de los resultados.
Proceda a cargar los datos de wine.csv _El URL es https://www.jaredlander.com/data/wine.csv_
## Cultivar Alcohol Malic.acid Ash Alcalinity.of.ash Magnesium Total.phenols Flavanoids
## 1 1 14.23 1.71 2.43 15.6 127 2.80 3.06
## 2 1 13.20 1.78 2.14 11.2 100 2.65 2.76
## 3 1 13.16 2.36 2.67 18.6 101 2.80 3.24
## 4 1 14.37 1.95 2.50 16.8 113 3.85 3.49
## 5 1 13.24 2.59 2.87 21.0 118 2.80 2.69
## Nonflavanoid.phenols Proanthocyanins Color.intensity Hue OD280.OD315.of.diluted.wines
## 1 0.28 2.29 5.64 1.04 3.92
## 2 0.26 1.28 4.38 1.05 3.40
## 3 0.30 2.81 5.68 1.03 3.17
## 4 0.24 2.18 7.80 0.86 3.45
## 5 0.39 1.82 4.32 1.04 2.93
## Proline
## 1 1065
## 2 1050
## 3 1185
## 4 1480
## 5 735
Indique aquí de que se trata el dataset que acaba de cargar y los tipos de cada variable. Nos interesa especialmente aquellas que no sean numéricas:
El dataset contiene características químicas de vinos.La variable Type es categórica (factor), el resto son variables numéricas continuas.
## 'data.frame': 178 obs. of 14 variables:
## $ Cultivar : int 1 1 1 1 1 1 1 1 1 1 ...
## $ Alcohol : num 14.2 13.2 13.2 14.4 13.2 ...
## $ Malic.acid : num 1.71 1.78 2.36 1.95 2.59 1.76 1.87 2.15 1.64 1.35 ...
## $ Ash : num 2.43 2.14 2.67 2.5 2.87 2.45 2.45 2.61 2.17 2.27 ...
## $ Alcalinity.of.ash : num 15.6 11.2 18.6 16.8 21 15.2 14.6 17.6 14 16 ...
## $ Magnesium : int 127 100 101 113 118 112 96 121 97 98 ...
## $ Total.phenols : num 2.8 2.65 2.8 3.85 2.8 3.27 2.5 2.6 2.8 2.98 ...
## $ Flavanoids : num 3.06 2.76 3.24 3.49 2.69 3.39 2.52 2.51 2.98 3.15 ...
## $ Nonflavanoid.phenols : num 0.28 0.26 0.3 0.24 0.39 0.34 0.3 0.31 0.29 0.22 ...
## $ Proanthocyanins : num 2.29 1.28 2.81 2.18 1.82 1.97 1.98 1.25 1.98 1.85 ...
## $ Color.intensity : num 5.64 4.38 5.68 7.8 4.32 6.75 5.25 5.05 5.2 7.22 ...
## $ Hue : num 1.04 1.05 1.03 0.86 1.04 1.05 1.02 1.06 1.08 1.01 ...
## $ OD280.OD315.of.diluted.wines: num 3.92 3.4 3.17 3.45 2.93 2.85 3.58 3.58 2.85 3.55 ...
## $ Proline : int 1065 1050 1185 1480 735 1450 1290 1295 1045 1045 ...
Indique que beneficios obtenemos de PCA:
PCA permite reducir la dimensionalidad de los datos conservando la mayor variabilidad posible, facilitando la visualización y detección de patrones.
A continuación proceda a revisar la data para asegurarse que no tiene variables con valor 0 o negativos
No existen valores negativos ni ceros que requieran eliminación. Las variables numéricas serán normalizadas automáticamente en PCA.
## Cultivar Alcohol Malic.acid
## FALSE FALSE FALSE
## Ash Alcalinity.of.ash Magnesium
## FALSE FALSE FALSE
## Total.phenols Flavanoids Nonflavanoid.phenols
## FALSE FALSE FALSE
## Proanthocyanins Color.intensity Hue
## FALSE FALSE FALSE
## OD280.OD315.of.diluted.wines Proline
## FALSE FALSE
Indique en este lugar cual es el propósito de la función prcomp:
La función prcomp calcula las componentes principales usando descomposición en valores singulares, entregando eigenvalores, eigenvectores y scores.
Indique aquí cuál es el concepto que se utiliza para la selección de componentes principales:
Se utiliza el criterio de varianza explicada acumulada y el codo del scree plot.
## Componente Varianza Varianza_Acumulada
## 1 1 0.395424860 0.3954249
## 2 2 0.178362589 0.5737874
## 3 3 0.103291016 0.6770785
## 4 4 0.066279845 0.7433583
## 5 5 0.062678751 0.8060371
## 6 6 0.048055596 0.8540927
## 7 7 0.039557068 0.8936497
## 8 8 0.025002441 0.9186522
## 9 9 0.021038710 0.9396909
## 10 10 0.018736150 0.9584270
## 11 11 0.016132030 0.9745591
## 12 12 0.012056908 0.9866160
## 13 13 0.009254584 0.9958705
## 14 14 0.004129451 1.0000000
## Warning in geom_bar(stat = "identity", fill = barfill, color = barcolor, : Ignoring empty
## aesthetic: `width`.
Realice un análisis de la visualización anterior, que indica:
Las primeras componentes explican la mayor parte de la variabilidad del dataset.
Realice un análisis de la visualización anterior, que indica:
Las variables con mayor contribución influyen más en la formación de las componentes principales.
Indique cual es el concepto de la calidad de la representación cos2:
El cos2 mide qué tan bien una observación o variable está representada en el plano factorial.
Realice un análisis de la visualización anterior, que indica:
Los puntos con colores más intensos están mejor representados por las componentes seleccionadas.
En sus propias palabras indique cuales son los beneficios de hacer un análisis de conglomerados, en que nos ayuda en la visualización de los datos:
Permite identificar grupos similares dentro de los datos y facilita la interpretación visual de relaciones entre observaciones.
Indique aquí que es la matriz de distancias, que algoritmos de distancias existen:
La matriz de distancias mide la similitud o disimilitud entre observaciones. Algunos algoritmos comunes son: Euclidiana, Manhattan, Canberra y Minkowski.
indique aquí que hace la función cmdscale:
cmdscale realiza escalamiento multidimensional clásico (MDS) para representar distancias en un espacio de menor dimensión.
Cree el diagrama de los componentes principales del MDS:
indique como nos ayudan los widgets de Shiny para ingresar argumentos:
Los widgets de Shiny permiten ingresar valores dinámicos que actualizan los resultados en tiempo real.
Obtenga el diagrama de conglomerados de acuerdo al widget anterior:
Emita un comentario final sobre el trabajo:
El uso combinado de PCA y MDS permite una comprensión profunda de la estructura del dataset, facilitando la reducción dimensional, visualización y detección de patrones relevantes en los datos.