Los archivos RMD permiten la integración del código con la visualización, con textos explicativos. Gracias a que permite el uso de librerías avanzadas, las visualizaciones que ofrece son dinámicas y reproducibles. Por otra parte se pueden crear archivos HTML, PDF y hasta word
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr 1.1.4 ✔ readr 2.1.5
## ✔ forcats 1.0.0 ✔ stringr 1.5.1
## ✔ ggplot2 3.5.2 ✔ tibble 3.2.1
## ✔ lubridate 1.9.4 ✔ tidyr 1.3.1
## ✔ purrr 1.0.4
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag() masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
## Welcome! Want to learn more? See two factoextra-related books at https://goo.gl/ve3WBa
##
## Cargando paquete requerido: viridisLite
Proceda a cargar los datos de wine.csv (URL: https://www.jaredlander.com/data/wine.csv).
## Cultivar Alcohol Malic.acid Ash Alcalinity.of.ash Magnesium Total.phenols
## 1 1 14.23 1.71 2.43 15.6 127 2.80
## 2 1 13.20 1.78 2.14 11.2 100 2.65
## 3 1 13.16 2.36 2.67 18.6 101 2.80
## 4 1 14.37 1.95 2.50 16.8 113 3.85
## 5 1 13.24 2.59 2.87 21.0 118 2.80
## Flavanoids Nonflavanoid.phenols Proanthocyanins Color.intensity Hue
## 1 3.06 0.28 2.29 5.64 1.04
## 2 2.76 0.26 1.28 4.38 1.05
## 3 3.24 0.30 2.81 5.68 1.03
## 4 3.49 0.24 2.18 7.80 0.86
## 5 2.69 0.39 1.82 4.32 1.04
## OD280.OD315.of.diluted.wines Proline
## 1 3.92 1065
## 2 3.40 1050
## 3 3.17 1185
## 4 3.45 1480
## 5 2.93 735
Indique aquí de que se trata el dataset que acaba de cargar y los tipos de cada_ variable. Nos interesa especialmente aquellas que no sean numéricas:
Los datos del dataset comprenden información sobre las carácteristicas en general que tienen vinos de diferentes orígenes o cosechas. Contiene muestras de cada vino.
## 'data.frame': 178 obs. of 14 variables:
## $ Cultivar : int 1 1 1 1 1 1 1 1 1 1 ...
## $ Alcohol : num 14.2 13.2 13.2 14.4 13.2 ...
## $ Malic.acid : num 1.71 1.78 2.36 1.95 2.59 1.76 1.87 2.15 1.64 1.35 ...
## $ Ash : num 2.43 2.14 2.67 2.5 2.87 2.45 2.45 2.61 2.17 2.27 ...
## $ Alcalinity.of.ash : num 15.6 11.2 18.6 16.8 21 15.2 14.6 17.6 14 16 ...
## $ Magnesium : int 127 100 101 113 118 112 96 121 97 98 ...
## $ Total.phenols : num 2.8 2.65 2.8 3.85 2.8 3.27 2.5 2.6 2.8 2.98 ...
## $ Flavanoids : num 3.06 2.76 3.24 3.49 2.69 3.39 2.52 2.51 2.98 3.15 ...
## $ Nonflavanoid.phenols : num 0.28 0.26 0.3 0.24 0.39 0.34 0.3 0.31 0.29 0.22 ...
## $ Proanthocyanins : num 2.29 1.28 2.81 2.18 1.82 1.97 1.98 1.25 1.98 1.85 ...
## $ Color.intensity : num 5.64 4.38 5.68 7.8 4.32 6.75 5.25 5.05 5.2 7.22 ...
## $ Hue : num 1.04 1.05 1.03 0.86 1.04 1.05 1.02 1.06 1.08 1.01 ...
## $ OD280.OD315.of.diluted.wines: num 3.92 3.4 3.17 3.45 2.93 2.85 3.58 3.58 2.85 3.55 ...
## $ Proline : int 1065 1050 1185 1480 735 1450 1290 1295 1045 1045 ...
Indique que beneficios obtenemos de PCA:
PCA permite reducir el número de variables (dimensiones) manteniendo la mayor parte de la variabilidad (información) del conjunto de datos. Esto es especialmente útil cuando hay muchas variables correlacionadas entre sí.
A continuaci?n proceda a revisar la data para asegurarse que no tiene variables con valor 0_ o negativos_
Indique en este lugar cual es el propósito de la función prcomp
Su propósito es transformar un conjunto de variables posiblemente correlacionadas en un conjunto de componentes principales no correlacionados, ordenados por la cantidad de varianza que explican en los datos.
Indique aquí cuál es el concepto que se utiliza para la selección de componentes principales
Cada componente principal (PC) explica una parte de la varianza total de los datos. El objetivo es seleccionar un número reducido de componentes que: 1_ Conserven la mayor parte de la información original. 2_ Expliquen un alto porcentaje de la varianza (por ejemplo, 80% o 90%).
## Componente Varianza Acumulada
## 1 1 0.395424860 0.3954249
## 2 2 0.178362589 0.5737874
## 3 3 0.103291016 0.6770785
## 4 4 0.066279845 0.7433583
## 5 5 0.062678751 0.8060371
## 6 6 0.048055596 0.8540927
## 7 7 0.039557068 0.8936497
## 8 8 0.025002441 0.9186522
## 9 9 0.021038710 0.9396909
## 10 10 0.018736150 0.9584270
## 11 11 0.016132030 0.9745591
## 12 12 0.012056908 0.9866160
## 13 13 0.009254584 0.9958705
## 14 14 0.004129451 1.0000000
Realice un análisis de la visualización anterior, que indica
1_ El primer componente (PC1) explica aproximadamente el 39.5% de la varianza total. 2_ Los primeros tres componentes explican en conjunto el 67.7%, lo cual ya da una representación razonablemente fiel de los datos originales. 3_ Con los primeros cinco componentes, se alcanza un 80.6% de la varianza acumulada, superando el umbral comúnmente aceptado del 80%. 4_ A partir del sexto componente en adelante, cada uno aporta una cantidad muy baja de varianza, indicando rendimiento decreciente en términos de información adicional.
Realice un an?lisis de la visualizaci?n anterior, que indica_
El gráfico muestra cómo las variables originales se proyectan en el plano definido por las dos primeras componentes principales (PC1 y PC2): - Dim1 (PC1) explica el 39.5% de la varianza, y Dim2 (PC2) el 17.8%, sumando un 57.3% en total. - Las variables con vectores más largos y colores más intensos (azul fuerte) tienen mayor contribución a las componentes. - Las variables que están cercanas entre sí están positivamente correlacionadas. - Las que apuntan en direcciones opuestas tienen una correlación negativa.
Indique cual es el concepto de la calidad de la representaci?n cos2_
El cos2 (coseno cuadrado) mide la calidad de la representación de una variable u observación en los ejes principales. Valores cercanos a 1 indican una buena representación en el plano factorial.
Realice un análisis de la visualización anterior, ¿qué indica?
El gráfico muestra la calidad de representación (cos2) de cada individuo en el plano PC1-PC2. Los puntos con colores más claros (amarillo) están mejor representados; los más oscuros (violeta) tienen menor calidad en este plano.
En sus propias palabras indique cuales son los beneficios de hacer un análisis de conglomerados, en que nos ayuda en la visualización de los datos
El análisis de conglomerados permite agrupar observaciones similares, lo cual ayuda a descubrir patrones o estructuras ocultas. También facilita la visualización al reducir la complejidad del conjunto de datos y mostrar relaciones entre grupos.
Indique que es la matriz de distancias, que algoritmos de distancias existen
La matriz de distancias muestra qué tan diferentes son las observaciones entre sí. Se construye comparando cada par de puntos según alguna métrica. Algoritmos comunes: Euclidiana, Manhattan, Minkowski y distancia de Mahalanobis.
Indique que hace la función cmdscale
La función cmdscale() realiza un escalamiento multidimensional clásico (MDS), reduce dimensiones a partir de una matriz de distancias. Devuelve coordenadas que preservan lo mejor posible las distancias originales
Cree el diagrama de los componentes principales del MDS_
indique como nos ayudan los widgets de Shiny para ingresar
argumentos
Los widgets de Shiny permiten a los usuarios ingresar argumentos de forma interactiva (como seleccionar columnas o ajustar parámetros), facilitando el control dinámico del análisis sin modificar el código.
Obtenga el diagrama de conglomerados de acuerdo al widget anterior_
Emita un comentario final sobre el trabajo
El trabajo permitió interactuar más con la herramienta RMarkdown, conocer y aplicar técnicas de reducción de dimensionalidad y agrupamiento, facilitando la visualización e interpretación de datos. Se integró RMD y Shiny para lograr análisis interactivos y reproducibles.