R Markdown permite combinar código ejecutable con texto. Su uso
facilita la reproducibilidad de los análisis y la generación de reportes
en distintos formatos como HTML o PDF. Para compilar el documento se
emplea la función rmarkdown::render() o el botón
Knit en RStudio.
En sus propias palabras indique cuáles son los beneficios de los archivos RMD en la visualización de los datos.
Los archivos RMD permiten documentar el análisis y mostrar las salidas de forma interactiva dentro de un mismo reporte. De esta manera es fácil reproducir los pasos realizados y compartirlos con otras personas.
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr 1.1.4 ✔ readr 2.1.5
## ✔ forcats 1.0.0 ✔ stringr 1.5.1
## ✔ ggplot2 3.5.2 ✔ tibble 3.2.1
## ✔ lubridate 1.9.4 ✔ tidyr 1.3.1
## ✔ purrr 1.0.4
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag() masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
## Welcome! Want to learn more? See two factoextra-related books at https://goo.gl/ve3WBa
##
## Cargando paquete requerido: viridisLite
Proceda a cargar los datos de wine.csv (URL: https://www.jaredlander.com/data/wine.csv).
## Cultivar Alcohol Malic.acid Ash Alcalinity.of.ash Magnesium Total.phenols
## 1 1 14.23 1.71 2.43 15.6 127 2.80
## 2 1 13.20 1.78 2.14 11.2 100 2.65
## 3 1 13.16 2.36 2.67 18.6 101 2.80
## 4 1 14.37 1.95 2.50 16.8 113 3.85
## 5 1 13.24 2.59 2.87 21.0 118 2.80
## Flavanoids Nonflavanoid.phenols Proanthocyanins Color.intensity Hue
## 1 3.06 0.28 2.29 5.64 1.04
## 2 2.76 0.26 1.28 4.38 1.05
## 3 3.24 0.30 2.81 5.68 1.03
## 4 3.49 0.24 2.18 7.80 0.86
## 5 2.69 0.39 1.82 4.32 1.04
## OD280.OD315.of.diluted.wines Proline
## 1 3.92 1065
## 2 3.40 1050
## 3 3.17 1185
## 4 3.45 1480
## 5 2.93 735
Indique a qué se refiere el dataset que acaba de cargar y los tipos de cada variable. Nos interesan especialmente aquellas que no sean numéricas.
El dataset contiene mediciones químicas de vinos provenientes de tres diferentes variedades de uva. Incluye concentraciones de varios compuestos y una columna categórica con la clase del vino.
## 'data.frame': 178 obs. of 14 variables:
## $ Cultivar : int 1 1 1 1 1 1 1 1 1 1 ...
## $ Alcohol : num 14.2 13.2 13.2 14.4 13.2 ...
## $ Malic.acid : num 1.71 1.78 2.36 1.95 2.59 1.76 1.87 2.15 1.64 1.35 ...
## $ Ash : num 2.43 2.14 2.67 2.5 2.87 2.45 2.45 2.61 2.17 2.27 ...
## $ Alcalinity.of.ash : num 15.6 11.2 18.6 16.8 21 15.2 14.6 17.6 14 16 ...
## $ Magnesium : int 127 100 101 113 118 112 96 121 97 98 ...
## $ Total.phenols : num 2.8 2.65 2.8 3.85 2.8 3.27 2.5 2.6 2.8 2.98 ...
## $ Flavanoids : num 3.06 2.76 3.24 3.49 2.69 3.39 2.52 2.51 2.98 3.15 ...
## $ Nonflavanoid.phenols : num 0.28 0.26 0.3 0.24 0.39 0.34 0.3 0.31 0.29 0.22 ...
## $ Proanthocyanins : num 2.29 1.28 2.81 2.18 1.82 1.97 1.98 1.25 1.98 1.85 ...
## $ Color.intensity : num 5.64 4.38 5.68 7.8 4.32 6.75 5.25 5.05 5.2 7.22 ...
## $ Hue : num 1.04 1.05 1.03 0.86 1.04 1.05 1.02 1.06 1.08 1.01 ...
## $ OD280.OD315.of.diluted.wines: num 3.92 3.4 3.17 3.45 2.93 2.85 3.58 3.58 2.85 3.55 ...
## $ Proline : int 1065 1050 1185 1480 735 1450 1290 1295 1045 1045 ...
Indique qué beneficios obtenemos de PCA. A continuación revise la data para asegurarse de que no tiene variables con valor 0 o negativos.
El PCA reduce la dimensionalidad de un conjunto de datos preservando la mayor parte de la varianza. Esto facilita visualizar patrones ocultos y eliminar correlación entre variables.
Indique cuál es el propósito de la función prcomp.
La función prcomp calcula los componentes principales de
un conjunto de variables numéricas utilizando descomposición en valores
singulares. Devuelve los vectores propios y la proporción de varianza
explicada por cada componente.
prcompIndique cuál es el concepto que se utiliza para la selección de componentes principales.
Comúnmente se utiliza el criterio de quedarse con las componentes que explican al menos el 80% de la varianza total o los autovalores mayores a uno (criterio de Kaiser).
## Componente Varianza Acumulada
## 1 1 0.395424860 0.3954249
## 2 2 0.178362589 0.5737874
## 3 3 0.103291016 0.6770785
## 4 4 0.066279845 0.7433583
## 5 5 0.062678751 0.8060371
## 6 6 0.048055596 0.8540927
## 7 7 0.039557068 0.8936497
## 8 8 0.025002441 0.9186522
## 9 9 0.021038710 0.9396909
## 10 10 0.018736150 0.9584270
## 11 11 0.016132030 0.9745591
## 12 12 0.012056908 0.9866160
## 13 13 0.009254584 0.9958705
## 14 14 0.004129451 1.0000000
Realice un análisis de la visualización anterior. ¿Qué indica?
El gráfico de barras de varianza muestra cuántos componentes son necesarios para explicar la mayor parte de la variabilidad. Generalmente se observa un codo a partir del cual la ganancia de información se vuelve marginal.
Realice un análisis de la visualización anterior. ¿Qué indica?
Las flechas más largas señalan variables con mayor contribución a los componentes seleccionados. Además, la cercanía entre ellas refleja su correlación.
Indique cuál es el concepto de la calidad de la representación
cos2.
El cos2 mide la calidad de la representación de cada
observación sobre los ejes principales. Valores altos indican que las
dimensiones seleccionadas explican bien la posición del punto.
Realice un análisis de la visualización anterior. ¿Qué indica?
La gradación de colores permite identificar las observaciones mejor
explicadas por las dos primeras componentes. Los puntos con colores
intensos poseen un cos2 alto y por tanto están bien
representados.
En sus propias palabras indique cuáles son los beneficios de hacer un análisis de conglomerados y en qué nos ayuda en la visualización de los datos.
El análisis de conglomerados permite agrupar observaciones similares y detectar estructuras en los datos. Visualmente ayuda a identificar grupos homogéneos que pueden interpretarse de manera más sencilla.
Indique qué es la matriz de distancias y qué algoritmos de distancias existen.
Una matriz de distancias recoge la separación entre cada par de observaciones. Puede calcularse con medidas como distancia euclidiana, Manhattan o de correlación, entre otras.
Indique qué hace la función cmdscale.
La función cmdscale realiza un escalamiento clásico para
representar la matriz de distancias en un espacio de menor dimensión,
preservando las distancias lo mejor posible.
Cree el diagrama de los componentes principales del MDS.
Indique cómo nos ayudan los widgets de Shiny para ingresar argumentos.
Los widgets permiten modificar parámetros de forma interactiva sin tener que editar el código fuente del análisis. Esto mejora la exploración de diferentes configuraciones.
Para efectos de un documento estático, se fija el número de clusters
en k = 3.
Emita un comentario final sobre el trabajo.
Este ejercicio demuestra cómo integrar PCA y MDS en un mismo flujo de trabajo utilizando R Markdown para obtener visualizaciones reproducibles.