En sus propias palabras indique cuales son los beneficios de los
archivos RMD en la visualizaci?n de los datos on beneficiosos para la
visualización porque integran en un solo documento: (1) el contexto y
explicación del análisis, (2) el código que genera las visualizaciones y
(3) las salidas (gráficos/tablas) ya renderizadas. Esto mejora la
comunicación de hallazgos, la reproducibilidad y la facilidad de
compartir resultados en formatos como HTML/PDF/Word. Con
runtime: shiny, además se pueden incluir controles
interactivos (widgets) para explorar la información sin construir una
aplicación completa.
##
## Adjuntando el paquete: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
##
## Adjuntando el paquete: 'shiny'
## The following objects are masked from 'package:DT':
##
## dataTableOutput, renderDataTable
## Cargando paquete requerido: viridisLite
Proceda a cargar los datos de wine.csv _El URL es https://www.jaredlander.com/data/wine.csv_
## Cultivar Alcohol Malic acid Ash Alcalinity of ash Magnesium Total phenols
## 1 1 14.23 1.71 2.43 15.6 127 2.80
## 2 1 13.20 1.78 2.14 11.2 100 2.65
## 3 1 13.16 2.36 2.67 18.6 101 2.80
## 4 1 14.37 1.95 2.50 16.8 113 3.85
## 5 1 13.24 2.59 2.87 21.0 118 2.80
## Flavanoids Nonflavanoid phenols Proanthocyanins Color intensity Hue
## 1 3.06 0.28 2.29 5.64 1.04
## 2 2.76 0.26 1.28 4.38 1.05
## 3 3.24 0.30 2.81 5.68 1.03
## 4 3.49 0.24 2.18 7.80 0.86
## 5 2.69 0.39 1.82 4.32 1.04
## OD280/OD315 of diluted wines Proline
## 1 3.92 1065
## 2 3.40 1050
## 3 3.17 1185
## 4 3.45 1480
## 5 2.93 735
Indique aqu? de que se trata el dataset que acaba de cargar y los
tipos de cada variable. Nos interesa especialmente aquellas que
no sean num?ricas Este dataset corresponde a mediciones
fisicoquímicas de vinos (por ejemplo Alcohol, Ash, Magnesium, etc.) y
una variable de clase (Cultivar) que identifica el
tipo/grupo del vino. En esta base todas las columnas son
numéricas; la variable Cultivar se usa como
etiqueta (clase) y no como variable de entrada para el PCA.
_Indique que beneficios obtenemos de PCA, PCA permite reducir dimensionalidad resumiendo muchas variables en pocas componentes, conservando la mayor parte de la variabilidad; también facilita visualizar patrones (por ejemplo en PC1–PC2) y reduce redundancia cuando variables están correlacionadas.
A continuaci?n proceda a revisar la data para asegurarse que no tiene variables con valor 0 o negativos
## character(0)
Indique en este lugar cual es el prop?sito de la funci?n
prcomp prcomp() ejecuta el Análisis de
Componentes Principales (PCA) sobre variables numéricas:
calcula nuevas variables (componentes) como combinaciones lineales
ortogonales de las variables originales, ordenadas para explicar la
mayor varianza posible (PC1, PC2, ). Devuelve, entre otros, los
loadings (rotation), los
scores de cada observación (x) y la escala
asociada (sdev).
## $eigen_values
## [1] 4.7058503 2.4969737 1.4460720 0.9189739 0.8532282 0.6416570 0.5510283
## [8] 0.3484974 0.2888799 0.2509025 0.2257886 0.1687702 0.1033779
##
## $eigen_vectors_head
## PC1 PC2 PC3 PC4 PC5
## Alcohol -0.144329395 -0.4836515 -0.20738262 -0.01785630 0.26566365
## Malic acid 0.245187580 -0.2249309 0.08901289 0.53689028 -0.03521363
## Ash 0.002051061 -0.3160688 0.62622390 -0.21417556 0.14302547
## Alcalinity of ash 0.239320405 0.0105905 0.61208035 0.06085941 -0.06610294
## Magnesium -0.141992042 -0.2996340 0.13075693 -0.35179658 -0.72704851
## PC6 PC7 PC8 PC9 PC10
## Alcohol -0.21353865 -0.05639636 -0.39613926 -0.50861912 -0.21160473
## Malic acid -0.53681385 0.42052391 -0.06582674 0.07528304 0.30907994
## Ash -0.15447466 -0.14917061 0.17026002 0.30769445 0.02712539
## Alcalinity of ash 0.10082451 -0.28696914 -0.42797018 -0.20044931 -0.05279942
## Magnesium -0.03814394 0.32288330 0.15636143 -0.27140257 -0.06787022
## PC11 PC12 PC13
## Alcohol 0.22591696 0.26628645 -0.01496997
## Malic acid -0.07648554 -0.12169604 -0.02596375
## Ash 0.49869142 0.04962237 0.14121803
## Alcalinity of ash -0.47931378 0.05574287 -0.09168285
## Magnesium -0.07128891 -0.06222011 -0.05677422
##
## $scores_head
## PC1 PC2 PC3 PC4 PC5 PC6
## [1,] -3.307421 -1.4394023 -0.1652728 -0.2150246 -0.6910933 -0.2232504
## [2,] -2.203250 0.3324551 -2.0207571 -0.2905387 0.2569299 -0.9245123
## [3,] -2.509661 -1.0282507 0.9800541 0.7228632 0.2503270 0.5477310
## [4,] -3.746497 -2.7486184 -0.1756962 0.5663856 0.3109644 0.1141091
## [5,] -1.006070 -0.8673840 2.0209873 -0.4086131 -0.2976180 -0.4053761
## PC7 PC8 PC9 PC10 PC11 PC12
## [1,] 0.59474883 0.06495586 -0.63963836 -1.01808396 0.4502932 -0.5392891439
## [2,] 0.05362434 1.02153432 0.30797798 -0.15925214 0.1422560 -0.3871456499
## [3,] 0.42301218 -0.34324787 1.17452129 -0.11304198 0.2858665 -0.0005819316
## [4,] -0.38225899 0.64178311 -0.05239662 -0.23873915 -0.7574476 0.2413387757
## [5,] 0.44282531 0.41552831 -0.32589984 0.07814604 0.5244656 0.2160546934
## PC13
## [1,] 0.066052305
## [2,] -0.003626273
## [3,] -0.021655423
## [4,] 0.368444194
## [5,] 0.079140320
Indique aqu? cu?l es el concepto que se utiliza para la selecci?n de componentes principales Se usa la varianza explicada: se eligen las primeras componentes que acumulan un porcentaje alto de la variabilidad (por ejemplo 80%–90%), apoyándose en la varianza acumulada y/o en el “codo” del scree plot (cuando agregar más componentes aporta muy poco).
Realice un an?lisis de la visualizaci?n anterior, que indica El gráfico muestra cuánta variabilidad captura cada componente. Normalmente, las primeras componentes explican una fracción importante y luego la ganancia marginal disminuye; por eso se seleccionan las primeras PCs que logran una varianza acumulada suficiente para representar el dataset de forma compacta. ### Relaci?n entre las variables originales y las Componentes Principales
Realice un an?lisis de la visualizaci?n anterior, que indica Las flechas muestran qué variables están más asociadas a PC1 y PC2: flechas más largas indican mayor contribución en ese plano. Variables con dirección similar tienden a relacionarse positivamente; direcciones opuestas sugieren relación negativa; casi perpendiculares indican baja relación. Indique cual es el concepto de la calidad de la representaci?n cos2 El cos² (coseno cuadrado) mide qué tan bien una observación queda representada por una(s) componente(s): es la proporción de su “inercia” (distancia al origen en el espacio de PCs) explicada por el plano seleccionado (por ejemplo PC1–PC2). Valores altos implican mejor representación en ese plano.
Realice un an?lisis de la visualizaci?n anterior, que indica Puntos con color más intenso (cos² alto) son los mejor representados por el plano PC1–PC2; si varios puntos tienen cos² bajo, significa que una parte importante de su variación está en componentes posteriores y el plano 2D los resume con menor fidelidad.
En sus propias palabras indique cuales son los beneficios de hacer un an?lisis de conglomerados, en que nos ayuda en la visualizaci?n de los datos El análisis de conglomerados ayuda a descubrir grupos naturales (segmentos) sin etiquetas previas. En visualización, permite colorear/ordenar observaciones por grupos para interpretar patrones, similitudes y posibles perfiles dentro de los datos.
Indique aqu? que es la matriz de distancias, que algoritmos de distancias existen La matriz de distancias resume la disimilitud entre cada par de observaciones (tamaño n×n). Distancias comunes: Euclídea (la más usada), Manhattan, Minkowski, entre otras; la elección depende de la naturaleza de las variables y de la sensibilidad que se quiere al cambio por dimensión.
## 1 2 3 4 5 6
## 1 0.000000 3.487697 3.018094 2.834509 3.556821 2.518186
## 2 3.487697 0.000000 4.131258 4.348349 4.614454 3.382216
## 3 3.018094 4.131258 0.000000 3.237354 2.972721 2.859721
## 4 2.834509 4.348349 3.237354 0.000000 4.483310 1.899712
## 5 3.556821 4.614454 2.972721 4.483310 0.000000 3.878217
## 6 2.518186 3.382216 2.859721 1.899712 3.878217 0.000000
indique aqu? que hace la funci?n cmdscale
cmdscale() aplica escalamiento multidimensional
clásico (Classical MDS): toma una matriz de distancias y
calcula coordenadas en baja dimensión (por ejemplo 2D) de modo que esas
coordenadas preserven, lo mejor posible, las distancias originales.
## Dim1 Dim2 Cultivar
## 1 -3.307421 -1.4394023 1
## 2 -2.203250 0.3324551 1
## 3 -2.509661 -1.0282507 1
## 4 -3.746497 -2.7486184 1
## 5 -1.006070 -0.8673840 1
Cree el diagrama de los componentes principales del MDS
indique como nos ayudan los widgets de Shiny para ingresar
argumentos Los widgets permiten que el usuario ingrese parámetros
(por ejemplo, el número de clusters) de forma interactiva; el gráfico se
actualiza automáticamente según el valor seleccionado, facilitando
exploración sin reescribir código.
## [1] 3
Obtenga el diagrama de conglomerados de acuerdo al widget anterior
## [1] TRUE
## [1] TRUE
Emita un comentario final sobre el trabajo El PCA permitió
resumir y visualizar la estructura global del dataset en pocas
componentes, mientras que el MDS proyectó las distancias entre
observaciones en 2D. El clustering sobre el plano MDS facilita explorar
segmentaciones y compararlas con la etiqueta Cultivar,
apoyando interpretación visual de similitudes y diferencias entre
vinos.