En sus propias palabras indique cuales son los beneficios de los archivos RMD en la visualizacion de los datos
Los archivos RMarkdown integran código, visualizaciones y narrativa en un único documento reproducible. Ademas, permiten generar gráficos dinámicos incrustados, combinar múltiples formatos de salida (HTML, PDF), facilitan la documentación del análisis y compartir resultados interactivos sin necesidad de que el receptor tenga R instalado, mejorando significativamente la comunicación de datos.
Proceda a cargar los datos de wine.csv _El URL es https://www.jaredlander.com/data/wine.csv_
## Cultivar Alcohol Malic.acid Ash Alcalinity.of.ash Magnesium Total.phenols
## 1 1 14.23 1.71 2.43 15.6 127 2.80
## 2 1 13.20 1.78 2.14 11.2 100 2.65
## 3 1 13.16 2.36 2.67 18.6 101 2.80
## 4 1 14.37 1.95 2.50 16.8 113 3.85
## 5 1 13.24 2.59 2.87 21.0 118 2.80
## Flavanoids Nonflavanoid.phenols Proanthocyanins Color.intensity Hue
## 1 3.06 0.28 2.29 5.64 1.04
## 2 2.76 0.26 1.28 4.38 1.05
## 3 3.24 0.30 2.81 5.68 1.03
## 4 3.49 0.24 2.18 7.80 0.86
## 5 2.69 0.39 1.82 4.32 1.04
## OD280.OD315.of.diluted.wines Proline
## 1 3.92 1065
## 2 3.40 1050
## 3 3.17 1185
## 4 3.45 1480
## 5 2.93 735
Indique aquí de que se trata el dataset que acaba de cargar y los tipos de cada variable. Nos interesa especialmente aquellas que no sean numéricas
El dataset contiene información fisicoquímica de 178 vinos italianos de tres cultivares diferentes que incluye 14 variables: Cultivar (categórica/entera, identificador de variedad) y 13 variables numéricas continuas que representan propiedades químicas como alcohol, acidez málica, cenizas, magnesio, fenoles, flavonoides, proantocianinas, intensidad de color, matiz y prolina.
## 'data.frame': 178 obs. of 14 variables:
## $ Cultivar : int 1 1 1 1 1 1 1 1 1 1 ...
## $ Alcohol : num 14.2 13.2 13.2 14.4 13.2 ...
## $ Malic.acid : num 1.71 1.78 2.36 1.95 2.59 1.76 1.87 2.15 1.64 1.35 ...
## $ Ash : num 2.43 2.14 2.67 2.5 2.87 2.45 2.45 2.61 2.17 2.27 ...
## $ Alcalinity.of.ash : num 15.6 11.2 18.6 16.8 21 15.2 14.6 17.6 14 16 ...
## $ Magnesium : int 127 100 101 113 118 112 96 121 97 98 ...
## $ Total.phenols : num 2.8 2.65 2.8 3.85 2.8 3.27 2.5 2.6 2.8 2.98 ...
## $ Flavanoids : num 3.06 2.76 3.24 3.49 2.69 3.39 2.52 2.51 2.98 3.15 ...
## $ Nonflavanoid.phenols : num 0.28 0.26 0.3 0.24 0.39 0.34 0.3 0.31 0.29 0.22 ...
## $ Proanthocyanins : num 2.29 1.28 2.81 2.18 1.82 1.97 1.98 1.25 1.98 1.85 ...
## $ Color.intensity : num 5.64 4.38 5.68 7.8 4.32 6.75 5.25 5.05 5.2 7.22 ...
## $ Hue : num 1.04 1.05 1.03 0.86 1.04 1.05 1.02 1.06 1.08 1.01 ...
## $ OD280.OD315.of.diluted.wines: num 3.92 3.4 3.17 3.45 2.93 2.85 3.58 3.58 2.85 3.55 ...
## $ Proline : int 1065 1050 1185 1480 735 1450 1290 1295 1045 1045 ...
Indique que beneficios obtenemos de PCA
PCA reduce la dimensionalidad, elimina multicolinealidad, facilita la visualización de datos complejos en 2D/3D, identifica variables más influyentes, mejora el rendimiento de modelos al reducir ruido y permite descubrir patrones ocultos en los datos.
A continuacion proceda a revisar la data para asegurarse que no tiene variables con valor 0 o negativos
## Cultivar Alcohol Malic.acid Ash Alcalinity.of.ash Magnesium
## tiene_ceros FALSE FALSE FALSE FALSE FALSE FALSE
## tiene_negativos FALSE FALSE FALSE FALSE FALSE FALSE
## count_ceros 0 0 0 0 0 0
## count_negativos 0 0 0 0 0 0
## Total.phenols Flavanoids Nonflavanoid.phenols Proanthocyanins
## tiene_ceros FALSE FALSE FALSE FALSE
## tiene_negativos FALSE FALSE FALSE FALSE
## count_ceros 0 0 0 0
## count_negativos 0 0 0 0
## Color.intensity Hue OD280.OD315.of.diluted.wines Proline
## tiene_ceros FALSE FALSE FALSE FALSE
## tiene_negativos FALSE FALSE FALSE FALSE
## count_ceros 0 0 0 0
## count_negativos 0 0 0 0
##
## Columnas sin valores 0 o negativos - Listas para PCA
## [1] "Alcohol" "Malic.acid"
## [3] "Ash" "Alcalinity.of.ash"
## [5] "Magnesium" "Total.phenols"
## [7] "Flavanoids" "Nonflavanoid.phenols"
## [9] "Proanthocyanins" "Color.intensity"
## [11] "Hue" "OD280.OD315.of.diluted.wines"
## [13] "Proline"
Indique en este lugar cual es el proposito de la funcion prcomp
La función prcomp() realiza Análisis de Componentes Principales (PCA) para reducir la dimensionalidad de datos multivariados y transforma variables correlacionadas en componentes principales no correlacionados, preservando la máxima varianza posible. Facilita la visualización de datos complejos, identifica patrones ocultos y elimina redundancia, permitiendo análisis más eficientes con menos variables sin perder información significativa.
## Importance of components:
## PC1 PC2 PC3 PC4 PC5 PC6 PC7
## Standard deviation 2.169 1.5802 1.2025 0.95863 0.92370 0.80103 0.74231
## Proportion of Variance 0.362 0.1921 0.1112 0.07069 0.06563 0.04936 0.04239
## Cumulative Proportion 0.362 0.5541 0.6653 0.73599 0.80162 0.85098 0.89337
## PC8 PC9 PC10 PC11 PC12 PC13
## Standard deviation 0.59034 0.53748 0.5009 0.47517 0.41082 0.32152
## Proportion of Variance 0.02681 0.02222 0.0193 0.01737 0.01298 0.00795
## Cumulative Proportion 0.92018 0.94240 0.9617 0.97907 0.99205 1.00000
##
## Primeros 5 valores eigen:
## [1] 4.7058503 2.4969737 1.4460720 0.9189739 0.8532282
##
## Vectores eigen (primeros 3 componentes):
## PC1 PC2 PC3
## Alcohol -0.144329395 -0.483651548 -0.20738262
## Malic.acid 0.245187580 -0.224930935 0.08901289
## Ash 0.002051061 -0.316068814 0.62622390
## Alcalinity.of.ash 0.239320405 0.010590502 0.61208035
## Magnesium -0.141992042 -0.299634003 0.13075693
## Total.phenols -0.394660845 -0.065039512 0.14617896
## Flavanoids -0.422934297 0.003359812 0.15068190
## Nonflavanoid.phenols 0.298533103 -0.028779488 0.17036816
## Proanthocyanins -0.313429488 -0.039301722 0.14945431
## Color.intensity 0.088616705 -0.529995672 -0.13730621
## Hue -0.296714564 0.279235148 0.08522192
## OD280.OD315.of.diluted.wines -0.376167411 0.164496193 0.16600459
## Proline -0.286752227 -0.364902832 -0.12674592
##
## Scores (primeras 5 observaciones):
## PC1 PC2 PC3 PC4 PC5 PC6
## [1,] -3.307421 -1.4394023 -0.1652728 -0.2150246 -0.6910933 -0.2232504
## [2,] -2.203250 0.3324551 -2.0207571 -0.2905387 0.2569299 -0.9245123
## [3,] -2.509661 -1.0282507 0.9800541 0.7228632 0.2503270 0.5477310
## [4,] -3.746497 -2.7486184 -0.1756962 0.5663856 0.3109644 0.1141091
## [5,] -1.006070 -0.8673840 2.0209873 -0.4086131 -0.2976180 -0.4053761
## PC7 PC8 PC9 PC10 PC11 PC12
## [1,] 0.59474883 0.06495586 -0.63963836 -1.01808396 0.4502932 -0.5392891439
## [2,] 0.05362434 1.02153432 0.30797798 -0.15925214 0.1422560 -0.3871456499
## [3,] 0.42301218 -0.34324787 1.17452129 -0.11304198 0.2858665 -0.0005819316
## [4,] -0.38225899 0.64178311 -0.05239662 -0.23873915 -0.7574476 0.2413387757
## [5,] 0.44282531 0.41552831 -0.32589984 0.07814604 0.5244656 0.2160546934
## PC13
## [1,] 0.066052305
## [2,] -0.003626273
## [3,] -0.021655423
## [4,] 0.368444194
## [5,] 0.079140320
Indique cual es el concepto que se utiliza para la seleccion de componentes principales
La selección de componentes principales se basa en el criterio de varianza explicada. Se eligen componentes que acumulen al menos 80-90% de la varianza total, usando el scree plot (método del codo) o el criterio de Kaiser (valores eigen > 1).
## Componente Valor_Eigen Varianza Varianza_Porcentaje Varianza_Acumulada
## 1 1 4.7058503 0.361988481 36.1988481 0.3619885
## 2 2 2.4969737 0.192074903 19.2074903 0.5540634
## 3 3 1.4460720 0.111236305 11.1236305 0.6652997
## 4 4 0.9189739 0.070690302 7.0690302 0.7359900
## 5 5 0.8532282 0.065632937 6.5632937 0.8016229
## 6 6 0.6416570 0.049358233 4.9358233 0.8509812
## 7 7 0.5510283 0.042386793 4.2386793 0.8933680
## 8 8 0.3484974 0.026807489 2.6807489 0.9201754
## 9 9 0.2888799 0.022221534 2.2221534 0.9423970
## 10 10 0.2509025 0.019300191 1.9300191 0.9616972
## 11 11 0.2257886 0.017368357 1.7368357 0.9790655
## 12 12 0.1687702 0.012982326 1.2982326 0.9920479
## 13 13 0.1033779 0.007952149 0.7952149 1.0000000
## Varianza_Acum_Porcentaje
## 1 36.19885
## 2 55.40634
## 3 66.52997
## 4 73.59900
## 5 80.16229
## 6 85.09812
## 7 89.33680
## 8 92.01754
## 9 94.23970
## 10 96.16972
## 11 97.90655
## 12 99.20479
## 13 100.00000
Realice un análisis de la visualización anterior, que indica
El scree plot muestra que los primeros 2-3 componentes capturan la mayor varianza (método del codo visible). La varianza acumulada indica que aproximadamente 5-6 componentes explican más del 80% de la variabilidad total de los datos, sugiriendo que podemos reducir de 13 variables originales a 5-6 componentes sin pérdida significativa de información.
## Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
## ℹ Please use `linewidth` instead.
## ℹ The deprecated feature was likely used in the ggpubr package.
## Please report the issue at <https://github.com/kassambara/ggpubr/issues>.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.
## Warning: `aes_string()` was deprecated in ggplot2 3.0.0.
## ℹ Please use tidy evaluation idioms with `aes()`.
## ℹ See also `vignette("ggplot2-in-packages")` for more information.
## ℹ The deprecated feature was likely used in the factoextra package.
## Please report the issue at <https://github.com/kassambara/factoextra/issues>.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.
## corrplot 0.95 loaded
Realice un análisis de la visualización anterior, que indica
El biplot revela qué variables originales contribuyen más a cada componente principal. Las variables con flechas largas y en direcciones opuestas están negativamente correlacionadas, mientras que flechas en la misma dirección indican correlación positiva. Los loadings muestran el peso de cada variable en los componentes, permitiendo interpretar el significado químico de cada PC.
Indique cual es el concepto de la calidad de la representación cos2
cos2 (coseno cuadrado) mide la calidad de representación de cada observación en el espacio de componentes principales. Valores cercanos a 1 indican que la observación está bien representada en las dimensiones seleccionadas; valores bajos sugieren que necesitaríamos más componentes para representarla adecuadamente.
## Ignoring unknown labels:
## • fill : "cos2"
## • linetype : "cos2"
## • shape : "cos2"
Realice un análisis de la visualización anterior, que indica
Los puntos con colores brillantes (amarillo/verde en escala viridis) tienen alta calidad de representación (cos2 alto), indicando que su posición en el gráfico PC1-PC2 refleja fielmente su variabilidad original. Los puntos oscuros (morado) están menos representados y requerirían componentes adicionales para capturar completamente su variabilidad.
En sus propias palabras indique cuales son los beneficios de hacer un análisis de conglomerados, en que nos ayuda en la visualización de los datos
El análisis de conglomerados agrupa observaciones similares, revelando estructuras naturales en los datos. Facilita la identificación de patrones, segmentación de grupos homogéneos, reducción de complejidad visual y descubrimiento de relaciones entre observaciones que no son evidentes en el espacio original de alta dimensión.
Indique aquí que es la matriz de distancias, que algoritmos de distancias existen
La matriz de distancias cuantifica la disimilaridad entre pares de observaciones. Algoritmos comunes: Euclidiana (distancia geométrica directa), Manhattan (suma de diferencias absolutas), Minkowski (generalización), Correlación (similaridad de perfiles), Mahalanobis (considera covarianzas) y Gower (datos mixtos).
## Dimensiones de la matriz de distancias: 178 x 178
##
## Primeras 10 distancias:
## 1 2 3 4 5
## 1 0.00000 31.26501 122.8312 415.2454 330.1745
## 2 31.26501 0.00000 135.2247 430.2516 315.6688
## 3 122.83115 135.22469 0.0000 295.2627 450.3311
## 4 415.24540 430.25156 295.2627 0.0000 745.0394
## 5 330.17450 315.66880 450.3311 745.0394 0.0000
indique aquí que hace la función cmdscale
cmdscale realiza Escalamiento Multidimensional Clásico (Classical MDS), proyectando la matriz de distancias en un espacio de menor dimensión (típicamente 2D o 3D) preservando las distancias relativas entre observaciones, facilitando la visualización de relaciones complejas en datos multidimensionales.
## MDS1 MDS2 Cultivar
## 1 -318.56298 21.4921307 1
## 2 -303.09742 -5.3647177 1
## 3 -438.06113 -6.5373094 1
## 4 -733.24014 0.1927290 1
## 5 11.57143 18.4899946 1
## 6 -703.23119 -0.3321587 1
Cree el diagrama de los componentes principales del MDS
indique como nos ayudan los widgets de Shiny para ingresar argumentos
Los widgets de Shiny permiten interactividad dinámica, donde usuarios ajustan parámetros (número de clusters, variables, métodos) en tiempo real sin modificar código. Facilitan la exploración de datos, comparación de configuraciones y democratizan el análisis permitiendo que no-programadores experimenten con los datos.
Obtenga el diagrama de conglomerados de acuerdo al widget anterior
Emita un comentario final sobre el trabajo
Este análisis demuestra la potencia de técnicas de reducción dimensional (PCA y MDS) para visualizar y comprender datasets complejos. PCA revela que pocas componentes capturan la mayoría de la varianza en las propiedades químicas del vino, mientras que MDS permitió visualizar agrupaciones naturales. La interactividad con Shiny enriquece la exploración (siempre y cuando se tengo absuelto el tema de compatibilidad de versiones), permitiendo ajustar dinámicamente parámetros de clustering.
Por ultimo, ambas técnicas complementan el análisis, facilitando la identificación de patrones y relaciones en datos multidimensionales que serían imposibles de percibir en el espacio original de 13 variables.