DESCRIPCIÓN BASE DE DATOS
La base de datos que vamos a utilizar, contiene información sobre un grupo de 160 individuos y sus habilidades con respecto al manejo de herramientas tecnológicas e informáticas. Cada una de estas habilidades se puntúa de 0 a 1 (siendo 0 habilidad nula y 1 dominio completo de la herramienta). Las herramientas evaluadas son las siguientes
- USO_COMPUTADOR: Encender el computador, abrir, copiar y eliminar archivos.
- EXCEL: Usar Excel para realizar cálculos básicos, tablas, mostrar información organizada, utilizar los gráficos básicos de Excel.
- POWERPOINT: Usar PowerPoint para realizar presentaciones de informes, subir imágenes, copiar y pegar formato, convertir presentación a PDF.
- INTERNET: Usar internet para buscar información, saber acceder al correo electrónico y redes sociales.
- WORD: Usar Word para realizar informes, copiar y pegar párrafos.
- PHOTOSHOP: Utilizar el editor gráfico para realizar retoques básicos a fotografías.
- R: Utilizar R para realizar análisis exploratorio de datos, cargar y limpiar archivos.
Cada una de estas herramientas representa una columna en el set de datos con el mismo nombre.
EXPLORACIÓN DE LOS DATOS
Con la función glimpse de R podemos observar un resumen de nuestro dataset, su tipo de dato asociado y el total de observaciones. Se observa además, que el tipo de datos de cada una de las columnas es doble (decimal):
## Observations: 160
## Variables: 7
## $ USO_COMPUTADOR <dbl> 0.928, 0.895, 0.769, 0.839, 0.881, 0.919, 0.772, 0.830…
## $ EXCEL <dbl> 0.998, 0.868, 0.971, 0.894, 0.887, 0.802, 1.000, 0.801…
## $ POWERPOINT <dbl> 0.894, 0.949, 0.833, 0.882, 0.836, 0.847, 0.955, 0.922…
## $ INTERNET <dbl> 0.926, 0.904, 0.928, 0.958, 0.990, 0.918, 0.863, 0.984…
## $ WORD <dbl> 0.943, 0.846, 0.972, 0.978, 0.869, 0.845, 0.963, 0.919…
## $ PHOTOSHOP <dbl> 0.996, 0.983, 0.829, 0.864, 0.868, 0.768, 1.000, 0.781…
## $ R <dbl> 0.875, 0.788, 0.881, 1.000, 1.000, 0.876, 0.878, 0.707…
Calculamos los principales estadísticos de nuestra tabla para conocer los valores mínimos y máximos de cada columna. Esto nos indica que el el valor máximo no es mayor a 1 y el valor mínimo no es menor a 0.
## USO_COMPUTADOR EXCEL POWERPOINT INTERNET
## Min. :0.0150 Min. :0.0100 Min. :0.0070 Min. :0.0110
## 1st Qu.:0.5070 1st Qu.:0.4750 1st Qu.:0.3738 1st Qu.:0.5072
## Median :0.7660 Median :0.7760 Median :0.7560 Median :0.7970
## Mean :0.6952 Mean :0.6880 Mean :0.6426 Mean :0.6858
## 3rd Qu.:0.9052 3rd Qu.:0.9095 3rd Qu.:0.9157 3rd Qu.:0.9180
## Max. :1.0000 Max. :1.0000 Max. :1.0000 Max. :1.0000
## WORD PHOTOSHOP R
## Min. :0.0050 Min. :0.0390 Min. :0.1000
## 1st Qu.:0.5172 1st Qu.:0.5347 1st Qu.:0.5148
## Median :0.8230 Median :0.7890 Median :0.7740
## Mean :0.7044 Mean :0.7184 Mean :0.6838
## 3rd Qu.:0.9153 3rd Qu.:0.8942 3rd Qu.:0.8978
## Max. :1.0000 Max. :1.0000 Max. :1.0000
Con el siguiente comando, observamos los estadísticos anteriormente mencionados con el valor agregado de observar si existen valores faltantes en alguna de las columnas. Para este ejercicio en cuestión, no existen valores faltantes porque la base de datos está preprocesada.
## vars n mean sd median trimmed mad min max range skew
## USO_COMPUTADOR 1 160 0.70 0.25 0.77 0.72 0.25 0.02 1 0.98 -0.60
## EXCEL 2 160 0.69 0.26 0.78 0.71 0.24 0.01 1 0.99 -0.69
## POWERPOINT 3 160 0.64 0.30 0.76 0.66 0.33 0.01 1 0.99 -0.35
## INTERNET 4 160 0.69 0.28 0.80 0.72 0.25 0.01 1 0.99 -0.80
## WORD 5 160 0.70 0.29 0.82 0.74 0.21 0.00 1 1.00 -0.95
## PHOTOSHOP 6 160 0.72 0.23 0.79 0.74 0.24 0.04 1 0.96 -0.70
## R 7 160 0.68 0.26 0.77 0.71 0.25 0.10 1 0.90 -0.66
## kurtosis se
## USO_COMPUTADOR -0.77 0.02
## EXCEL -0.69 0.02
## POWERPOINT -1.40 0.02
## INTERNET -0.48 0.02
## WORD -0.34 0.02
## PHOTOSHOP -0.51 0.02
## R -0.80 0.02
Para observar la relación existente entre las variables utilizamos el gráfico a continuación que contiene en la diagonal principal el histograma para cada una de las variables y en los costados la relación existente entre cada par de variables de forma gráfica y numérica:
pairs.panels(base,
method = "pearson",
hist.col = "#00AFBB",
density = TRUE,
ellipses = FALSE,
lm=TRUE
)Análisis de componentes principales (PCA)
Principal Component Analysis (PCA) es un método estadístico que permite simplificar la complejidad de espacios muestrales con muchas dimensiones a la vez que conserva su información.
Observamos el promedio de los datos:
## USO_COMPUTADOR EXCEL POWERPOINT INTERNET WORD
## 0.6951750 0.6879937 0.6426125 0.6858125 0.7044375
## PHOTOSHOP R
## 0.7184063 0.6837750
La varianza entre las variables no es tan distinta, sin embargo, estandarizaremos las mismas para que tengan media 0 y desviación estándar 1
## USO_COMPUTADOR EXCEL POWERPOINT INTERNET WORD
## 0.06171276 0.06878947 0.08804406 0.07715574 0.08214788
## PHOTOSHOP R
## 0.05305272 0.06853727
Utilizamos la función prcomp() de R para realizar el análisis de componentes principales.
Observemos ahora, la proporción de varianza explicada por cada uno de los componentes:
## Importance of components:
## Comp.1 Comp.2 Comp.3 Comp.4 Comp.5
## Standard deviation 2.1788113 0.77179027 0.67700518 0.62717903 0.57207878
## Proportion of Variance 0.6781741 0.08509432 0.06547657 0.05619336 0.04675345
## Cumulative Proportion 0.6781741 0.76326842 0.82874499 0.88493835 0.93169180
## Comp.6 Comp.7
## Standard deviation 0.53115047 0.44276019
## Proportion of Variance 0.04030297 0.02800523
## Cumulative Proportion 0.97199477 1.00000000
La proporción de varianza explicada por los tres primeros componentes es de 82%
Para saber cuántos componentes debemos elegir, usamos el criterio gráfico que nos indica cuál es el componente con más peso. En este caso sería el componente principal 1
Se calcula el porcentaje de variación de cada una de las variables que abarca el componente principal, lo que muestra la contribución de cada variable a cada componente:
## Dim.1 Dim.2 Dim.3 Dim.4 Dim.5 Dim.6
## USO_COMPUTADOR 14.62212 15.97575547 3.3719037 5.25276116 18.7419065 35.820443
## EXCEL 14.42000 0.59833301 44.8794742 0.01906808 7.7692246 20.142622
## POWERPOINT 17.08692 0.52054010 2.0094057 3.62809132 8.0689353 1.402543
## INTERNET 13.51067 8.11702425 44.3406110 10.09165899 13.1531525 3.660360
## WORD 10.83156 73.73787696 0.2038759 5.07541207 0.2854998 6.274613
## PHOTOSHOP 15.43123 1.02762282 3.0524886 0.90154428 48.8869469 27.426240
## R 14.09750 0.02284739 2.1422409 75.03146410 3.0943345 5.273178
## Dim.7
## USO_COMPUTADOR 6.2151111
## EXCEL 12.1712803
## POWERPOINT 67.2835637
## INTERNET 7.1265217
## WORD 3.5911650
## PHOTOSHOP 3.2739236
## R 0.3384346
Utilizamos la función biplot para graficar las dos primeras componentes principales:
biplot(pca)
Este gráfico nos indicaría por ejemplo los individuos como el 131 o 150 tienen más habilidad con Word que con el uso de internet.
Componentes principales