Análisis de componentes principales

Alejandro Henao - Milena Castaño - Miguel Monsalve - Gustavo Acevedo - Jhoana Hoyos

12/19/2019

DESCRIPCIÓN BASE DE DATOS

La base de datos que vamos a utilizar, contiene información sobre un grupo de 160 individuos y sus habilidades con respecto al manejo de herramientas tecnológicas e informáticas. Cada una de estas habilidades se puntúa de 0 a 1 (siendo 0 habilidad nula y 1 dominio completo de la herramienta). Las herramientas evaluadas son las siguientes

  • USO_COMPUTADOR: Encender el computador, abrir, copiar y eliminar archivos.
  • EXCEL: Usar Excel para realizar cálculos básicos, tablas, mostrar información organizada, utilizar los gráficos básicos de Excel.
  • POWERPOINT: Usar PowerPoint para realizar presentaciones de informes, subir imágenes, copiar y pegar formato, convertir presentación a PDF.
  • INTERNET: Usar internet para buscar información, saber acceder al correo electrónico y redes sociales.
  • WORD: Usar Word para realizar informes, copiar y pegar párrafos.
  • PHOTOSHOP: Utilizar el editor gráfico para realizar retoques básicos a fotografías.
  • R: Utilizar R para realizar análisis exploratorio de datos, cargar y limpiar archivos.

Cada una de estas herramientas representa una columna en el set de datos con el mismo nombre.

EXPLORACIÓN DE LOS DATOS

Con la función glimpse de R podemos observar un resumen de nuestro dataset, su tipo de dato asociado y el total de observaciones. Se observa además, que el tipo de datos de cada una de las columnas es doble (decimal):

## Observations: 160
## Variables: 7
## $ USO_COMPUTADOR <dbl> 0.928, 0.895, 0.769, 0.839, 0.881, 0.919, 0.772, 0.830…
## $ EXCEL          <dbl> 0.998, 0.868, 0.971, 0.894, 0.887, 0.802, 1.000, 0.801…
## $ POWERPOINT     <dbl> 0.894, 0.949, 0.833, 0.882, 0.836, 0.847, 0.955, 0.922…
## $ INTERNET       <dbl> 0.926, 0.904, 0.928, 0.958, 0.990, 0.918, 0.863, 0.984…
## $ WORD           <dbl> 0.943, 0.846, 0.972, 0.978, 0.869, 0.845, 0.963, 0.919…
## $ PHOTOSHOP      <dbl> 0.996, 0.983, 0.829, 0.864, 0.868, 0.768, 1.000, 0.781…
## $ R              <dbl> 0.875, 0.788, 0.881, 1.000, 1.000, 0.876, 0.878, 0.707…

Calculamos los principales estadísticos de nuestra tabla para conocer los valores mínimos y máximos de cada columna. Esto nos indica que el el valor máximo no es mayor a 1 y el valor mínimo no es menor a 0.

##  USO_COMPUTADOR       EXCEL          POWERPOINT        INTERNET     
##  Min.   :0.0150   Min.   :0.0100   Min.   :0.0070   Min.   :0.0110  
##  1st Qu.:0.5070   1st Qu.:0.4750   1st Qu.:0.3738   1st Qu.:0.5072  
##  Median :0.7660   Median :0.7760   Median :0.7560   Median :0.7970  
##  Mean   :0.6952   Mean   :0.6880   Mean   :0.6426   Mean   :0.6858  
##  3rd Qu.:0.9052   3rd Qu.:0.9095   3rd Qu.:0.9157   3rd Qu.:0.9180  
##  Max.   :1.0000   Max.   :1.0000   Max.   :1.0000   Max.   :1.0000  
##       WORD          PHOTOSHOP            R         
##  Min.   :0.0050   Min.   :0.0390   Min.   :0.1000  
##  1st Qu.:0.5172   1st Qu.:0.5347   1st Qu.:0.5148  
##  Median :0.8230   Median :0.7890   Median :0.7740  
##  Mean   :0.7044   Mean   :0.7184   Mean   :0.6838  
##  3rd Qu.:0.9153   3rd Qu.:0.8942   3rd Qu.:0.8978  
##  Max.   :1.0000   Max.   :1.0000   Max.   :1.0000

Con el siguiente comando, observamos los estadísticos anteriormente mencionados con el valor agregado de observar si existen valores faltantes en alguna de las columnas. Para este ejercicio en cuestión, no existen valores faltantes porque la base de datos está preprocesada.

##                vars   n mean   sd median trimmed  mad  min max range  skew
## USO_COMPUTADOR    1 160 0.70 0.25   0.77    0.72 0.25 0.02   1  0.98 -0.60
## EXCEL             2 160 0.69 0.26   0.78    0.71 0.24 0.01   1  0.99 -0.69
## POWERPOINT        3 160 0.64 0.30   0.76    0.66 0.33 0.01   1  0.99 -0.35
## INTERNET          4 160 0.69 0.28   0.80    0.72 0.25 0.01   1  0.99 -0.80
## WORD              5 160 0.70 0.29   0.82    0.74 0.21 0.00   1  1.00 -0.95
## PHOTOSHOP         6 160 0.72 0.23   0.79    0.74 0.24 0.04   1  0.96 -0.70
## R                 7 160 0.68 0.26   0.77    0.71 0.25 0.10   1  0.90 -0.66
##                kurtosis   se
## USO_COMPUTADOR    -0.77 0.02
## EXCEL             -0.69 0.02
## POWERPOINT        -1.40 0.02
## INTERNET          -0.48 0.02
## WORD              -0.34 0.02
## PHOTOSHOP         -0.51 0.02
## R                 -0.80 0.02

Para observar la relación existente entre las variables utilizamos el gráfico a continuación que contiene en la diagonal principal el histograma para cada una de las variables y en los costados la relación existente entre cada par de variables de forma gráfica y numérica:

Análisis de componentes principales (PCA)

Principal Component Analysis (PCA) es un método estadístico que permite simplificar la complejidad de espacios muestrales con muchas dimensiones a la vez que conserva su información.

Observamos el promedio de los datos:

## USO_COMPUTADOR          EXCEL     POWERPOINT       INTERNET           WORD 
##      0.6951750      0.6879937      0.6426125      0.6858125      0.7044375 
##      PHOTOSHOP              R 
##      0.7184063      0.6837750

La varianza entre las variables no es tan distinta, sin embargo, estandarizaremos las mismas para que tengan media 0 y desviación estándar 1

## USO_COMPUTADOR          EXCEL     POWERPOINT       INTERNET           WORD 
##     0.06171276     0.06878947     0.08804406     0.07715574     0.08214788 
##      PHOTOSHOP              R 
##     0.05305272     0.06853727

Utilizamos la función prcomp() de R para realizar el análisis de componentes principales.

Observemos ahora, la proporción de varianza explicada por cada uno de los componentes:

## Importance of components:
##                           Comp.1     Comp.2     Comp.3     Comp.4     Comp.5
## Standard deviation     2.1788113 0.77179027 0.67700518 0.62717903 0.57207878
## Proportion of Variance 0.6781741 0.08509432 0.06547657 0.05619336 0.04675345
## Cumulative Proportion  0.6781741 0.76326842 0.82874499 0.88493835 0.93169180
##                            Comp.6     Comp.7
## Standard deviation     0.53115047 0.44276019
## Proportion of Variance 0.04030297 0.02800523
## Cumulative Proportion  0.97199477 1.00000000

La proporción de varianza explicada por los tres primeros componentes es de 82%

Para saber cuántos componentes debemos elegir, usamos el criterio gráfico que nos indica cuál es el componente con más peso. En este caso sería el componente principal 1

Se calcula el porcentaje de variación de cada una de las variables que abarca el componente principal, lo que muestra la contribución de cada variable a cada componente:

##                   Dim.1       Dim.2      Dim.3       Dim.4      Dim.5     Dim.6
## USO_COMPUTADOR 14.62212 15.97575547  3.3719037  5.25276116 18.7419065 35.820443
## EXCEL          14.42000  0.59833301 44.8794742  0.01906808  7.7692246 20.142622
## POWERPOINT     17.08692  0.52054010  2.0094057  3.62809132  8.0689353  1.402543
## INTERNET       13.51067  8.11702425 44.3406110 10.09165899 13.1531525  3.660360
## WORD           10.83156 73.73787696  0.2038759  5.07541207  0.2854998  6.274613
## PHOTOSHOP      15.43123  1.02762282  3.0524886  0.90154428 48.8869469 27.426240
## R              14.09750  0.02284739  2.1422409 75.03146410  3.0943345  5.273178
##                     Dim.7
## USO_COMPUTADOR  6.2151111
## EXCEL          12.1712803
## POWERPOINT     67.2835637
## INTERNET        7.1265217
## WORD            3.5911650
## PHOTOSHOP       3.2739236
## R               0.3384346

Utilizamos la función biplot para graficar las dos primeras componentes principales:

biplot(pca)

Este gráfico nos indicaría por ejemplo los individuos como el 131 o 150 tienen más habilidad con Word que con el uso de internet.

Componentes principales

Componentes principales