Análisis de Componente Principales
## Warning: package 'rmdformats' was built under R version 4.0.2
ACP Cuantitativo
El archivo Peliculas_var_cuantitativas.csv contiene cinco atributos de 6820 películas. Estos son: el presupuesto, el ingreso, el tiempo de duración, la calificación y los votos que los espectadores le otorgaron a el film. En el siguiente informe se realiza el Análisis de Componentes Principales (ACP) para los atributos cuantitativos antes mencionados.
budget gross runtime score votes
1 8000000 52287414 89 8.1 299174
2 6000000 70136369 103 7.8 264740
3 15000000 179800601 110 6.9 236909
4 18500000 85160248 137 8.4 540152
5 9000000 18564613 90 6.9 36636
6 6000000 138530565 120 8.1 317585
(a) Realiza un Analisis de Componentes Principales con los datos de ‘ACP_Peli’. Justifica el uso de la matriz de covarianzas o de la matriz de correlacionesmuestrales para llevar a cabo el analisis.
La matriz de correlaciones se utiliza para tener las mismas escalas en todas las variables de la muestra, ya que tienen distintas unidades de medidas.
A diferencia del coeficiente de correlación, la covarianza no es estandarizada. Por lo tanto, los valores de covarianza pueden encontrarse entre infinito negativo e infinito positivo y puede ser difícil interpretarlos. Se utiliza la matriz de correlación para medir la relación lineal entre cada par de elementos o variables. Por otro lado, se puede entender que la varianza mide el grado de información de las variables.
budget gross runtime score votes
budget 1.00 0.71 0.27 0.04 0.50
gross 0.71 1.00 0.22 0.17 0.66
runtime 0.27 0.22 1.00 0.40 0.32
score 0.04 0.17 0.40 1.00 0.39
votes 0.50 0.66 0.32 0.39 1.00
Gráfico 1
Comos se observa, existe una alta correlación positiva (0.71) entre las variables presupuesto e ingreso, mientras que entre la variable calificación y presupuesto hay una correlación baja.
Call:
princomp(x = ACP_Peli, cor = T)
Standard deviations:
Comp.1 Comp.2 Comp.3 Comp.4 Comp.5
1.5962501 1.0870299 0.8199500 0.6009060 0.4867705
5 variables and 6820 observations.
Gráficos de sedimentación
A continuación, se representa el siguientes gráfico de sedimentación con los autovalores de la muestra en estudio y se observa que el valor de las componentes va descendiendo a medida que se aumenta de componente.
Las dos primeras componentes principales tienen eigenvalores que sobrepasan el valor de 1, es decir, que la cantidad de variación explicada cae dramáticamente después de la segunda componente. Esto sugiere que solo las 2 primeras componente puede ser suficiente para resumir los datos. sin embargo, si se observan la tercera y cuarta están muy próximas a uno y a partir de la quinta componente se van estabilizando hasta llegar a la novena componente. En el grafico se puede observar mejor.
Gráfico 2
Gráfico 3
(b) Haz una interpretación de las dos primeras componentes principales. ¿Cuál es la proporción de variabilidad explicada por las dos primeras componentes principales?
Importance of components:
Comp.1 Comp.2 Comp.3 Comp.4 Comp.5
Standard deviation 1.5962501 1.0870299 0.8199500 0.60090603 0.4867705
Proportion of Variance 0.5096029 0.2363268 0.1344636 0.07221761 0.0473891
Cumulative Proportion 0.5096029 0.7459297 0.8803933 0.95261090 1.0000000
Las dos primeras componentes tienen una variabilidad aproximada del 50% y 23% respectivamente , esto en el acumulado es aproximadamente 75%. De acuerdo a las recomendaciones, esto no es suficiente, por tanto, se podría decidir si escoger los 3 o 4 primeros componentes que explican el 88% y 95% de variabilidad acumulada respectivamente. Esta decisión dependerá de si se prioriza la parsimonia o la variabilidad explicada por los componentes.
Comp.1 Comp.2 Comp.3 Comp.4 Comp.5
2.5480143 1.1816341 0.6723181 0.3610881 0.2369455
Loadings:
Comp.1 Comp.2 Comp.3 Comp.4 Comp.5
budget 0.484 0.408 0.265 0.523 0.505
gross 0.530 0.335 -0.118 -0.768
runtime 0.344 -0.495 0.761 -0.213 -0.109
score 0.292 -0.690 -0.444 0.492
votes 0.529 -0.374 -0.661 0.378
Comp.1 Comp.2 Comp.3 Comp.4 Comp.5
SS loadings 1.0 1.0 1.0 1.0 1.0
Proportion Var 0.2 0.2 0.2 0.2 0.2
Cumulative Var 0.2 0.4 0.6 0.8 1.0
\[Comp1=0.484(budget)+0.530(gross)+0.344(rutime)+0.292(score)+0.529(votes)\]
Comentando un poco los resultados, puede observarse que, en la primera componente principal, tiene asociaciones altas con las variables: budget tiene una asociación de 0.484, gross tiene una asociación de 0.53, siguiéndole runtime con 0.344, posteriormente tiene una asociación de 0.292 y 0.529 con las variables score y votes respectivamente. La segunda componente principal tiene asociaciones positivas destacadas: budget con una asociación 0.408, gross con una asociación de 0.335, también tiene asociaciones negativas de -0.495 y -0.69 con score y votes respectivamente. La primera componente mide principalmente las el presupuesto y el ingreso; Ya que existe una correlación positiva alta entre todas las variables, el primer componente principal tiene todas sus coordenadas del mismo signo y se puede interpretar como un factor global de tamaño o como un promedio ponderado de todas las variables.
(c) Realiza el biplot correspondiente y comenta la gráfica obtenida.
Gráfico 4 y 5
El gráfico muestra como mediante el sistema de coordenadas bidimensional en base a las dos componentes principales, se pueden observar los cinco atributos de análisis en forma de flechas. Este gráfico nos permite interpretar el significado del ACP en base a la dirección de dichas flechas.
Por otro lado, se reitera la existencia de correlación positiva entre las variables presupuesto e ingreso, esto debido a la semejanza y distancia entre las flechas que muestran en gráfico. Así como se muestra también la baja correlación entre presupuesto y calificación, puesto que ambas fechas se encuentran con posiciones diferentes y más distantes.
Se puede identificar que todas las variables tienen influencia positiva grande en la componente 1. Además, para la componente 2 las variables presupuesto e ingreso también tienen influencia positiva, sin embargo, para calificación y tiempo de duración tienen influencia negativa. Por otro lado, en este componente la variable votos se encuentra neutra.
ACP MIXTO
Gráfico 6
Variance Proportion
dim1.rot 2.790744 3.135668
dim2.rot 2.039378 2.291436
dim3.rot 1.702207 1.912592
Se seleccionaron aleatoriamente 100 observaciones para este análisis y es posible graficarlas como observaciones suplementarias en el análisis de componentes principales, notando que son los puntos rojos en el gráfico.
Gráfico 7
También es posible trazar todos los mapas estándar de PCAmix antes y después de la rotación. Por ejemplo, podemos trazar las observaciones y variables antes y después de la rotación en las dimensiones 1 y 3.
Gráfico 8
También es posible trazar las variables numéricas (en el círculo de correlación) o los niveles de las variables categóricas.
Índice
# A tibble: 6 x 5
budget gross runtime score votes
<dbl> <dbl> <dbl> <dbl> <dbl>
1 8000000 52287414 89 8.1 299174
2 6000000 70136369 103 7.8 264740
3 15000000 179800601 110 6.9 236909
4 18500000 85160248 137 8.4 540152
5 9000000 18564613 90 6.9 36636
6 6000000 138530565 120 8.1 317585
budget gross runtime score votes
budget 1.00 0.71 0.27 0.04 0.50
gross 0.71 1.00 0.22 0.17 0.66
runtime 0.27 0.22 1.00 0.40 0.32
score 0.04 0.17 0.40 1.00 0.39
votes 0.50 0.66 0.32 0.39 1.00
Call:
princomp(x = datos41, cor = T)
Standard deviations:
Comp.1 Comp.2 Comp.3 Comp.4 Comp.5
1.5962501 1.0870299 0.8199500 0.6009060 0.4867705
5 variables and 6820 observations.
eigenvalue variance.percent cumulative.variance.percent
Dim.1 2.5480143 50.960286 50.96029
Dim.2 1.1816341 23.632682 74.59297
Dim.3 0.6723181 13.446361 88.03933
Dim.4 0.3610881 7.221761 95.26109
Dim.5 0.2369455 4.738910 100.00000
eigenvalue variance.percent cumulative.variance.percent
Dim.1 2.5480143 50.960286 50.96029
Dim.2 1.1816341 23.632682 74.59297
Dim.3 0.6723181 13.446361 88.03933
Dim.4 0.3610881 7.221761 95.26109
Dim.5 0.2369455 4.738910 100.00000
El índice que hemos obtenido lo denominaremos Índice de Presupuesto-Ingreso debido a que cada película puede ser ordenada entorno a la correlación entre estas dos variables, que influye estrechamente en la duración de la película.
En la curva de densidad se puede apreciar que esta sesgada hacia la derecha esto significa que puesto que existe una tendencia a incrementar el presupuesto para incrementar el ingreso.
Además, podría existir una relación unidireccional desde la variable duración de la película (‘Runtime’) hacia la variable presupuesto (‘Budget’) pudiendo ser una variable relevante para explicar la misma.