## Warning: package 'rmdformats' was built under R version 4.0.2

ACP Cuantitativo

El archivo Peliculas_var_cuantitativas.csv contiene cinco atributos de 6820 películas. Estos son: el presupuesto, el ingreso, el tiempo de duración, la calificación y los votos que los espectadores le otorgaron a el film. En el siguiente informe se realiza el Análisis de Componentes Principales (ACP) para los atributos cuantitativos antes mencionados.

    budget     gross runtime score  votes
1  8000000  52287414      89   8.1 299174
2  6000000  70136369     103   7.8 264740
3 15000000 179800601     110   6.9 236909
4 18500000  85160248     137   8.4 540152
5  9000000  18564613      90   6.9  36636
6  6000000 138530565     120   8.1 317585

(a) Realiza un Analisis de Componentes Principales con los datos de ‘ACP_Peli’. Justifica el uso de la matriz de covarianzas o de la matriz de correlacionesmuestrales para llevar a cabo el analisis.

La matriz de correlaciones se utiliza para tener las mismas escalas en todas las variables de la muestra, ya que tienen distintas unidades de medidas.

A diferencia del coeficiente de correlación, la covarianza no es estandarizada. Por lo tanto, los valores de covarianza pueden encontrarse entre infinito negativo e infinito positivo y puede ser difícil interpretarlos. Se utiliza la matriz de correlación para medir la relación lineal entre cada par de elementos o variables. Por otro lado, se puede entender que la varianza mide el grado de información de las variables.

        budget gross runtime score votes
budget    1.00  0.71    0.27  0.04  0.50
gross     0.71  1.00    0.22  0.17  0.66
runtime   0.27  0.22    1.00  0.40  0.32
score     0.04  0.17    0.40  1.00  0.39
votes     0.50  0.66    0.32  0.39  1.00

Gráfico 1

Comos se observa, existe una alta correlación positiva (0.71) entre las variables presupuesto e ingreso, mientras que entre la variable calificación y presupuesto hay una correlación baja.

Call:
princomp(x = ACP_Peli, cor = T)

Standard deviations:
   Comp.1    Comp.2    Comp.3    Comp.4    Comp.5 
1.5962501 1.0870299 0.8199500 0.6009060 0.4867705 

 5  variables and  6820 observations.

Gráficos de sedimentación

A continuación, se representa el siguientes gráfico de sedimentación con los autovalores de la muestra en estudio y se observa que el valor de las componentes va descendiendo a medida que se aumenta de componente.

Las dos primeras componentes principales tienen eigenvalores que sobrepasan el valor de 1, es decir, que la cantidad de variación explicada cae dramáticamente después de la segunda componente. Esto sugiere que solo las 2 primeras componente puede ser suficiente para resumir los datos. sin embargo, si se observan la tercera y cuarta están muy próximas a uno y a partir de la quinta componente se van estabilizando hasta llegar a la novena componente. En el grafico se puede observar mejor.

Gráfico 2

Gráfico 3

(b) Haz una interpretación de las dos primeras componentes principales. ¿Cuál es la proporción de variabilidad explicada por las dos primeras componentes principales?

Importance of components:
                          Comp.1    Comp.2    Comp.3     Comp.4    Comp.5
Standard deviation     1.5962501 1.0870299 0.8199500 0.60090603 0.4867705
Proportion of Variance 0.5096029 0.2363268 0.1344636 0.07221761 0.0473891
Cumulative Proportion  0.5096029 0.7459297 0.8803933 0.95261090 1.0000000

Las dos primeras componentes tienen una variabilidad aproximada del 50% y 23% respectivamente , esto en el acumulado es aproximadamente 75%. De acuerdo a las recomendaciones, esto no es suficiente, por tanto, se podría decidir si escoger los 3 o 4 primeros componentes que explican el 88% y 95% de variabilidad acumulada respectivamente. Esta decisión dependerá de si se prioriza la parsimonia o la variabilidad explicada por los componentes.

   Comp.1    Comp.2    Comp.3    Comp.4    Comp.5 
2.5480143 1.1816341 0.6723181 0.3610881 0.2369455 

Loadings:
        Comp.1 Comp.2 Comp.3 Comp.4 Comp.5
budget   0.484  0.408  0.265  0.523  0.505
gross    0.530  0.335 -0.118        -0.768
runtime  0.344 -0.495  0.761 -0.213 -0.109
score    0.292 -0.690 -0.444  0.492       
votes    0.529        -0.374 -0.661  0.378

               Comp.1 Comp.2 Comp.3 Comp.4 Comp.5
SS loadings       1.0    1.0    1.0    1.0    1.0
Proportion Var    0.2    0.2    0.2    0.2    0.2
Cumulative Var    0.2    0.4    0.6    0.8    1.0

\[Comp1=0.484(budget)+0.530(gross)+0.344(rutime)+0.292(score)+0.529(votes)\]

Comentando un poco los resultados, puede observarse que, en la primera componente principal, tiene asociaciones altas con las variables: budget tiene una asociación de 0.484, gross tiene una asociación de 0.53, siguiéndole runtime con 0.344, posteriormente tiene una asociación de 0.292 y 0.529 con las variables score y votes respectivamente. La segunda componente principal tiene asociaciones positivas destacadas: budget con una asociación 0.408, gross con una asociación de 0.335, también tiene asociaciones negativas de -0.495 y -0.69 con score y votes respectivamente. La primera componente mide principalmente las el presupuesto y el ingreso; Ya que existe una correlación positiva alta entre todas las variables, el primer componente principal tiene todas sus coordenadas del mismo signo y se puede interpretar como un factor global de tamaño o como un promedio ponderado de todas las variables.

(c) Realiza el biplot correspondiente y comenta la gráfica obtenida.

Gráfico 4 y 5

El gráfico muestra como mediante el sistema de coordenadas bidimensional en base a las dos componentes principales, se pueden observar los cinco atributos de análisis en forma de flechas. Este gráfico nos permite interpretar el significado del ACP en base a la dirección de dichas flechas.

Por otro lado, se reitera la existencia de correlación positiva entre las variables presupuesto e ingreso, esto debido a la semejanza y distancia entre las flechas que muestran en gráfico. Así como se muestra también la baja correlación entre presupuesto y calificación, puesto que ambas fechas se encuentran con posiciones diferentes y más distantes.

Se puede identificar que todas las variables tienen influencia positiva grande en la componente 1. Además, para la componente 2 las variables presupuesto e ingreso también tienen influencia positiva, sin embargo, para calificación y tiempo de duración tienen influencia negativa. Por otro lado, en este componente la variable votos se encuentra neutra.

ACP MIXTO

Gráfico 6

         Variance Proportion
dim1.rot 2.790744   3.135668
dim2.rot 2.039378   2.291436
dim3.rot 1.702207   1.912592

Se seleccionaron aleatoriamente 100 observaciones para este análisis y es posible graficarlas como observaciones suplementarias en el análisis de componentes principales, notando que son los puntos rojos en el gráfico.

Gráfico 7

También es posible trazar todos los mapas estándar de PCAmix antes y después de la rotación. Por ejemplo, podemos trazar las observaciones y variables antes y después de la rotación en las dimensiones 1 y 3.

Gráfico 8

También es posible trazar las variables numéricas (en el círculo de correlación) o los niveles de las variables categóricas.

Índice

# A tibble: 6 x 5
    budget     gross runtime score  votes
     <dbl>     <dbl>   <dbl> <dbl>  <dbl>
1  8000000  52287414      89   8.1 299174
2  6000000  70136369     103   7.8 264740
3 15000000 179800601     110   6.9 236909
4 18500000  85160248     137   8.4 540152
5  9000000  18564613      90   6.9  36636
6  6000000 138530565     120   8.1 317585
        budget gross runtime score votes
budget    1.00  0.71    0.27  0.04  0.50
gross     0.71  1.00    0.22  0.17  0.66
runtime   0.27  0.22    1.00  0.40  0.32
score     0.04  0.17    0.40  1.00  0.39
votes     0.50  0.66    0.32  0.39  1.00
Call:
princomp(x = datos41, cor = T)

Standard deviations:
   Comp.1    Comp.2    Comp.3    Comp.4    Comp.5 
1.5962501 1.0870299 0.8199500 0.6009060 0.4867705 

 5  variables and  6820 observations.
      eigenvalue variance.percent cumulative.variance.percent
Dim.1  2.5480143        50.960286                    50.96029
Dim.2  1.1816341        23.632682                    74.59297
Dim.3  0.6723181        13.446361                    88.03933
Dim.4  0.3610881         7.221761                    95.26109
Dim.5  0.2369455         4.738910                   100.00000

      eigenvalue variance.percent cumulative.variance.percent
Dim.1  2.5480143        50.960286                    50.96029
Dim.2  1.1816341        23.632682                    74.59297
Dim.3  0.6723181        13.446361                    88.03933
Dim.4  0.3610881         7.221761                    95.26109
Dim.5  0.2369455         4.738910                   100.00000

  • El índice que hemos obtenido lo denominaremos Índice de Presupuesto-Ingreso debido a que cada película puede ser ordenada entorno a la correlación entre estas dos variables, que influye estrechamente en la duración de la película.

  • En la curva de densidad se puede apreciar que esta sesgada hacia la derecha esto significa que puesto que existe una tendencia a incrementar el presupuesto para incrementar el ingreso.

  • Además, podría existir una relación unidireccional desde la variable duración de la película (‘Runtime’) hacia la variable presupuesto (‘Budget’) pudiendo ser una variable relevante para explicar la misma.