logo

Introducción

Uno de los enfoques más poderosos para explorar y extraer significado de los datos es el análisis multivariado. A diferencia de los métodos estadísticos univariados (que se centran en una sola variable), el análisis multivariado permite desentrañar las interrelaciones entre múltiples variables, ofreciendo una perspectiva más completa y profunda.

En esencia, el análisis multivariado se ocupa de investigar cómo varias variables interactúan y se influyen mutuamente en un conjunto de datos. Algunas veces, las relaciones entre variables pueden ser obvias, pero a menudo los datos contienen patrones y conexiones sutiles que solo se vuelven evidentes cuando se examinan en conjunto. El análisis multivariado nos brinda las herramientas necesarias para revelar estas relaciones ocultas y para capturar la complejidad inherente a los datos multidimensionales.

En el presente módulo iniciaremos por entender los conceptos básicos que involucran estadísticas descriptivas, estas estadísticas deben siempre aplicarse como primer paso para comprender la estructura de los datos y extraer la información que contienen, antes de pasar a los métodos más complejos. Las herramientas que describimos en este módulo pueden, en ocasiones, resolver el problema que ha motivado la recogida de los datos. En particular, cuando el interés se centra en la relación entre las variables o en la comparación de dos conjuntos de datos, los métodos descriptivos pueden ser de gran ayuda antes de emprender estudios más complejos.

Conceptos básicos

Tipos de variables

La información de partida para los métodos estudiados puede ser de varios tipos. La más habitual es una tabla donde aparecen los valores de \(p\) variables observadas sobre \(n\) elementos. Las variables pueden ser:

  • Cuantitativas: cuando su valor se exprese numéricamente. Por ejemplo: la edad de una persona, su estatura, su renta, etc. Estas variables cuantitativas pueden a su vez clasificarse en continuas, cuando pueden tomar cualquier valor real (estatura) o discretas, cuando sólo toman valores contables (número de hermanos).

  • Cualitativas: cuando su valor sea expresa como un atributo o categoría. Por ejemplo: el género, color de los ojos, municipio de nacimiento, etc. Estas variables cualitativas pueden a su vez clasificarse en nominales, cuando no hay importancia en el orden de la cualidad (género) o ordinales, cuando importa el orden de las cualidades (Grado académico).

Nota importante: las variables cualitativas pueden codificarse numéricamente, pero requieren un tratamiento distinto. Por ejemplo, si tenemos la variable tamaño de le empresa, y las respuestas posibles son: empresas pequeñas, medianas y grandes, en función del número de trabajadores, tienen sentido codificarlas con los números 1, 2, y 3, aunque es muy importante siempre recordar que estos números sólo son etiquetas que pierden cualquier propiedad numérica.

Matriz de datos

Supondremos en adelante que hemos observado \(p\) variables numéricas en un conjunto de \(n\) elementos. Cada una de estas \(p\) variables se denomina una variable escalar o univariada y el conjunto de las \(p\) variables forman una variable vectorial o multivariada. Los valores de las \(p\) variables escalares en cada uno de los \(n\) elementos pueden representarse en una matriz, \(X\), de dimensiones \((n\times p)\), que llamaremos matriz de datos.

Denotaremos por \(x_{ij}\) al elemento genérico de esta matriz, que representa el valor de la variable escalar \(j\) sobre el individuo \(i\), donde \(i = 1,\cdots, n\) representa el individuo y \(j = 1,\cdots, p\) representa la variable.

Algunos ejemplos de datos que se utilizan en el análisis multivariado son:

  1. En 400 puntos de una ciudad instalamos controles que proporcionan cada hora las medidas de 30 variables ambientales y de contaminación atmosférica en dicho punto. Entonces, cada hora tendremos una matriz de datos con 400 filas, los puntos de observación, y 30 columnas, las variables observadas.

  2. A una muestra de 100 estudiantes de una universidad les medimos la edad, el género, el promedio, el municipio de residencia (codificado en 4 categorías en función del tamaño) y el número del año del curso más alto en que se encuentra matriculado. Entonces la matriz de datos tendrá 100 filas, los estudiantes, y 5 columnas, las variables medidas. De estas 5 variables 3 son cuantitativas (edad, promedio y número del año del curso más alto) y 2 cualitativas, codificadas numéricamente, (género: 1 mujer, 0 hombre) y (municipio de residencia: 1, 2, 3, 4). Alternativamente podríamos codificar el municipio de residencia con tres variables binarias, y entonces, la matriz de datos tendrá 100 filas 7 columnas correspondientes a las tres cuantitativas, el género, y las tres variables binarias adicionales para describir el tamaño del municipio de residencia.

La matriz de datos, \(X\), puede representarse de dos formas distintas. Por filas: \[ X = \begin{pmatrix} x_{11} & \cdots & x_{1n} \\ \vdots & \ddots & \vdots \\ x_{n1} & \cdots & x_{np} \end{pmatrix} = \begin{pmatrix} {\bf x}_1^t \\ \vdots \\ {\bf x}_n^t \end{pmatrix} \] donde cada variable \({\bf x}_{i}^t\) es un vector fila \((p \times 1)\), que representa los valores de las \(p\) variables sobre el individuo \(i\). Alternativamente, podemos respresentar la matriz \(X\) por las columnas: \[ X = \begin{pmatrix} x_{11} & \cdots & x_{1n} \\ \vdots & \ddots & \vdots \\ x_{n1} & \cdots & x_{np} \end{pmatrix} = \begin{pmatrix} {\bf x}_{(1)} & \cdots & {\bf x}_{(p)} \end{pmatrix} \] donde ahora cada variable \(x_{(j)}\) es un vector columna, \((n\times 1)\), que representa la variable \(x_j\) medida en los \(n\) elementos de la población. Llamaremos \({\bf x}= (x_1,\cdots,x_p)\) a la variable multivariado formada por las \(p\) variables escalares que toman valores particulares \({\bf x}_1,\cdots,{\bf x}_n\) en los \(n\) elementos observados.

Análisis univariado

Describir datos multivariados supone estudiar cada variable aisladamente y además las relaciones entre ellas. Suponiendo que se está familiarizado con el análisis descriptivo de una variable, a continuación expondremos únicamente las fórmulas que utilizaremos y su utilidad. El estudio univariado de la variable escalar \(x_j\) implica calcular:

  • Media: \[ \overline{x}_j = \dfrac{1}{n} \sum_{i=1}^n x_{ij} \] Para una variable cualitativa codificada de forma binaria es la frecuencia relativa de aparición del atributo y para una variable cuantitativa es el centro de gravedad de los datos.

  • Desviación estándar: \[ s_j = \sqrt{\dfrac{\displaystyle\sum_{i=1}^n d_{ij} }{n-1}}=\sqrt{\dfrac{\displaystyle\sum_{i=1}^n(x_{ij}-\overline{x}_j)^2}{n-1}} \] Se puede entender como el promedio de desviaciones entre los datos y la media.

  • varianza: \[ s_j^2= \dfrac{1}{n} \sum_{i=1}^n d_{ij} \] El cuadrado de la desviación estándar se denomina varianza de los datos.

  • Coeficiente de variación: \[ cv_j = \dfrac{s_j}{\overline{x}_j} \] Para comparar la variabilidad de distintas variables conviene construir una medida de variabilidad relativa que no dependa de las unidades de medida.

  • Coeficiente de asimetría: \[ A_j = \dfrac{\displaystyle\sum_{i=1}^n (x_{ij}-\overline{x}_j)^3}{n\cdot s_j^3} \] Este coeficiente es cero para una variable simétrica. Cuando el valor absoluto del coeficiente es aproximadamente mayor que uno, podemos concluir que los datos tienen una distribución claramente asimétrica.

  • Coeficiente de homogeneidad: \[ H_j = \dfrac{\displaystyle\sum_{i=1}^n (d_{ij}-s_j^2)^2}{n\cdot s_j^4} \] Una característica importante de un conjunto de datos es su homogeneidad. Si las desviaciones \(d_{ij}\) son muy distintas, esto sugiere que hay datos que se separan demasiado de la media y que tenemos por tanto alta heterogeneidad. Este coeficiente es siempre mayor o igual a cero.

  • Coeficiente de curtosis: \[ k_j = \dfrac{\displaystyle\sum_{i=1}^n (x_{ij}-\overline{x}_j)^4}{n\cdot s_j^4} \] Una forma alternativa de medir la homogeneidad, es el coeficiente de curtosis. Como \(H_j \geq 0\), el coeficiente de curtosis \(k_j \geq 1\). Ambos coeficientes miden la relación entre la variabilidad de las desviaciones y la desviación media.

A continuación pasaremos al análisis multivariado de las observaciones. En esta sección presentaremos como obtener medidas conjuntas de centralización y dispersión para el conjunto de variables y medidas de dependencia lineal entre pares de variables y entre todas ellas.

Ejemplo 1:

Para este ejemplo se trabajará con la base de datos denominada: acciones . Esta base presenta 34 observaciones y 3 variables. Las observaciones corresponden a distintas acciones que cotizan en el mercado y las variables a tres medidas de rentabilidad de estas acciones durante un período de tiempo. Las variables son : \(x_1\) es la rentabilidad efectiva por dividendos, \(x_2\) es la proporción de beneficios que va a dividendos y \(x_3\) el cociente entre precio por acción y beneficios.

En R podemos crear el siguiente código para calcular las diferentes medidas vistas anteriormente.

library(moments)

acciones <-read.csv("acciones.csv",sep=",")
head(acciones)
##   Obs.  X1   X2   X3
## 1    1 3.4 89.7 30.2
## 2    2 5.1 55.7  9.9
## 3    3 4.5 52.3 11.5
## 4    4 3.5 47.0 11.2
## 5    5 5.9 42.7  7.0
## 6    6 5.1 30.6  6.9
Medias    <- apply(acciones[2:4],2,mean)
Des_st    <- apply(acciones[2:4],2,sd)
Asimetria <- apply(acciones[2:4],2,skewness)
Curtosis  <- apply(acciones[2:4],2,kurtosis)

Descriptivas <-rbind(Medias,Des_st,Asimetria,Curtosis)
round(Descriptivas,2)
##             X1    X2    X3
## Medias    9.42 69.53  9.10
## Des_st    5.39 24.00  4.75
## Asimetria 0.37  0.05  2.71
## Curtosis  1.38  1.40 12.44

En las medias y las desviaciones estándar podemos ver que la segunda variable tiene unidades de medida diferente. La asimetría y curtosis indican un alejamiento entre las tres variables: las dos primeras tienen valores muy bajos de curtosis, lo que indica alta heterogeneidad, posiblemente por la presencia de dos grupos de datos distintos, y la tercera tiene alta curtosis, lo que sugiere la presencia de valores atípicos.

Estas características se deberían poder observar en los histogramas de las variables. Las dos primeras variables muestran dos grupos de acciones con comportamientos distintos. En cambio, la distribución de la tercera variable es muy asimétrica, con un valor atípico muy destacado.

par(mfrow=c(2,2))
hist(acciones$X1, main = "Rentabilidad por dividendos",xlab=" ")
hist(acciones$X2, main = "Proporción de beneficios que va a dividendos",xlab=" ")
hist(acciones$X3, main = "Cociente entre precio por acción y beneficios",xlab=" ")

Vector de medias

La medida de centralización más utilizada para describir datos multivariados es el vector de medias, que es un vector de dimensión \(p\) cuyos componentes son las medias de cada una de las \(p\) variables. Puede calcularse, como el caso escalar, promediando las medidas de cada elemento, que ahora son vectores: \[ \overline{\bf x}=\dfrac{1}{n} \sum_{i=1}^n {\bf x}_i= \begin{pmatrix} \overline{x}_1 \\ \vdots \\ \overline{x}_p \end{pmatrix} \] Su expresión matricial es: \[ \overline{\bf x}= \dfrac{1}{n}X^t \cdot {\bf 1} \] donde \({\bf 1}\) representará siempre un vector de unos de la dimensión adecuada. En efecto, escribiendo la matriz \(X\) en términos de sus vectores fila, que son vectores de dimensión \(1\times p\) que contienen los valores de las \(p\) variables en cada elemento de la muestra, estos vectores son las columnas de \(X^t\), y tendremos que: \[ \overline{\bf x}= \dfrac{1}{n} \begin{pmatrix} {\bf x}_1 \cdots {\bf x}_n \end{pmatrix} \begin{pmatrix} 1 \\ \vdots \\ 1 \end{pmatrix} \] Que conduce a entender que el vector de medias se encuentra en el centro de los datos, en el sentido de hacer cero la suma de las desviaciones: \[ \sum_{i=1}^n ({\bf x}_i - \overline{\bf x}) = {\bf 0}. \] ya que esta suma se puede ver como: \[ \sum_{i=1}^n ({\bf x}_i - \overline{\bf x}) = \sum_{i=1}^n {\bf x}_i - n\overline{\bf x} \] aplicando la definición de media es inmediato que esta suma es cero.

Las medidas de centralización escalares basadas en el orden de las observaciones no pueden generalizarse fácilmente al caso multivariado. Por ejemplo, podemos calcular el vector de medianas, pero este punto no tiene necesariamente una situación como centro de los datos. Esta dificultad proviene de la falta de un orden natural de los datos multivariados.

Ejemplo 2:

Para este ejemplo se trabajará con la base de datos denominada: medicas . La base de datos presenta 8 variables físicas tomadas en un grupo de 27 estudiantes. Las variables son sexo (sex con 0:mujer, 1:hombre), estatura (est, en cm), peso (pes, en kg), longitud de pie (lpie, en cm), longitud de brazo (lbra, en cm), ancho de la espalda (aes, en cm), diámetro de cráneo (dcr, en cm) y longitud entre la rodilla y el tobillo (lrt, en cm).

En R podemos crear el vector de medias de la siguiente manera:

medicas <-read.csv("medicas.csv",sep=",")
head(medicas)
##   Obs. sexo est pes pie lbr  aes dcr lrt
## 1    1    0 159  49  36  68 42.0  57  40
## 2    2    1 164  62  39  73 44.0  55  44
## 3    3    0 172  65  38  75 48.0  58  44
## 4    4    0 167  52  37  73 41.5  58  44
## 5    5    0 164  51  36  71 44.5  54  40
## 6    6    0 161  67  38  71 44.0  56  42
Medias    <- apply(medicas[3:9],2,mean)
Des_st    <- apply(medicas[3:9],2,sd)
sd_sex    <- sqrt(Medias[1]*(1-Medias[1]))
Des_st    <- c(sd_sex,Des_st)
Coef_Var  <- Des_st/Medias



Descriptivas <- rbind(Medias,Des_st,Coef_Var)
round(Descriptivas,2)
##             est   est   pes   pie   lbr   aes   dcr    lrt
## Medias   168.78 63.89 38.98 73.46 45.85 57.24 43.09 168.78
## Des_st      NaN 10.20 12.80  2.86  4.96  4.02  1.84   3.16
## Coef_Var    NaN  0.16  0.33  0.04  0.11  0.07  0.04   0.02

Para la variable binaria sexo la media es la proporción de hombres en los datos y la desviación estándar es \(\sqrt{p(1 − p)}\), donde \(p\) es la media, que sería analizarlo como una variable Binomial. Si miramos los coeficientes de variación, se observa que en las medidas de longitudes, como la estatura, la longitud del pie y las extremidades, que vienen determinadas más por la herencia genética que por nuestros hábitos, la variabilidad relativa es del orden del \(7\%\). El diámetro del cráneo es mucho más constante, con una variabilidad relativa de menos de la mitad, el \(3\%\). La variabilidad relativa de las variables que dependen más de nuestros hábitos, como el peso, es mucho mayor, \(20\%\).

Medianas <-  apply(medicas[3:9],2,median)
Medias   <- Medias[-1]
Tendencia <- rbind(Medias,Medianas)
round(Tendencia,2)
##             est   pes   pie   lbr   aes   dcr   lrt
## Medias    63.89 38.98 73.46 45.85 57.24 43.09 63.89
## Medianas 168.00 65.00 39.00 73.00 46.00 57.00 43.00

Se observa que las medianas son muy similares a las medias, lo que sugiere que las variables no tienen valores extremos y por lo tanto se da prioridad a la utilidad de la media como valor central.

Ejercicios

  1. Calcula el vector de medias y de medianas para las tres variables de la base de datos acciones . Compara sus ventajas como medidas de centralización de estas variables.

  2. Se dispone de 3 indicadores económicos \(x_1,x_2,x_3\), que se miden en cuatro países, con los resultados siguientes:

\(x_1\) \(x_2\) \(x_3\)
2 3 -1
1 5 -2
2 2 1
3 3 1

Calcula todas las medidas descriptivas vistas y comenta sobre ellas.

  1. A partir de los tres indicadores económicos anteriores \(x_1,x_2,x_3\), se construyen dos nuevos indicadores: \[ y_1 = \dfrac{x_1+x_2+x_3}{3}, \quad y_2 = x_1-\dfrac{x_2+x_3}{2} \] Calcula todas las medidas descriptivas vistas para el vector \[ {\bf y} = \begin{pmatrix} y_1 \\ y_2 \end{pmatrix} \] y comenta sobre ellas.
\[ \]