Estadística multivariada

Esta clase de métodos estadísticos es fundamentalmente diferente de muchos otros del libro porque puede que no haya una variable de respuesta.

En lugar de intentar comprender la variación en una variable de respuesta en términos de variables explicativas, en la estadística multivariada buscamos estructura en los datos.

El problema es que la estructura es bastante fácil de encontrar y, con demasiada frecuencia, es una característica exclusiva de ese conjunto de datos en particular.

El verdadero desafío es encontrar una estructura general que se aplique también a otros conjuntos de datos. Desafortunadamente, no existen medios garantizados para detectar patrones, y los estadísticos han demostrado mucho ingenio al idear medios de reconocimiento de patrones en conjuntos de datos multivariados. La división principal es entre métodos que asumen una estructura determinada y buscan dividir los casos en grupos, y métodos que buscan descubrir una estructura a partir de la inspección de los datos. El punto realmente importante es que necesitamos saber exactamente cuál es la pregunta que estamos tratando de responder. No confundas lo opaco con lo profundo.

La estadística multivariada es una rama de la estadística que se encarga de analizar conjuntos de datos con múltiples variables. En otras palabras, estudia cómo se comportan y se relacionan entre sí varias variables al mismo tiempo.

A diferencia de la estadística univariada, que se centra en una sola variable a la vez, la estadística multivariada permite obtener una visión más completa de los fenómenos que se estudian.

Visualizando datos

Como es habitual, antes de llevar a cabo análisis estadísticos sofisticados siempre vale la pena dedicar tiempo a comprender un conjunto de datos. Los datos multivariados a menudo existen en dimensiones altas (por ejemplo, un registro de mis características físicas puede contener cientos de datos como la altura o la longitud del dedo gordo del pie izquierdo), por lo que puede resultar difícil producir gráficos y estadísticas resumidas útiles. Aquí se ilustran un par de estos gráficos, pero hay muchos más disponibles con R. Un buen punto de partida son los gráficos univariados apropiados para cada variable (gráfico de barras, histograma o diagrama de caja, por ejemplo) y diagramas de dispersión bivariados entre pares.

Afortunadamente, podemos combinar los dos usando la función chart.Correlation() que se puede encontrar en el paquete PerformanceAnalytics (Peterson y Carl, 2020).

Paquete PerformanceAnalytics

PerformanceAnalytics es un paquete de R diseñado para el análisis de rendimientos financieros. Proporciona una amplia gama de funciones para calcular, visualizar y analizar datos financieros,

La función chart.Correlation() La función chart.Correlation() del paquete PerformanceAnalytics se utiliza para visualizar una matriz de correlación.

Esta función genera un gráfico que muestra la correlación entre pares de variables en un conjunto de datos. La correlación es una medida que indica la fuerza de la relación lineal entre dos variables.

library (PerformanceAnalytics)
## Loading required package: xts
## Loading required package: zoo
## 
## Attaching package: 'zoo'
## The following objects are masked from 'package:base':
## 
##     as.Date, as.Date.numeric
## 
## Attaching package: 'PerformanceAnalytics'
## The following object is masked from 'package:graphics':
## 
##     legend
taxa <- read.table ("taxonomy.txt", header = T, colClasses = list
(Taxon = "factor"))
head(taxa)
chart.Correlation (taxa[, 2:8], histogram = TRUE, pch = 20)

Gráfica de estrella

library(scales)
stars (taxa[,2:8], locations = c (0, 0), key.loc = c (0, 0), radius = F,
col.lines = hue_pal ()(120))

Análisis multivariado de varianza

A veces se miden dos o más variables de respuesta en el mismo experimento. Por supuesto, podemos analizar cada variable de respuesta por separado, y esa es la forma típica de proceder. Pero hay ocasiones en las que queremos tratar el grupo de variables de respuesta como una respuesta multivariada. La función para esto es manova(), el análisis de varianza multivariado. El conjunto de datos manova investiga el efecto de dos covariables categóricas, velocidad y aditivo, en tres resultados que describen el material de embalaje de plástico: desgarro, brillo y opacidad.

plastic <- read.table ("manova.txt", header = T)
head(plastic)
plastic_out <- cbind (plastic$tear, plastic$gloss, plastic$opacity)
colnames (plastic_out) <- colnames (plastic)[1:3]
plastic_mod1 <- manova (plastic_out ~ plastic$rate * plastic$additive)
summary (plastic_mod1)
##                               Df  Pillai approx F num Df den Df   Pr(>F)   
## plastic$rate                   1 0.61814   7.5543      3     14 0.003034 **
## plastic$additive               1 0.47697   4.2556      3     14 0.024745 * 
## plastic$rate:plastic$additive  1 0.22289   1.3385      3     14 0.301782   
## Residuals                     16                                           
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

La salida que estás viendo corresponde a un análisis de varianza multivariado (MANOVA) realizado con el software R. A continuación te presento una interpretación de la tabla en español:

Efectos:

  • **plastic\(rate:** Este término representa el efecto del factor "plastic\)rate” sobre las variables dependientes analizadas en conjunto.
    • El valor de Pillai (0.61814) indica una proporción moderada de la varianza total explicada por este factor.
    • El estadístico F aproximado (7.5543) es significativo (p-valor = 0.003034 < 0.05), lo que sugiere que el efecto de “plastic$rate” es estadísticamente significativo.
  • **plastic\(additive:** Este término representa el efecto del factor "plastic\)additive” sobre las variables dependientes analizadas en conjunto.
    • El valor de Pillai (0.47697) indica una proporción moderada de la varianza total explicada por este factor.
    • El estadístico F aproximado (4.2556) es significativo (p-valor = 0.024745 < 0.05), lo que sugiere que el efecto de “plastic$additive” es estadísticamente significativo.
  • plastic\(rate:plastic\)additive: Este término representa el efecto de la interacción entre “plastic\(rate" y "plastic\)additive” sobre las variables dependientes analizadas en conjunto.
    • El valor de Pillai (0.22289) indica una proporción baja de la varianza total explicada por la interacción.
    • El estadístico F aproximado (1.3385) no es significativo (p-valor = 0.301782 > 0.05), lo que sugiere que la interacción no tiene un efecto estadísticamente significativo.

Resumen:

  • El análisis MANOVA indica que tanto el factor “plastic\(rate" como el factor "plastic\)additive” tienen efectos estadísticamente significativos sobre las variables dependientes analizadas en conjunto.
  • La interacción entre estos factores no parece tener un efecto significativo.

Ten en cuenta:

  • Esta interpretación se basa en los valores de Pillai, estadístico F aproximado y p-valor presentados en la tabla.
  • Para una comprensión más completa del análisis, sería necesario conocer las variables dependientes analizadas y el contexto del estudio.