Esta clase de métodos estadísticos es fundamentalmente diferente de muchos otros del libro porque puede que no haya una variable de respuesta.
En lugar de intentar comprender la variación en una variable de respuesta en términos de variables explicativas, en la estadística multivariada buscamos estructura en los datos.
El problema es que la estructura es bastante fácil de encontrar y, con demasiada frecuencia, es una característica exclusiva de ese conjunto de datos en particular.
El verdadero desafío es encontrar una estructura general que se aplique también a otros conjuntos de datos. Desafortunadamente, no existen medios garantizados para detectar patrones, y los estadísticos han demostrado mucho ingenio al idear medios de reconocimiento de patrones en conjuntos de datos multivariados. La división principal es entre métodos que asumen una estructura determinada y buscan dividir los casos en grupos, y métodos que buscan descubrir una estructura a partir de la inspección de los datos. El punto realmente importante es que necesitamos saber exactamente cuál es la pregunta que estamos tratando de responder. No confundas lo opaco con lo profundo.
La estadística multivariada es una rama de la estadística que se encarga de analizar conjuntos de datos con múltiples variables. En otras palabras, estudia cómo se comportan y se relacionan entre sí varias variables al mismo tiempo.
A diferencia de la estadística univariada, que se centra en una sola variable a la vez, la estadística multivariada permite obtener una visión más completa de los fenómenos que se estudian.
Como es habitual, antes de llevar a cabo análisis estadísticos sofisticados siempre vale la pena dedicar tiempo a comprender un conjunto de datos. Los datos multivariados a menudo existen en dimensiones altas (por ejemplo, un registro de mis características físicas puede contener cientos de datos como la altura o la longitud del dedo gordo del pie izquierdo), por lo que puede resultar difícil producir gráficos y estadísticas resumidas útiles. Aquí se ilustran un par de estos gráficos, pero hay muchos más disponibles con R. Un buen punto de partida son los gráficos univariados apropiados para cada variable (gráfico de barras, histograma o diagrama de caja, por ejemplo) y diagramas de dispersión bivariados entre pares.
Afortunadamente, podemos combinar los dos usando la función
chart.Correlation()
que se puede encontrar en el paquete
PerformanceAnalytics
(Peterson y Carl, 2020).
PerformanceAnalytics es un paquete de R diseñado para el análisis de rendimientos financieros. Proporciona una amplia gama de funciones para calcular, visualizar y analizar datos financieros,
La función chart.Correlation() La función chart.Correlation() del paquete PerformanceAnalytics se utiliza para visualizar una matriz de correlación.
Esta función genera un gráfico que muestra la correlación entre pares de variables en un conjunto de datos. La correlación es una medida que indica la fuerza de la relación lineal entre dos variables.
library (PerformanceAnalytics)
## Loading required package: xts
## Loading required package: zoo
##
## Attaching package: 'zoo'
## The following objects are masked from 'package:base':
##
## as.Date, as.Date.numeric
##
## Attaching package: 'PerformanceAnalytics'
## The following object is masked from 'package:graphics':
##
## legend
taxa <- read.table ("taxonomy.txt", header = T, colClasses = list
(Taxon = "factor"))
head(taxa)
chart.Correlation (taxa[, 2:8], histogram = TRUE, pch = 20)
library(scales)
stars (taxa[,2:8], locations = c (0, 0), key.loc = c (0, 0), radius = F,
col.lines = hue_pal ()(120))
A veces se miden dos o más variables de respuesta en el mismo
experimento. Por supuesto, podemos analizar cada variable de respuesta
por separado, y esa es la forma típica de proceder. Pero hay ocasiones
en las que queremos tratar el grupo de variables de respuesta como una
respuesta multivariada. La función para esto es manova()
,
el análisis de varianza multivariado. El conjunto de datos manova
investiga el efecto de dos covariables categóricas, velocidad y aditivo,
en tres resultados que describen el material de embalaje de plástico:
desgarro, brillo y opacidad.
plastic <- read.table ("manova.txt", header = T)
head(plastic)
plastic_out <- cbind (plastic$tear, plastic$gloss, plastic$opacity)
colnames (plastic_out) <- colnames (plastic)[1:3]
plastic_mod1 <- manova (plastic_out ~ plastic$rate * plastic$additive)
summary (plastic_mod1)
## Df Pillai approx F num Df den Df Pr(>F)
## plastic$rate 1 0.61814 7.5543 3 14 0.003034 **
## plastic$additive 1 0.47697 4.2556 3 14 0.024745 *
## plastic$rate:plastic$additive 1 0.22289 1.3385 3 14 0.301782
## Residuals 16
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
La salida que estás viendo corresponde a un análisis de varianza multivariado (MANOVA) realizado con el software R. A continuación te presento una interpretación de la tabla en español:
Efectos:
Resumen:
Ten en cuenta: