Los datos:
Se realizó un muestreo entre los sneetches, tratando de encontrar las preferencias en diferentes pasatiempos de acuerdo al color de las estrellas de sus barrigas, las estrellas pueden ser de tres colores: roja (RED), azul (BLU) y verde (GRN). Y de acuerdo al último muestreo:
- | RED | BLU | GRN |
---|---|---|---|
nails | likes | dislikes | whatever |
dance | likes | dislikes | whatever |
futbol | dislikes | likes | whatever |
cars | dislikes | likes | whatever |
icecream | dislikes | dislikes | likes |
age | 25-50 | 25-50 | 25-50 |
La distribución del porcentaje de individuos que tienen afinidad por algunas de las características del muestreo son las siguientes.
Como es típico, queremos saber si existen diferencias entre las tres razas con respecto a sus preferencias. El problema cuando se tienen este tipo de datos es que es díficil extraer información de la masa de datos y discernir cuál es la información más relevante.
La forma más directa y sencilla para analizar estas diferencias sería analizar la diferencia entre las medias de las muestras para cada característica. Por lo general, realizar esta comparación se emplea el análisis de varianza (ANOVA). Por ejemplo, si analizamos el gusto por el futbol entre las razas, obtenemos el siguiente resultados.
## Call:
## aov(formula = futbol ~ race, data = foo)
##
## Terms:
## race Residuals
## Sum of Squares 6.168637 6.573331
## Deg. of Freedom 2 147
##
## Residual standard error: 0.2114629
## Estimated effects may be unbalanced
## Df Sum Sq Mean Sq F value Pr(>F)
## race 2 6.169 3.0843 68.97 <2e-16 ***
## Residuals 147 6.573 0.0447
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Como siempre en estadística el resultado de este análisis no nos dice nada mucho, simplemente nos indica que las medias son significativamente diferentes, lo cual no nos dice mucho, por lo que es necesario hacer alguna de las muchas pruebas post hoc. Generalmente los que entienden de estadística prefieren la prueba de Tukey, por lo que es la que usaremos.
## $statistics
## MSerror Df Mean CV MSD
## 0.04471654 147 0.5127466 41.2412 0.1001358
##
## $parameters
## test name.t ntr StudentizedRange alpha
## Tukey race 3 3.348424 0.05
##
## $means
## futbol std r Min Max Q25 Q50 Q75
## B 0.7490776 0.1414606 50 0.54126321 0.9906989 0.6248186 0.7307189 0.8844111
## G 0.5352835 0.3057917 50 0.01114951 0.9937492 0.3171612 0.5077916 0.7994930
## R 0.2538789 0.1436312 50 0.03353885 0.4880779 0.1349321 0.2280467 0.3808155
##
## $comparison
## NULL
##
## $groups
## futbol groups
## B 0.7490776 a
## G 0.5352835 b
## R 0.2538789 c
##
## attr(,"class")
## [1] "group"
La prueba de Tukey nos indica que las tres medias son diferentes entre sí $groups
, además de indicarnos las medias y los rangos percentiles $means
.
Podríamos seguir de la misma manera analizando cada una de las características una por una o también es posible analizar todas las variables al mismo tiempo a través de un análisis multivariado de varianzas (MANOVA).
## Df Pillai approx F num Df den Df Pr(>F)
## race 2 1.6223 102.36 12 286 < 2.2e-16 ***
## Residuals 147
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Al igual que en el la prueba de ANOVA, la prueba de MANOVA sólo es capaz de indicarnos si las razas son diferentes en sus gustos, pero no nos indica como. La forma de averiguar cuáles son las diferencias específicas sería necesario hacer pruebas de ANOVA para cada una de las variables, afortunadamente existen mejores formas de emplear el tiempo y otros métodos para analizar este tipo de datos.
En general, la mayoría de las técnicas que se emplean en ecología para analizar datos multivariados se pueden dividir en 4 grandes grupos:
- Ordenación
- Análisis de grupos
- Análisis discriminante
- Análisis de correlaciónes canónicas
Ordination techniques
El objetivo del análisis de componentes principales (PCA) es reducir las dimensiones de los datos a través de la generación de nuevas variables, denominadas componentes principales las cuales condensan la variabilidad de los datos en las dimensiones mayores. De tal manera que es posible visualizar las similitudes de los datos en solo dos (por lo general) o tres dimensiones.
## Importance of components:
## PC1 PC2 PC3 PC4 PC5 PC6
## Standard deviation 1.5846 1.0736 0.9286 0.74153 0.69270 0.66669
## Proportion of Variance 0.4185 0.1921 0.1437 0.09164 0.07997 0.07408
## Cumulative Proportion 0.4185 0.6106 0.7543 0.84595 0.92592 1.00000
Cluster Analysis
El objetivo es clasificar las muestras en grupos reducidos y excluyentes entre sí usando la similitud entre las muestras como criterio clasificador.
Discriminant Analysis
Su objetivo es describir las diferencias entre grupos previamente (y claramente) establecidos, además puede predecir la probabilidad de que una muestra pertenezca a alguno de los grupos analizados.
## Call:
## lda(race ~ ., data = foo)
##
## Prior probabilities of groups:
## R G B
## 0.3333333 0.3333333 0.3333333
##
## Group means:
## nails dance futbol cars icecream age
## R 0.7709705 0.7721346 0.2538789 0.2325363 0.2604965 37.60698
## G 0.4999751 0.3915411 0.5352835 0.5321086 0.7496075 35.72157
## B 0.2465196 0.2344599 0.7490776 0.7723031 0.2485170 38.53837
##
## Coefficients of linear discriminants:
## LD1 LD2
## nails -2.84122215 -0.335281342
## dance -3.63434364 0.257104960
## futbol 1.89714411 0.703398746
## cars 3.24301122 0.929422632
## icecream 1.41310497 -7.175578665
## age 0.00833184 0.009735223
##
## Proportion of trace:
## LD1 LD2
## 0.6907 0.3093