Los datos:

Se realizó un muestreo entre los sneetches, tratando de encontrar las preferencias en diferentes pasatiempos de acuerdo al color de las estrellas de sus barrigas, las estrellas pueden ser de tres colores: roja (RED), azul (BLU) y verde (GRN). Y de acuerdo al último muestreo:

-	RED	BLU	GRN
nails	likes	dislikes	whatever
dance	likes	dislikes	whatever
futbol	dislikes	likes	whatever
cars	dislikes	likes	whatever
icecream	dislikes	dislikes	likes
age	25-50	25-50	25-50

La distribución del porcentaje de individuos que tienen afinidad por algunas de las características del muestreo son las siguientes.

Como es típico, queremos saber si existen diferencias entre las tres razas con respecto a sus preferencias. El problema cuando se tienen este tipo de datos es que es díficil extraer información de la masa de datos y discernir cuál es la información más relevante.

La forma más directa y sencilla para analizar estas diferencias sería analizar la diferencia entre las medias de las muestras para cada característica. Por lo general, realizar esta comparación se emplea el análisis de varianza (ANOVA). Por ejemplo, si analizamos el gusto por el futbol entre las razas, obtenemos el siguiente resultados.

## Call:
##    aov(formula = futbol ~ race, data = foo)
## 
## Terms:
##                     race Residuals
## Sum of Squares  6.168637  6.573331
## Deg. of Freedom        2       147
## 
## Residual standard error: 0.2114629
## Estimated effects may be unbalanced

##              Df Sum Sq Mean Sq F value Pr(>F)    
## race          2  6.169  3.0843   68.97 <2e-16 ***
## Residuals   147  6.573  0.0447                   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

~~Como siempre en estadística~~ el resultado de este análisis no nos dice ~~nada~~ mucho, simplemente nos indica que las medias son significativamente diferentes, lo cual no nos dice mucho, por lo que es necesario hacer alguna de las muchas pruebas post hoc. Generalmente los que entienden de estadística prefieren la prueba de Tukey, por lo que es la que usaremos.

## $statistics
##      MSerror  Df      Mean      CV       MSD
##   0.04471654 147 0.5127466 41.2412 0.1001358
## 
## $parameters
##    test name.t ntr StudentizedRange alpha
##   Tukey   race   3         3.348424  0.05
## 
## $means
##      futbol       std  r        Min       Max       Q25       Q50       Q75
## B 0.7490776 0.1414606 50 0.54126321 0.9906989 0.6248186 0.7307189 0.8844111
## G 0.5352835 0.3057917 50 0.01114951 0.9937492 0.3171612 0.5077916 0.7994930
## R 0.2538789 0.1436312 50 0.03353885 0.4880779 0.1349321 0.2280467 0.3808155
## 
## $comparison
## NULL
## 
## $groups
##      futbol groups
## B 0.7490776      a
## G 0.5352835      b
## R 0.2538789      c
## 
## attr(,"class")
## [1] "group"

La prueba de Tukey nos indica que las tres medias son diferentes entre sí $groups, además de indicarnos las medias y los rangos percentiles $means.

Podríamos seguir de la misma manera analizando cada una de las características una por una o también es posible analizar todas las variables al mismo tiempo a través de un análisis multivariado de varianzas (MANOVA).

##            Df Pillai approx F num Df den Df    Pr(>F)    
## race        2 1.6223   102.36     12    286 < 2.2e-16 ***
## Residuals 147                                            
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Al igual que en el la prueba de ANOVA, la prueba de MANOVA sólo es capaz de indicarnos si las razas son diferentes en sus gustos, pero no nos indica como. La forma de averiguar cuáles son las diferencias específicas sería necesario hacer pruebas de ANOVA para cada una de las variables, afortunadamente existen mejores formas de emplear el tiempo y otros métodos para analizar este tipo de datos.

En general, la mayoría de las técnicas que se emplean en ecología para analizar datos multivariados se pueden dividir en 4 grandes grupos:

Ordenación
Análisis de grupos
Análisis discriminante
Análisis de correlaciónes canónicas

Ordination techniques

El objetivo del análisis de componentes principales (PCA) es reducir las dimensiones de los datos a través de la generación de nuevas variables, denominadas componentes principales las cuales condensan la variabilidad de los datos en las dimensiones mayores. De tal manera que es posible visualizar las similitudes de los datos en solo dos (por lo general) o tres dimensiones.

## Importance of components:
##                           PC1    PC2    PC3     PC4     PC5     PC6
## Standard deviation     1.5846 1.0736 0.9286 0.74153 0.69270 0.66669
## Proportion of Variance 0.4185 0.1921 0.1437 0.09164 0.07997 0.07408
## Cumulative Proportion  0.4185 0.6106 0.7543 0.84595 0.92592 1.00000

Cluster Analysis

El objetivo es clasificar las muestras en grupos reducidos y excluyentes entre sí usando la similitud entre las muestras como criterio clasificador.

Discriminant Analysis

Su objetivo es describir las diferencias entre grupos previamente (y claramente) establecidos, además puede predecir la probabilidad de que una muestra pertenezca a alguno de los grupos analizados.

## Call:
## lda(race ~ ., data = foo)
## 
## Prior probabilities of groups:
##         R         G         B 
## 0.3333333 0.3333333 0.3333333 
## 
## Group means:
##       nails     dance    futbol      cars  icecream      age
## R 0.7709705 0.7721346 0.2538789 0.2325363 0.2604965 37.60698
## G 0.4999751 0.3915411 0.5352835 0.5321086 0.7496075 35.72157
## B 0.2465196 0.2344599 0.7490776 0.7723031 0.2485170 38.53837
## 
## Coefficients of linear discriminants:
##                  LD1          LD2
## nails    -2.84122215 -0.335281342
## dance    -3.63434364  0.257104960
## futbol    1.89714411  0.703398746
## cars      3.24301122  0.929422632
## icecream  1.41310497 -7.175578665
## age       0.00833184  0.009735223
## 
## Proportion of trace:
##    LD1    LD2 
## 0.6907 0.3093

Curso Práctico de bioinformática para ingenieros

Estadística multivariable (crash course)

Tonatiuh Moreno Perlín

Los datos:

Ordination techniques

Cluster Analysis

Discriminant Analysis