La base de datos crabs de la librerÍa MASS (Venables & Ripley 2002) del entorno y lenguaje R, contiene datos de 200 cangrejos de la especie Leptograpsus Variegatus, recolectados en la costa de Australia Occidental. La columna sp identifica el color, que puede ser azul (B) o naranja (O). Para cada color se recolectaron 50 cangrejos de cada sexo (columna sex) y se registraron 5 medidas físicas: Tamaño del lóbulo frontal (FL), anchura trasera (RW), la longitud del caparazón (CL), ancho del caparazón (CW) y profundidad del cuerpo (BD). Los investigadores buscaban demostrar que los dos colores podrían ser claramente diferenciados morfológicamente y que en realidad son dos especies diferentes. Se accede a los datos mediante las órdenes library(MASS) data(crabs)

library(MASS)
## Warning: package 'MASS' was built under R version 4.4.1
data(crabs)
crabs <- crabs[,-3]

El primer paso es cargar la librería MASS y el dataframe crabs, que contiene los datos de 200 cangrejos. El segundo paso fue eliminar la tercera columna, que hacía referencia al índice de cada observación, ya que no es un variable que describa alguna medida física.

Resumen inicial de los datos

##  sp      sex           FL              RW              CL       
##  B:100   F:100   Min.   : 7.20   Min.   : 6.50   Min.   :14.70  
##  O:100   M:100   1st Qu.:12.90   1st Qu.:11.00   1st Qu.:27.27  
##                  Median :15.55   Median :12.80   Median :32.10  
##                  Mean   :15.58   Mean   :12.74   Mean   :32.11  
##                  3rd Qu.:18.05   3rd Qu.:14.30   3rd Qu.:37.23  
##                  Max.   :23.10   Max.   :20.20   Max.   :47.60  
##        CW              BD       
##  Min.   :17.10   Min.   : 6.10  
##  1st Qu.:31.50   1st Qu.:11.40  
##  Median :36.80   Median :13.90  
##  Mean   :36.41   Mean   :14.03  
##  3rd Qu.:42.00   3rd Qu.:16.60  
##  Max.   :54.60   Max.   :21.60
##   sp sex   FL  RW   CL   CW  BD
## 1  B   M  8.1 6.7 16.1 19.0 7.0
## 2  B   M  8.8 7.7 18.1 20.8 7.4
## 3  B   M  9.2 7.8 19.0 22.4 7.7
## 4  B   M  9.6 7.9 20.1 23.1 8.2
## 5  B   M  9.8 8.0 20.3 23.0 8.2
## 6  B   M 10.8 9.0 23.0 26.5 9.8

Interpretación:

Con el resumen inicial de los datos podemos observar que tenemos una población de 200 cangrejos, de los cuales, 100 son de sexo masculino y 100 de sexo femenino. Adicionalmente, 100 de color azul y 100 de coloro naranja. Adicionalmente podemos observar un resumen de la distribución de los datos por cada medida física tomada.

a) Dispersograma diferenciando por especie (color)

Interpretación:

De acuerdo al dispersograma, se puede evidenciar una superposición de los grupos de color en la correlación de cada una de las variables, lo cual puede indicar que a simple vista con el dispersograma no podemos asegurar que se trate de especies diferentes. Esta superposición es bastante significativa y si hay diferencia esta no es evidente a simple vista.

b) Boxplot de cada medida numérica para cada nivel de especie (color)

Interpretación:

De acuerdo a los boxplots para cada variable, se puede obeervar que la mediana de cada variable es más alta para los cangrejos naranjas. Lo cual, nos da una aproximación a encontrar diferencias, ya que las medianas no parecen ser cercanas. Sin embargo, se puede observar que la dispersión de los datos de cada variable para los cangrejos azules y naranjas son similares. Pero, también hay una superposición y esto indica que hay medidas de los cangrejos azules que se ubican dentro del rango de los cangrejos naranjas.

c) Boxplot de cada medida numérica para cada nivel de sexo

Interpretación:

Del gráfico de boxplots múltiples anterior se puede observar una diferencia evidente en el tamaño de la mediana en la variable Anchura trasera (RW), ya que los cangrejos de sexo femenino tienen un valor más alto en su mediana. Adicionalmente, la dispersión de los datos en esta misma variable es más notoria, ya que los cangrejos de sexo masculino presentan una medida máxima inferior con respecto a la medida máxima para esta variable en el caso del sexo femenino.

d) Vector de medias, matriz de covarianzas y correlaciones por combinación sexo/especie

## Especie: B
## Sexo: F
## $Vector_Medias
##     FL     RW     CL     CW     BD 
## 13.270 12.138 28.102 32.624 11.816 
## 
## $Matriz_Covarianzas
##           FL        RW       CL       CW        BD
## FL  6.905408  6.278918 15.47333 17.79808  7.102939
## RW  6.278918  5.947302 14.25319 16.38927  6.555298
## CL 15.473327 14.253188 35.04224 40.21036 16.137927
## CW 17.798082 16.389273 40.21036 46.29084 18.528996
## BD  7.102939  6.555298 16.13793 18.52900  7.576065
## 
## $Matriz_Correlaciones
##           FL        RW        CL        CW        BD
## FL 1.0000000 0.9797836 0.9947022 0.9954764 0.9820227
## RW 0.9797836 1.0000000 0.9873158 0.9877617 0.9765862
## CL 0.9947022 0.9873158 1.0000000 0.9983768 0.9904440
## CW 0.9954764 0.9877617 0.9983768 1.0000000 0.9894241
## BD 0.9820227 0.9765862 0.9904440 0.9894241 1.0000000
## 
## ------------------------------------------------------------ 
## Especie: O
## Sexo: F
## $Vector_Medias
##     FL     RW     CL     CW     BD 
## 17.594 14.836 34.618 39.036 15.632 
## 
## $Matriz_Covarianzas
##           FL        RW       CL       CW        BD
## FL  8.844657  6.725527 17.17195 19.25430  8.012033
## RW  6.725527  5.515004 13.39709 15.04582  6.211682
## CL 17.171947 13.397094 34.07253 38.07648 15.908188
## CW 19.254302 15.045820 38.07648 42.80072 17.763110
## BD  8.012033  6.211682 15.90819 17.76311  7.576914
## 
## $Matriz_Correlaciones
##           FL        RW        CL        CW        BD
## FL 1.0000000 0.9629702 0.9891835 0.9896047 0.9787145
## RW 0.9629702 1.0000000 0.9773171 0.9793038 0.9609263
## CL 0.9891835 0.9773171 1.0000000 0.9970780 0.9900847
## CW 0.9896047 0.9793038 0.9970780 1.0000000 0.9863869
## BD 0.9787145 0.9609263 0.9900847 0.9863869 1.0000000
## 
## ------------------------------------------------------------ 
## Especie: B
## Sexo: M
## $Vector_Medias
##     FL     RW     CL     CW     BD 
## 14.842 11.718 32.014 36.810 13.350 
## 
## $Matriz_Covarianzas
##           FL        RW       CL       CW        BD
## FL 10.255955  6.543106 23.29552 26.61182 10.170510
## RW  6.543106  4.459057 15.07893 17.26043  6.548061
## CL 23.295522 15.078927 53.41674 60.98231 23.238878
## CW 26.611816 17.260429 60.98231 69.78092 26.588878
## BD 10.170510  6.548061 23.23888 26.58888 10.239286
## 
## $Matriz_Correlaciones
##           FL        RW        CL        CW        BD
## FL 1.0000000 0.9675522 0.9952810 0.9947596 0.9924756
## RW 0.9675522 1.0000000 0.9770352 0.9785020 0.9690728
## CL 0.9952810 0.9770352 1.0000000 0.9988421 0.9936688
## CW 0.9947596 0.9785020 0.9988421 1.0000000 0.9947108
## BD 0.9924756 0.9690728 0.9936688 0.9947108 1.0000000
## 
## ------------------------------------------------------------ 
## Especie: O
## Sexo: M
## $Vector_Medias
##     FL     RW     CL     CW     BD 
## 16.626 12.262 33.688 37.188 15.324 
## 
## $Matriz_Covarianzas
##           FL        RW       CL       CW        BD
## FL 12.355024  7.598151 26.61889 29.31460 12.324465
## RW  7.598151  4.820771 16.53423 18.23423  7.647053
## CL 26.618890 16.534229 57.93047 63.77230 26.763355
## CW 29.314604 18.234229 63.77230 70.34842 29.488253
## BD 12.324465  7.647053 26.76336 29.48825 12.441045
## 
## $Matriz_Correlaciones
##           FL        RW        CL        CW        BD
## FL 1.0000000 0.9845275 0.9949806 0.9943403 0.9940720
## RW 0.9845275 1.0000000 0.9894006 0.9901522 0.9874325
## CL 0.9949806 0.9894006 1.0000000 0.9989676 0.9969161
## CW 0.9943403 0.9901522 0.9989676 1.0000000 0.9967665
## BD 0.9940720 0.9874325 0.9969161 0.9967665 1.0000000

Interpretación:

De acuerdo a la matriz de covarianzas entre los grupos de color B y O con sexo femenino y masculino, se puede observar que las variables CL y CW presentan una mayor variabilidad entre los cangrejos azules de sexo femenino, este comportamiento se repite para los cangrejos azules de sexo masculino, así como también para los naranjas tanto de sexo masculino como femenino. Sin embargo, también se oberva que para los cangrejos de sexo masculino, tanto azules como naranjas también hay una variabilidad más alta en las variables FL y BD. A nivel general, se puede decir que estas variables varían juntas en la misma dirección.

Además, las matrices de correlación muestran relaciones positivasfuertes, lo cual indica que los cangrejos azules (machos y hembras) y naranjas (machos y hembras) que son grandes en una dimensión (FL, RW, BD, CL, CW) tienden a ser grandes en las otras dimensiones.

e) Calculando Matriz de Covarianzas Agrupada (Sp)

## 
## Matriz de Covarianzas Agrupada (Sp):
##           FL        RW       CL       CW        BD
## FL  9.923719  6.949112 21.32158 24.06663  9.649632
## RW  6.949112  5.991977 14.76100 16.94204  6.691189
## CL 21.321577 14.760999 46.70128 52.53226 21.098764
## CW 24.066630 16.942038 52.53226 59.37003 23.741693
## BD  9.649632  6.691189 21.09876 23.74169  9.671882

Interpretación:

De acuerdo a la matriz de covarianzas agrupada se puede afirmar que las variables que más varían son CL y CW, indicando que estas medidas tienen una mayor dispersión alrededor de su propia media dentro de los grupos, en comparación con las otras variables. Esto resalta la importancia del tamaño general del caparazón de un cangrejo para definir el tamaño del llóbulo frontal, la anchura trasera y la profundidad del cuerpo.

f) Calcular la distancia de Mahalanobis entre centroides usando Sp

## 
## Vector de medias de cangrejos azules (B):
##     FL     RW     CL     CW     BD 
## 14.056 11.928 30.058 34.717 12.583
## 
## Vector de medias de cangrejos naranjas (O):
##     FL     RW     CL     CW     BD 
## 17.110 13.549 34.153 38.112 15.478
## 
## Distancia de Mahalanobis (D) entre centroides B y O (usando Sp):
## [1] 5.222371

Interpretación:

De acuerdo al vector de medias de cada grupo de color,se obtiene un valor de 5.222371 para la distancia de Mahalanobis entre centroides de la especie de cangrejos azules y naranjas, lo cual indica que existe una separación considerable entre los centroides de los cangrejos azules y naranjas. Esto nos lleva a concluir que los cangrejos azules y naranajas pueden ser diferenciados morfológicamente con base en las mediciones anteriores.

Sin embargo, no puedo afirmar que se trate de dos especies diferentes de cangrejos, aunque la diferencia morfológica apoye de manera significativa la hipótesis establecida por los investigadores, deberá hacerse un análisis más profunda con evidencias adicionales de la genética y la reproducción de los cangrejos.