Introducción Estadística Multivariada

A continuación se estarán desarrollando los primeros pasos para el análisis de datos multivariados. Una primera recomendación es utilizar en sus scripts, una primera sección en la cual estarán colocando todos los paquetes que estarán utilizando en el análisis. Conforme avancen e ingresen nuevos análisis, probablemente requieran la instalación de otros paquetes, los cuales pueden ir agregando paulatinamente. Esta opción facilita el trabajo y evita errores asociados al no “llamado” de un determinado paquete estadístico.

Recuerden que deben instalar los paquetes por una única ocasión

Otra de las primeras recomendaciones es la creación del directorio de trabajo, esto facilitará la organización de su información. Para tal fin, podemos utilizar la siguiente opción:

## [1] "/Users/MellBook/OneDrive - Universidad Nacional de Costa Rica/6.proyectosR/BIF5360_MULTIVARIADA/guias-practicas"

Este comando les va a devolver la dirección en la cual están trabajando.

Si desean organizar y dirigir sus funciones en otra carpeta de trabajo pueden utilizar: setwd()

Ahora vamos a cargar los paquetes con los cuales iremos trabajando:

El siguiente paso es ingresar la información que necesitamos, la cual puede tener diferentes formatos, lo cual es quizás de las opciones más útiles del entorno R. Existen muchas formas que estaremos practicando a lo largo del curso.

Note el uso de una forma resumida de llamar el directorio de trabajo ./, esto hace que R únicamente lea en la carpeta o punto exacto dentro del directorio de trabajo. La opción row.names= 1 nombra las filas con la primera columna.

Explore el archivo txt en su computador para que vea la organización de la base datos

Nótese que cargamos tres datasets distintos. El primer dataset son los datos biológicos, el segundo los ambientales y el tercero un archivo para la generación de un esquema (tipo mapa) muy sencillo.

ESTADÍSTICA DESCRIPTIVA

Uno de los primeros pasos en la estadística y el análisis de datos es la exploración. Estos primeros pasos entregan la ventaja de permitir observar tendencias o comportamientos, que nos pueden ser muy útiles para la delimitación de los pasos a seguir en el proceso de análisis de la información.

Funciones básicas

Una ventaja de R es que lee cada columna dentro de la matriz de datos como un vector, y por lo tanto permite su resumen estadístico.

Por ejemplo, ejecute el siguiente comando:

Ejercicio 1. Explore las siguientes opciones en su computador. Utilice las bases de datos biológicas y ambientales. ¿Qué tipo de información entrega cada una de las bases de datos?

base_datos[1:5,1:10] Cambie los números para que observe la forma en que trabaja el entorno para la lectura datos

head(base_datos)

nrow(base_datos)

ncol(base_datos)

dim(base_datos)

colnames(base_datos)

rownames(base_datos)

Otra de las opciones que tenemos es establecer el máximo y el mínimo de la abundancia de los organismos en la comunidad que estamos estudiando.

## [1]   0 723

Ejercicio 2. Realice el mismo cálculo anterior pero para la matriz ambiental. Discutamos el resultado obtenido en este proceso. ¿Por qué el sistema le entrega este resultado?

Ahora, podemos contruir un gráfico de barras para determinar la cantidad de casos (frecuencia) en las abundancias de los organismos. Nótese que hay muchísima presencia de 0, por lo cual las matrices biológicas son “una complicación” para técnicas estadísticas “tradicionales”.

Otras opciones que tenemos para verificar estas características de las matrices biológicas es la siguiente:

## [1] 1392

Ejercicio 3.Elabore una función con la cual pueda establecer la proporción de 0 en la matriz biológica. Recuerde que corresponde a la suma de la cantidad de O entre la cantidad de celdas en la matriz.

## [1] 0.5681633

Ahora vamos a determinar el número de sitios en los cuales hay presencia de especies. Por ejemplo,

## Spec08 Spec24 Spec28 Spec05 Spec30 Spec22 Spec26 Spec06 Spec21 Spec35 Spec32 
##      8      8      8      9      9     10     10     11     17     17     20 
## Spec04 Spec09 Spec02 Spec11 Spec20 Spec29 Spec17 Spec27 Spec34 Spec33 Spec23 
##     21     23     24     25     25     28     30     30     30     31     32 
## Spec10 Spec19 Spec25 Spec07 Spec13 Spec18 Spec12 Spec31 Spec16 Spec01 Spec14 
##     34     34     35     38     39     43     46     49     55     63     63 
## Spec03 Spec15 
##     66     67
## Spec08 Spec24 Spec28 Spec05 Spec30 Spec22 Spec26 Spec06 Spec21 Spec35 Spec32 
##   11.4   11.4   11.4   12.9   12.9   14.3   14.3   15.7   24.3   24.3   28.6 
## Spec04 Spec09 Spec02 Spec11 Spec20 Spec29 Spec17 Spec27 Spec34 Spec33 Spec23 
##   30.0   32.9   34.3   35.7   35.7   40.0   42.9   42.9   42.9   44.3   45.7 
## Spec10 Spec19 Spec25 Spec07 Spec13 Spec18 Spec12 Spec31 Spec16 Spec01 Spec14 
##   48.6   48.6   50.0   54.3   55.7   61.4   65.7   70.0   78.6   90.0   90.0 
## Spec03 Spec15 
##   94.3   95.7

Esta función en tabla es muy interesante, pero sería más sencillo en la forma gráfica:

Respecto a la matriz ambiental, también podemos realizar algunos análisis exploratorios, útiles para establecer el comportamiento de los datos. Por ejemplo, lo primero que podríamos estar interesados en evaluar es un resumen de los principales descriptores de tendencia central o de dispersión de los datos. En el entorno de R, es muy sencillo acceder a la función:

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   21.17   30.01   36.38   39.28   46.81   80.59

Si no deseamos estar llamando la base de datos con el signo $ podemos utilizar attach(mite_env). Revise que ocurre cuando utiliza esta función. Esta función tiene algunos inconvenientes cuando se trabajan varios sets de datos que pueden tener nombres iguales, pero en la práctica no suele pasar.

Otra opción que tenemos es realizar algunas funciones básicas, como por ejemplo, un histograma de frecuencias. Para este fin, ṕodemos utilizar el paquete fdth:

##     Class limits  f   rf rf(%) cf  cf(%)
##  [20.958,28.513) 13 0.19 18.57 13  18.57
##  [28.513,36.068) 21 0.30 30.00 34  48.57
##  [36.068,43.622) 12 0.17 17.14 46  65.71
##  [43.622,51.177) 11 0.16 15.71 57  81.43
##  [51.177,58.732)  8 0.11 11.43 65  92.86
##  [58.732,66.286)  4 0.06  5.71 69  98.57
##  [66.286,73.841)  0 0.00  0.00 69  98.57
##  [73.841,81.396)  1 0.01  1.43 70 100.00

Respecto a la formas gráficas, podemos utilizar varias opciones; a continuación se ven los comandos básicos para su creación de un histograma de frecuencias:

Si queremos tener un mayor control de los datos, podemos utilizar las funciones de ggplot:

Como vimos en el ejemplo anterior, utilizamos la regla de Sturges para definir la cantidad de intervalos o clases en el histograma.

ANOVA Y REGRESIÓN

La curva de distribución normal: función de probabilidad

Uno de los principales fundamentos de la estadística es comprender que todo se desarrolla en torno a la probabilidad de que un determinado evento suceda. Existen muchas distribuciones teóricas que nos permiten comprender diferentes tipos de datos, pero la más utilizada es la distribución normal.

Observe el siguiente caso, que corresponde al registro de 100 datos:

Sin embargo, para entender la tendencia de estos datos podemos elaborar el histograma:

Ahora que tenemos el histograma vemos que existe una tendencia de datos en un punto central, y otros valores que decrecen hacia la colas. Este comportamiento de los datos lo podemos evaluar mediante una curva de distribucin normal, en la cual convertimos a una función de la distribución de los datos.

Exactamente esta es la “esencia” de una prueba estadística: transformar un set de datos a una distribución de probabilidad en la cual podemos someter a prueba nuestras hipótesis estadísticas.

Modificado de Borcard, D., Gillet, F., & Legendre, P. (2018). Numerical ecology with R. Springer.

Cualquier observación escribir a

—FIN—