Análisis exploratorio de datos

Un análisis exploratorio de datos permite observar el comportamiento de su distribución como medio para sugerir nuevas hipótesis de trabajo, además permite encontrar patrones en la distribución de datos que permitirán explicar o describir un fenómeno.

Cargar los datos al entorno de R

La tabla de datos incluye las mediciones de diferentes variables en 5 parcelas circulares temporales de 500m², la edad de la plantación a la fecha de las mediciones es de 13 años, el porcentaje de cobertura se encuentra alrededor del 50% en promedio.

Los datos para este ejercicio se encuentran disponibles en línea.

Para cargar la base de datos a R se necesita la biblioteca “data.table”, esta agrega la función fread() permite cargar archivos con formato “*.csv" desde una ubicación en internet, y se utiliza así: fread(“ruta del archivo”, tipo de separador, encabezado)

library(data.table)
library(curl)
bdf<-fread("https://archive.org/download/basededatosforestal_bdf/bdf.csv", sep = ",", header= TRUE)
bdf
##       ID   Especie  DAP Htotal Parcela
##   1:   1 P. Blanco 14.4  12.75       1
##   2:   2 P. Blanco 11.3  12.00       1
##   3:   3 P. Blanco 15.3  10.00       1
##   4:   4 P. Blanco 11.6  12.00       1
##   5:   5 P. Blanco 18.1  11.00       1
##  ---                                  
## 189: 189 P. Blanco 13.7  13.50       5
## 190: 190 P. Blanco 13.4  10.50       5
## 191: 191 P. Blanco 13.2  13.25       5
## 192: 192 P. Blanco 13.0  14.00       5
## 193: 193 P. Blanco 12.6  10.50       5

Medidas de tendencia central

Para obtener las principales medidas de resumen (tendencia central) para las variables DAP y H se utiliza la función Summary(), para conocer la moda se utiliza la función modes()

Para obtener las medidas de resumen para los datos de DAP y HTotal por parcela entonces se utiliza la indexación de vectores “[]”, esta herramienta permite seleccionar los datos específicos con los que se desea trabajar, para esto es necesario indicar el objeto con el que trabajará la función summary(), en este caso será la variable HTotal que se indica como “bdf$HTotal” (las letras bdf hacen referencia a la base de datos en la que se encuentra la variable HTotal separado por el signo de dolar $) a la par del objeto es necesario colocar el indice de vectores que trabaja como condicionante seleccionando los registros del objeto con los que trabajará la función especificada.

El resultado será el resumen estadístico para la variable DAP y HTotal en la parcela 1.

summary(bdf$HTotal[bdf$Parcela==1])
## Length  Class   Mode 
##      0   NULL   NULL
summary(bdf$`DAP`[bdf$Parcela==1])
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    7.00   11.53   13.55   13.16   14.68   18.10

Para calcular percentiles específicos se utiliza la función quantile(), en la que el primer término será los datos de referencia y el segundo término el número de percentil deseado. quantile(bdf$HTotal,.37)

quantile(bdf$HTotal,.37)
## 37% 
##  NA

Para estimar el rango intercuartilico se utiliza la función IQR()

IQR(bdf$HTotal[bdf$Parcela==1])
## [1] NA

Histograma

Para la elaboración de histogramas R tiene la función hist(), esta permite generar histogramas para todos los datos o para cada parcela forestal.

hist(bdf$DAP, main=paste("Histograma de DAP para el total de los datos"), xlab="DAP (Diámetro a la altura del pecho)", ylab="Frecuencia")

hist(bdf$Htotal, main=paste("Histograma de H total para el total de los datos"), xlab="H (Altura en metros)", ylab="Frecuencia")

hist(bdf$DAP[bdf$Parcela==1], col="#3399FF", border="#0033FF", main=paste("Histograma de DAP para parcela 1"), xlab="DAP (Diametro a la altura del pecho)", ylab="Frecuencia")

Medidas de dispersión

Para estimar la varianza se utiliza la función var(), para estimar la desviación estándar se usa sd() y el coeficiente de variación se determina a través de una operación entre vectores. El vector que contiene el coeficiente de variación tendrá por nombre “dapc”.

var(bdf$DAP)
## [1] 8.035194
sd(bdf$`DAP`)
## [1] 2.834642
dapc<-100*sd(bdf$DAP)/mean(bdf$DAP)
dapc
## [1] 19.45748

Para estimar el coeficiente de correlación se utiliza la función cor() donde se indican las dos variables a evaluar separadas por comas.

cor(bdf$DAP,bdf$Htotal)
## [1] 0.5760369

Boxplot

Para crear un gráfico de boxplot para para la variable “HTotal” de cada parcela en un solo gráfico se utiliza la función boxplot() donde se indica las 2 variables a graficar unidas por la tílde ~.

 boxplot(bdf$Htotal~bdf$Parcela,main="Altura de árboles de palo blanco",col=c("orange","yellow","blue","red","green"),xlab="Parcelas",ylab="Altura en metros")

Regresar a página principal de Scripts