Exploracion datos de biomasa

A continuación vamos a importar las librerias y datos para la exploración de la base de datos:

library(readxl)
data_biomasa <- read_excel("data biomasa.xlsx", 
    col_types = c("text", "text", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric"))
head(data_biomasa)
finca mg bio_aerea bio_sub bio_total area_foliar diametro altura
FINCA_1 GENOTIPO_1 12.80 0.93 13.73 44451 4.7 5.0
FINCA_1 GENOTIPO_1 13.89 0.69 14.58 39669 5.3 5.6
FINCA_1 GENOTIPO_1 15.10 0.78 15.88 45618 4.8 5.8
FINCA_1 GENOTIPO_1 8.08 0.91 8.99 29488 3.2 4.3
FINCA_1 GENOTIPO_1 5.58 1.41 6.99 22534 2.2 3.3
FINCA_1 GENOTIPO_2 18.50 0.84 19.34 34233 6.3 7.9

La base de datos cuenta con un total de 90 observaciones y 8 variables de mediciones realizadas a arboles y sus caracteristicas: biomasa, diametro, altura entre otros.

Exploración univariada

Vamos a realizar una exploración univariada de las variables utilizando table1 y ggplot2.

require(table1)
require(ggplot2)
require(plotly)

table1(~altura+diametro,data=data_biomasa)
Overall
(N=90)
altura
Mean (SD) 6.63 (1.80)
Median [Min, Max] 6.45 [3.30, 11.3]
diametro
Mean (SD) 5.45 (1.45)
Median [Min, Max] 5.40 [2.20, 8.80]
table1(~.,data = data_biomasa)
Overall
(N=90)
finca
FINCA_1 30 (33.3%)
FINCA_2 30 (33.3%)
FINCA_3 30 (33.3%)
mg
GENOTIPO_1 45 (50.0%)
GENOTIPO_2 45 (50.0%)
bio_aerea
Mean (SD) 17.7 (8.33)
Median [Min, Max] 16.3 [4.48, 47.4]
bio_sub
Mean (SD) 1.06 (0.320)
Median [Min, Max] 1.08 [0.430, 2.05]
bio_total
Mean (SD) 18.8 (8.16)
Median [Min, Max] 17.5 [5.98, 47.9]
area_foliar
Mean (SD) 38700 (15300)
Median [Min, Max] 42100 [15.2, 79400]
diametro
Mean (SD) 5.45 (1.45)
Median [Min, Max] 5.40 [2.20, 8.80]
altura
Mean (SD) 6.63 (1.80)
Median [Min, Max] 6.45 [3.30, 11.3]
## usando la misma instruccion del . crear una base de datos para explorar unicamene bio_total, altura, diametro, finca y mg

data_biomasa2=data_biomasa[,c(1,2,5,7,8)] #selecciono
data_biomasa2=data_biomasa[,-c(3,4,6)] #eliminado

table1(~.,data = data_biomasa2)
Overall
(N=90)
finca
FINCA_1 30 (33.3%)
FINCA_2 30 (33.3%)
FINCA_3 30 (33.3%)
mg
GENOTIPO_1 45 (50.0%)
GENOTIPO_2 45 (50.0%)
bio_total
Mean (SD) 18.8 (8.16)
Median [Min, Max] 17.5 [5.98, 47.9]
diametro
Mean (SD) 5.45 (1.45)
Median [Min, Max] 5.40 [2.20, 8.80]
altura
Mean (SD) 6.63 (1.80)
Median [Min, Max] 6.45 [3.30, 11.3]

En la base podemos observar:

Ahora vamos a explorar por medio de graficos

#histograma de bio_total

ggplot(data_biomasa2, aes(x=bio_total))+geom_histogram()

g1=ggplot(data_biomasa2, aes(x=bio_total))+geom_histogram(colour="black",fill="blue")+theme_classic()
g1

g2=ggplot(data_biomasa2, aes(y=diametro))+geom_boxplot(colour="black",fill="coral")+theme_classic()
g2

g3=ggplot(data_biomasa2, aes(y=altura))+geom_abline(colour="purple")+theme_classic()
g3

require(ggpubr)
ggarrange(g1,g2,g3,ncol = 3,nrow = 1)