Clase 3 Rstudio

Exploracion datos de biomasa

A continuación vamos a importar las librerias y datos para la exploración de la base de datos:

library(readxl)
data_biomasa <- read_excel("data biomasa.xlsx", 
    col_types = c("text", "text", "numeric", 
        "numeric", "numeric", "numeric", 
        "numeric", "numeric"))
head(data_biomasa)

finca	mg	bio_aerea	bio_sub	bio_total	area_foliar	diametro	altura
FINCA_1	GENOTIPO_1	12.80	0.93	13.73	44451	4.7	5.0
FINCA_1	GENOTIPO_1	13.89	0.69	14.58	39669	5.3	5.6
FINCA_1	GENOTIPO_1	15.10	0.78	15.88	45618	4.8	5.8
FINCA_1	GENOTIPO_1	8.08	0.91	8.99	29488	3.2	4.3
FINCA_1	GENOTIPO_1	5.58	1.41	6.99	22534	2.2	3.3
FINCA_1	GENOTIPO_2	18.50	0.84	19.34	34233	6.3	7.9

La base de datos cuenta con un total de 90 observaciones y 8 variables de mediciones realizadas a arboles y sus caracteristicas: biomasa, diametro, altura entre otros.

Exploración univariada

Vamos a realizar una exploración univariada de las variables utilizando table1 y ggplot2.

require(table1)
require(ggplot2)
require(plotly)

table1(~altura+diametro,data=data_biomasa)

	Overall (N=90)
altura
Mean (SD)	6.63 (1.80)
Median [Min, Max]	6.45 [3.30, 11.3]
diametro
Mean (SD)	5.45 (1.45)
Median [Min, Max]	5.40 [2.20, 8.80]

table1(~.,data = data_biomasa)

	Overall (N=90)
finca
FINCA_1	30 (33.3%)
FINCA_2	30 (33.3%)
FINCA_3	30 (33.3%)
mg
GENOTIPO_1	45 (50.0%)
GENOTIPO_2	45 (50.0%)
bio_aerea
Mean (SD)	17.7 (8.33)
Median [Min, Max]	16.3 [4.48, 47.4]
bio_sub
Mean (SD)	1.06 (0.320)
Median [Min, Max]	1.08 [0.430, 2.05]
bio_total
Mean (SD)	18.8 (8.16)
Median [Min, Max]	17.5 [5.98, 47.9]
area_foliar
Mean (SD)	38700 (15300)
Median [Min, Max]	42100 [15.2, 79400]
diametro
Mean (SD)	5.45 (1.45)
Median [Min, Max]	5.40 [2.20, 8.80]
altura
Mean (SD)	6.63 (1.80)
Median [Min, Max]	6.45 [3.30, 11.3]

## usando la misma instruccion del . crear una base de datos para explorar unicamene bio_total, altura, diametro, finca y mg

data_biomasa2=data_biomasa[,c(1,2,5,7,8)] #selecciono
data_biomasa2=data_biomasa[,-c(3,4,6)] #eliminado

table1(~.,data = data_biomasa2)

	Overall (N=90)
finca
FINCA_1	30 (33.3%)
FINCA_2	30 (33.3%)
FINCA_3	30 (33.3%)
mg
GENOTIPO_1	45 (50.0%)
GENOTIPO_2	45 (50.0%)
bio_total
Mean (SD)	18.8 (8.16)
Median [Min, Max]	17.5 [5.98, 47.9]
diametro
Mean (SD)	5.45 (1.45)
Median [Min, Max]	5.40 [2.20, 8.80]
altura
Mean (SD)	6.63 (1.80)
Median [Min, Max]	6.45 [3.30, 11.3]

En la base podemos observar:

Cada finca tiene un total de 30 registros (balanceado).
Se probaron 2 genotipos, cada uno con 45 registros.
Se observa que el promedio de la biomasa de los arboles es de 18.8 toneladas con una desviación de 8.16

Ahora vamos a explorar por medio de graficos

#histograma de bio_total

ggplot(data_biomasa2, aes(x=bio_total))+geom_histogram()

g1=ggplot(data_biomasa2, aes(x=bio_total))+geom_histogram(colour="black",fill="blue")+theme_classic()
g1

g2=ggplot(data_biomasa2, aes(y=diametro))+geom_boxplot(colour="black",fill="coral")+theme_classic()
g2

g3=ggplot(data_biomasa2, aes(y=altura))+geom_abline(colour="purple")+theme_classic()
g3

require(ggpubr)
ggarrange(g1,g2,g3,ncol = 3,nrow = 1)

Clase 3 Rstudio

Sara Caicedo

2023-07-18

Exploracion datos de biomasa

Exploración univariada