Ejercicio 3: EDA (Exploratory Data Analysis)

Utilizando el conjunto de datos conocido como “Carbon Dioxide Uptake in Grass Plants” (CO2 - datasets).

El conjunto de datos de CO2 es un conjunto de datos de la tolerancia de una especie de cesped al frio. (https://stat.ethz.ch/R-manual/R-devel/library/datasets/html/zCO2.html)

Paquetes

library(pacman)
p_load("datasets","DT","fdth","rmdformats")

Datos

data("CO2")
dim(CO2)
## [1] 84  5

Conociendo los datos

datatable(CO2)

Contando los datos en sus clases

table(CO2$Plant)
## 
## Qn1 Qn2 Qn3 Qc1 Qc3 Qc2 Mn3 Mn2 Mn1 Mc2 Mc3 Mc1 
##   7   7   7   7   7   7   7   7   7   7   7   7

Medidas de tendencia central del conjunto de datos

summary(CO2)
##      Plant             Type         Treatment       conc          uptake     
##  Qn1    : 7   Quebec     :42   nonchilled:42   Min.   :  95   Min.   : 7.70  
##  Qn2    : 7   Mississippi:42   chilled   :42   1st Qu.: 175   1st Qu.:17.90  
##  Qn3    : 7                                    Median : 350   Median :28.30  
##  Qc1    : 7                                    Mean   : 435   Mean   :27.21  
##  Qc3    : 7                                    3rd Qu.: 675   3rd Qu.:37.12  
##  Qc2    : 7                                    Max.   :1000   Max.   :45.50  
##  (Other):42

Ilustrando las MTC con un gráfico de caja de bigote

boxplot(CO2)

abline(h = mean(CO2$conc), col = "red")

### Medidas de dispersión

Varianza

var(CO2)
## Warning in stats::var(x, ...): NAs introducidos por coerción
##           Plant Type Treatment      conc    uptake
## Plant        NA   NA        NA        NA        NA
## Type         NA   NA        NA        NA        NA
## Treatment    NA   NA        NA        NA        NA
## conc         NA   NA        NA 87571.084 1552.6867
## uptake       NA   NA        NA  1552.687  116.9515

Deviación estándar

sd(CO2$conc)
## [1] 295.9241

Tabla de frecuencia, histogramas y polígonas

Tablas de frecuencia

tabla <- fdt(CO2$conc, breaks = "Sturges")

#Donde
#f= frecuencia absoluta
#rf= frecuencia relativa
#rf(%) frecuencia relativa porcentual
#cf= frecuencia acumulada
#cf(%)=frecuencia acumulada porcentual

Histogramas

Histograma de frecuencia absoluta

plot(tabla, type="fh")

Histograma de frecuencia relativa

plot(tabla, type = "rfh")

Histograma de frecuencia acumulada

plot(tabla, type = "cfh")

Polígonos

Polígonos de frecuencia absoluta

plot(tabla, type="fp")

Polígonos de frecuencia relativa

plot(tabla, type = "rfp")

Polígonos de frecuencia acumulada

plot(tabla, type = "cfp")