En el siguiente documento se muestra como realizar un análisis exploratorio con un set de datos obtenidos del experimento de Julian Faraway:

require(faraway)
## Loading required package: faraway
## Warning: package 'faraway' was built under R version 4.0.5
data(seeds)
head(seeds,5)#para agrupar en 5 filas
##   germ moisture covered
## 1   22        1      no
## 2   41        3      no
## 3   66        5      no
## 4   82        7      no
## 5   79        9      no

La base de datos contiene un total de 48 observaciones con 3 variables que correponden al porcentaje de germinación (germ) de las plantas, la humedad del suelo (moisture) y si se cubre o no la caja (covered). A continuación, se procede a un análisis descriptivo de la variable germ:

#Explorar la Germinación

mean(seeds$germ,na.rm=TRUE) #promedio
## [1] 47.80851
median(seeds$germ,na.rm=TRUE) #mediana
## [1] 51
sd(seeds$germ,na.rm=TRUE) #Desviación Estandar
## [1] 28.04316
min(seeds$germ,na.rm=TRUE) #minimo
## [1] 0
max(seeds$germ,na.rm=TRUE) #maximo
## [1] 84
length(seeds$germ) #total de datos de la variable germ
## [1] 48
#En caso de querer compactar la información anterior, podemos usar el comando:
summary(seeds$germ, na.rm= TRUE)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
##    0.00   29.00   51.00   47.81   73.00   84.00       1

Si se quiere graficar un histograma de la misma variable, podemos usar:

hist(seeds$germ,col="lightgreen",xlab="porcentaje de germinación",ylab="cantidad de plantas", main="Porcentaje de germinación")

Como se aprecia, existe un gap de información en el histograma, lo cual induce a pensar que existe un vacio en el set de datos. En el eje x se demuestra el porcentaje de germinación de las plantas y en el eje vertical se denota la cantidad (frecuencia) de plantas con esos porcentajes.

Ahora, para graficar la misma información en un diagrama de cajas, se usa el comando:

boxplot(seeds$germ, horizontal = T, col = "darkgreen",main= "Porcentaje de germinación de las plantas")

En base a la información, es notable que no existen datos atípicos, aunque si ciertas asimetrias en la parte izquierda de los datos (posible sesgo). Hay precisión en cuanto a las medidas de tendencia central de la variable germ ya que la linea de media está por el valor 51

Este experimento, al ser ejecutado de una manera que la variables se tratan de relacionar entre si, se debe hacer un mínimo análisis bivariado con la función tapply que une dos variables acorde a una medida de interés(media, desviación, etc):

#Exploratorio Bivariado

tapply(seeds$germ, seeds$moisture, mean,na.rm=TRUE)
##        1        3        5        7        9       11 
## 33.50000 60.62500 71.37500 65.00000 57.57143  0.00000
##        1        3        5        7        9       11 
## 33.50000 60.62500 71.37500 65.00000 57.57143  0.00000
boxplot(seeds$germ~seeds$moisture,col="red",xlab="Humedad del Suelo",ylab="Germinación",main="Porcentaje de germinación respecto a la humedad del suelo")

Con los comandos anteriores, se hizo una relación directa visual entre la humedad del suelo y el porcentaje de germinación de las plantas, midiendo en ambas la media como referencia del estadístico.

Se obtuvo un punto óptimo de germinación(71.3%) al 5% de humedad del suelo, con evidencia clara de cero germinación al haber 11% de humedad en el suelo.

Si por ejemplo deseamos ver el porcentaje de germinación en función de si la planta está cubierta o no de la luz natural:

tapply(seeds$germ, seeds$covered, mean,na.rm=TRUE)
##       no      yes 
## 47.95833 47.65217
boxplot(seeds$germ~seeds$covered,col="lightblue",xlab="Cubierta la planta",ylab="Germinación",main="Porcentaje de germinación respecto a la prohibición de luz")

Al incidir directamente la luz sobre la actividad fotosintética de las plantas, es bastante la diferencia de medias entre los porcentajes de germinación de cada tratamiento, incluso al punto de afirmar que, las plantas cubiertas poseen menor porcentaje de germinación.