El presente documento muestra el anÔlisis exploratorio de los datos de germinación de la base seeds que se encuentra en la libreria faraway.

require(faraway)
require (ggplot2)
data(seeds)
seeds
##    germ moisture covered
## 1    22        1      no
## 2    41        3      no
## 3    66        5      no
## 4    82        7      no
## 5    79        9      no
## 6     0       11      no
## 7    25        1      no
## 8    46        3      no
## 9    72        5      no
## 10   73        7      no
## 11   68        9      no
## 12    0       11      no
## 13   27        1      no
## 14   59        3      no
## 15   51        5      no
## 16   73        7      no
## 17   74        9      no
## 18    0       11      no
## 19   23        1      no
## 20   38        3      no
## 21   78        5      no
## 22   84        7      no
## 23   70        9      no
## 24    0       11      no
## 25   45        1     yes
## 26   65        3     yes
## 27   81        5     yes
## 28   55        7     yes
## 29   31        9     yes
## 30    0       11     yes
## 31   41        1     yes
## 32   80        3     yes
## 33   73        5     yes
## 34   51        7     yes
## 35   36        9     yes
## 36    0       11     yes
## 37   42        1     yes
## 38   79        3     yes
## 39   74        5     yes
## 40   40        7     yes
## 41   45        9     yes
## 42    0       11     yes
## 43   43        1     yes
## 44   77        3     yes
## 45   76        5     yes
## 46   62        7     yes
## 47   NA        9     yes
## 48    0       11     yes

Como se observa en la tabla No.1, la base contiene variables que corresponden al porcentaje de germinación (germ), la humedad del suelo (moisture), y si esta cubierta (covered).

#Exploratorio univariado (caracterizar)

#Germinacion
summary(seeds$germ)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
##    0.00   29.00   51.00   47.81   73.00   84.00       1
ggplot(seeds,aes(x=germ))+geom_histogram()+theme_bw()

Como se observa en los indicadores, el promedio de germinación de las plantas es de 47,81%, sin embargo las variaciones son muy altas desde 0% hasta 84% lo cual también se aprecia en el histograma.Este resultado indica que problablemente esta variación en el % de germinación se deba a los tratamientos, en este caso al principal que sería la humedad del suelo.

#Exploratorio bivariado (relacionar)

#Exploratorio bivariado
seeds$moisture=as.factor(seeds$moisture)
tapply(seeds$germ,seeds$moisture,mean,na.rm=TRUE)
##        1        3        5        7        9       11 
## 33.50000 60.62500 71.37500 65.00000 57.57143  0.00000
ggplot(seeds,aes(x=moisture,y=germ,fill=moisture))+geom_boxplot()+theme_bw()+scale_fill_brewer()

La fig. 1 muestra una relacion entre la humedad del suelo y el % de germinación indicando que el nivel 5% de humedad del suelo se destaca como el que mejor porcentaje de germinación presenta en promedio y con una menor varianza que los demÔs. Por otro lado el 11% de humedad del suelo se considera como un nivel menos letal para porcentaje de germinación.

tapply(seeds$germ,seeds$covered,mean,na.rm=TRUE)
##       no      yes 
## 47.95833 47.65217
ggplot(seeds,aes(x=moisture,y=germ,fill=moisture))+geom_boxplot()+theme_bw()+scale_fill_brewer()+facet_grid(~covered)

Se observa en la figura que la variable covered presenta un efecto sobre la relación entre % de germinación y humedad del suelo, modificando el pico en el cual alcanza la mayor efectividad de germinación.

seeds$moisture=as.numeric(seeds$moisture)
ggplot(seeds,aes(x=moisture,y=germ))+geom_point()+geom_smooth()+theme_bw()

ggplot(seeds,aes(x=moisture,y=germ,col=covered))+geom_smooth()+theme_bw()

g1=ggplot(seeds,aes(x=moisture,y=germ,col=covered))+geom_smooth()+theme_bw()
require(plotly)
ggplotly(g1)