Explorar datos de semillas

En el siguiente documento se muestra como realizar un analisis exploratorio de los datos de la germinacion de semillas con base en los datos de Julian Faraway

require(faraway)
## Loading required package: faraway
data(seeds)
head(seeds,5)
##   germ moisture covered
## 1   22        1      no
## 2   41        3      no
## 3   66        5      no
## 4   82        7      no
## 5   79        9      no

La base de datos contiene un total de 48 observaciones con 3 variables que corresponden al porcentaje de germinacion (germ), la humedad del suelo (moisture) y si se cubre o no la caja(covered).

#explorar la Germinacion
seeds$germ
##  [1] 22 41 66 82 79  0 25 46 72 73 68  0 27 59 51 73 74  0 23 38 78 84 70  0 45
## [26] 65 81 55 31  0 41 80 73 51 36  0 42 79 74 40 45  0 43 77 76 62 NA  0
mean(seeds$germ,na.rm = TRUE)
## [1] 47.80851
median(seeds$germ,na.rm = TRUE)
## [1] 51
sd(seeds$germ,na.rm = TRUE)
## [1] 28.04316
min(seeds$germ,na.rm = TRUE)
## [1] 0
max(seeds$germ,na.rm = TRUE)
## [1] 84
length(seeds$germ)
## [1] 48
#graficas

hist(seeds$germ,col = "gray",xlab="Germinacion de las semillas",ylab="Frecuencia",main="Histograma de Germinacion de las semillas")

boxplot(seeds$germ,col = "blue")

Los indiciadores estadisticos demuestran que un 47,80% de las semillas germinaron, hubo una desviacion del 28%, la minima germinacion de las semillas fue de 0, la maxima fue de 84 y el total de cajas fueron 48.

En el histograma, se puede ver la frecuencia de la germinacion de las semillas, el cual, tiene un comportamiento muy oscilante; esto se puede ver al comparar la primera columna, donde hay una frecuencia de 8 para las semillas que no germinaron, mientras que de manera contrastante se ve que la frecuencia mas alta (12), pertenece a la germinacion de unas 80 semillas. Estas situaciones pueden representar que para bastantes semillas las condiciones no fueron las adecuadas para su germinacion, mientras que para muchas las condiciones fueron propicias para una germinacion optima.

#Exploratorio Bivariado

tapply(seeds$germ,seeds$moisture,mean, na.rm=TRUE)
##        1        3        5        7        9       11 
## 33.50000 60.62500 71.37500 65.00000 57.57143  0.00000
boxplot(seeds$germ~seeds$moisture,col="red",xlab="Humedad del Suelo",ylab="Germinacion",main="Cajas")

Segun el diagrama de cajas y bigotes, la menor variabilidad de germinacion se registro cuando la humedad del suelo estaba en 5, indicando que esta humedad es la mas favorable. En las demas, la variabilidad es mayor, pero en especial en la humedad 3 y 9, indicando que el suelo no debe estar ni muy seco ni demasiado humedo para tener una buena germinacion.