##Explorar datos de semillas
En el aiguiente documento se muestra como realizar análisis exploratorio de los datos de la germinación de semillas con base en los datos de Julian Faraday.
require(faraway)
## Loading required package: faraway
data(seeds)
seeds
## germ moisture covered
## 1 22 1 no
## 2 41 3 no
## 3 66 5 no
## 4 82 7 no
## 5 79 9 no
## 6 0 11 no
## 7 25 1 no
## 8 46 3 no
## 9 72 5 no
## 10 73 7 no
## 11 68 9 no
## 12 0 11 no
## 13 27 1 no
## 14 59 3 no
## 15 51 5 no
## 16 73 7 no
## 17 74 9 no
## 18 0 11 no
## 19 23 1 no
## 20 38 3 no
## 21 78 5 no
## 22 84 7 no
## 23 70 9 no
## 24 0 11 no
## 25 45 1 yes
## 26 65 3 yes
## 27 81 5 yes
## 28 55 7 yes
## 29 31 9 yes
## 30 0 11 yes
## 31 41 1 yes
## 32 80 3 yes
## 33 73 5 yes
## 34 51 7 yes
## 35 36 9 yes
## 36 0 11 yes
## 37 42 1 yes
## 38 79 3 yes
## 39 74 5 yes
## 40 40 7 yes
## 41 45 9 yes
## 42 0 11 yes
## 43 43 1 yes
## 44 77 3 yes
## 45 76 5 yes
## 46 62 7 yes
## 47 NA 9 yes
## 48 0 11 yes
La base de datos contiene un total de 48 observaciones con 3 variables que corresponden a el porcentaje de germinación(germ), la humedad del suelo(moisture) y si se cubre o no la caja(covered)
seeds$germ
## [1] 22 41 66 82 79 0 25 46 72 73 68 0 27 59 51 73 74 0 23 38 78 84 70 0 45
## [26] 65 81 55 31 0 41 80 73 51 36 0 42 79 74 40 45 0 43 77 76 62 NA 0
seeds[,1]
## [1] 22 41 66 82 79 0 25 46 72 73 68 0 27 59 51 73 74 0 23 38 78 84 70 0 45
## [26] 65 81 55 31 0 41 80 73 51 36 0 42 79 74 40 45 0 43 77 76 62 NA 0
mean(seeds$germ,na.rm=TRUE)#Promedio
## [1] 47.80851
median(seeds$germ,na.rm=TRUE)#Mediana
## [1] 51
sd(seeds$germ,na.rm=TRUE)#Desviación estandár
## [1] 28.04316
min(seeds$germ,na.rm=TRUE)#Mínimo
## [1] 0
max(seeds$germ,na.rm=TRUE)#Máximo
## [1] 84
length(seeds$germ)#Total
## [1] 48
hist(seeds$germ, col="gray")
boxplot(seeds$germ, col="cyan")
La interpretación de cada uno Con esto podemos ver que según mi interpretación (posiblemente con presencia de errores) el histrograma nos muestra en el eje x varios intervalos para la cantidad de semillas que lograron germinar mientras que en el eje y tenemos la frecuencia con la que estas cantidades se presentaron en cada experimento.Además, el “subconjunto” que va del 70 al 80 presenta la mayor frecuencia de semillas que lograron germinar. Por el contrario, el “subconjunto” que va de 10 a 20 semillas no presenta ningún valor lo que nos indica que en ningún experimento se presento una cantidad de semillas germinadas al que le correspondiera el“subconjunto” En el diagrama de caja y bigotes (boxplot) podemos ver que la media de los datos (germinaciones) está cerca de 50 con la mayor cantidad de datos concentrados entre 20 y 70 aproximadamente.
#Exploratorio Bivariado
tapply(seeds$germ, seeds$moisture, mean, na.rm=TRUE)
## 1 3 5 7 9 11
## 33.50000 60.62500 71.37500 65.00000 57.57143 0.00000
tapply(seeds$germ, seeds$covered, median, na.rm=TRUE)
## no yes
## 55 45
boxplot(seeds$germ~seeds$moisture, col="green", xlab="Humedad del Suelo", ylab="Germinación", main="Cajas")
This is an R Markdown document. Markdown is a simple formatting syntax for authoring HTML, PDF, and MS Word documents. For more details on using R Markdown see http://rmarkdown.rstudio.com.
When you click the Knit button a document will be generated that includes both content as well as the output of any embedded R code chunks within the document. You can embed an R code chunk like this:
summary(cars)
## speed dist
## Min. : 4.0 Min. : 2.00
## 1st Qu.:12.0 1st Qu.: 26.00
## Median :15.0 Median : 36.00
## Mean :15.4 Mean : 42.98
## 3rd Qu.:19.0 3rd Qu.: 56.00
## Max. :25.0 Max. :120.00
You can also embed plots, for example:
Note that the echo = FALSE parameter was added to the code chunk to prevent printing of the R code that generated the plot.