A continuación, se presenta el script con el cual importamos las librerías necesarias y la base de datos con la que se presenta el ejemplo del informe llamada “seeds”.
library(table1) #indicadores
library(ggplot2) #graficos
library(plotly) #animaciones
library(faraway) #datos
data(seeds) #carga datos
head(seeds)
| germ | moisture | covered |
|---|---|---|
| 22 | 1 | no |
| 41 | 3 | no |
| 66 | 5 | no |
| 82 | 7 | no |
| 79 | 9 | no |
| 0 | 11 | no |
La base contiene información sobre el experimento realizado para la germinación de semillas de forraje y como esta se ve afectada por la humedad del suelo (moisture). El experimento contiene un total de 48 observaciones.
Para la exploración de los datos utilizamos los indicadores con table1 y gráficos de ggplot2:
table1(~germ+moisture,data=seeds)
| Overall (N=48) |
|
|---|---|
| germ | |
| Mean (SD) | 47.8 (28.0) |
| Median [Min, Max] | 51.0 [0, 84.0] |
| Missing | 1 (2.1%) |
| moisture | |
| Mean (SD) | 6.00 (3.45) |
| Median [Min, Max] | 6.00 [1.00, 11.0] |
Se observa en la tabla que la media de germinación es de 48% con una desviación del 28%. Mientras que la humedad del suelo fue variada en el experimento desde 1% al 11%
ggplot(data=seeds,aes(x=germ))+geom_boxplot()
ggplot(seeds, aes(x=germ))+geom_histogram(binwidth = 5, fill="skyblue", color="black")+labs(title = "Histograma de Germinación", x="Germinacion", y="Frecuencia")+theme_minimal()
En la gráfica se observa que en 8 de las repeticiones no germinaron ninguna de las semillas mientras que en algunas la germinación supero el 75%. Es decir, que una diferencia importante que como hipótesis se espera este explicada por la humedad del suelo.
Ahora continuando con la exploración de datos vamos a realizar un análisis bivariado entre germinación y humedad del suelo para identificar posibles correlaciones.
seeds$moisture_cate=as.factor(seeds$moisture)
table1(~germ|moisture_cate,data= seeds)
| 1 (N=8) |
3 (N=8) |
5 (N=8) |
7 (N=8) |
9 (N=8) |
11 (N=8) |
Overall (N=48) |
|
|---|---|---|---|---|---|---|---|
| germ | |||||||
| Mean (SD) | 33.5 (10.1) | 60.6 (17.4) | 71.4 (9.35) | 65.0 (15.6) | 57.6 (19.7) | 0 (0) | 47.8 (28.0) |
| Median [Min, Max] | 34.0 [22.0, 45.0] | 62.0 [38.0, 80.0] | 73.5 [51.0, 81.0] | 67.5 [40.0, 84.0] | 68.0 [31.0, 79.0] | 0 [0, 0] | 51.0 [0, 84.0] |
| Missing | 0 (0%) | 0 (0%) | 0 (0%) | 0 (0%) | 1 (12.5%) | 0 (0%) | 1 (2.1%) |
Se observa que existe un comportamiento no lineal entre la relación de germinación y humedad del suelo. Indicando que valores bajos de humedad tienen una media de germinación baja al igual que los altos (ejemplo con 11% de humedad ninguna semilla germino).
ggplot(data=seeds,aes(x=moisture, y=germ))+geom_point()+geom_smooth()+theme_minimal()
Se puede observar con mayor detalle la relación no lineal indicando que existe un óptimo de humedad para maximizar la germinación de semillas al rededor del 5% de humedad del suelo.
1- Relacionada a la exploracion de los datos
La exploración de datos es una etapa fundamental en cualquier análisis, ya que permite comprender las posibles relaciones, estructuras y distribuciones de diferentes variables o conjuntos de datos y así aplicar de forma adecuada modelos estadísticos. Este proceso ayuda a identificar patrones, tendencias, valores atípicos o relaciones de cualquier tipo que, posteriormente, pueden ser analizadas por el usuario para extraer conclusiones significativas. Es una de las fases más importantes, pues omitirla aumenta el riesgo de interpretar los datos de manera incorrecta o de basar el análisis en supuestos erróneos.
2- Uso de markdown :
La característica más destacada de R Markdown es que permite combinar, en un mismo documento, espacios de código y texto. Esto facilita trabajar de forma más ágil, ya que herramientas como Knit y Visual ofrecen una visualización previa del contenido y permiten corregir rápidamente el código. Además, es una herramienta muy versátil, pues permite exportar el resultado a diferentes formatos, como HTML o Word, lo que la hace más flexible para distintos fines. Finalmente, favorece la documentación del código, ya que en el archivo fuente pueden incluirse todas las funciones y explicaciones utilizadas, lo que facilita el acceso y la comprensión para cualquier persona a la que se le comparta el archivo, incluso si en la versión final generada con Knit parte de este contenido no se muestre.