Es un lenguaje de programación de código abierto creado originalmente en 1993, diseñado específicamente para el análisis estadístico y la visualización de datos. A diferencia de otros lenguajes de propósito general, R fue pensado desde cero para manipular datos y realizar cálculos complejos de manera eficiente.
En esta ocasión, utilizaremos R para explorar un conjunto de datos y aplicar técnicas de estadística descriptiva. El objetivo es demostrar la capacidad de R para generar reportes reproducibles que integren narrativa, códigos ejecutables y resultados matemáticos precisos.
TipConsejo para el lector
Para ejecutar bloques de código de forma rápida en RStudio, puedes usar el atajo de teclado Ctrl + Enter.
2 Sección 2 | Descripción del data set
Ahora exploraremos la estructura y el resumen estadístico del dataset `iris`, el cual está incluido en la instalación base de R.
Sepal.Length Sepal.Width Petal.Length Petal.Width
Min. :4.300 Min. :2.000 Min. :1.000 Min. :0.100
1st Qu.:5.100 1st Qu.:2.800 1st Qu.:1.600 1st Qu.:0.300
Median :5.800 Median :3.000 Median :4.350 Median :1.300
Mean :5.843 Mean :3.057 Mean :3.758 Mean :1.199
3rd Qu.:6.400 3rd Qu.:3.300 3rd Qu.:5.100 3rd Qu.:1.800
Max. :7.900 Max. :4.400 Max. :6.900 Max. :2.500
Species
setosa :50
versicolor:50
virginica :50
El dataset contiene información sobre mediciones de flores del género Iris. Técnicamente, cuenta con r nrow(iris) filas y un total de r n_distinct(iris$Species) especies diferentes: setosa, versicolor y virginica.
3 Sección 3 | Estadística descriptiva
En esta parte se puede ver el promedio de las variables numéricas (longitud y ancho de sépalos y pétalos) agrupadas por cada especie.
Código
iris |>group_by(Species) |>summarise(across(where(is.numeric), mean)) |> knitr::kable(caption ="Promedio de variables por especie")
Promedio de variables por especie
Species
Sepal.Length
Sepal.Width
Petal.Length
Petal.Width
setosa
5.006
3.428
1.462
0.246
versicolor
5.936
2.770
4.260
1.326
virginica
6.588
2.974
5.552
2.026
4 Sección 4 | Ecuaciones
Para el análisis estadístico de la variable Sepal.Length, utilizaremos las siguientes fórmulas fundamentales: