R es un lenguaje de programación diseñado para el análisis estadístico y la visualización de datos. Nació en los años noventa como una implementación libre del lenguaje S, desarrollado en los laboratorios Bell. Hoy es una herramienta central en ciencia de datos, bioinformática, economía, psicología y cualquier disciplina que trabaje con datos.
En este reporte se usará R para explorar el dataset iris, uno de los conjuntos de datos más conocidos en estadística y aprendizaje automático. El objetivo es aplicar técnicas de estadística descriptiva para resumir y comparar las características morfológicas de tres especies de flores. Los resultados se presentan con tablas, ecuaciones y código reproducible.
Cada análisis es completamente reproducible: el código fuente está disponible dentro del documento. Cualquier persona con R instalado puede ejecutar este archivo y obtener exactamente los mismos resultados.
TipConsejo para el lector
Si es tu primera vez con Quarto, recuerda que puedes ver el código de cada bloque haciendo clic en el botón Code que aparece a la derecha de cada resultado. Activar code-fold: true en el YAML permite leer el reporte de forma limpia sin perder acceso al código.
2 Descripción del Dataset
El dataset iris está incluido en R base, por lo que no requiere instalación adicional. Contiene mediciones de sépalos y pétalos de flores de iris, recolectadas por el botánico Edgar Anderson en 1935 y popularizadas por Ronald Fisher en un artículo de análisis discriminante.
Sepal.Length Sepal.Width Petal.Length Petal.Width
Min. :4.300 Min. :2.000 Min. :1.000 Min. :0.100
1st Qu.:5.100 1st Qu.:2.800 1st Qu.:1.600 1st Qu.:0.300
Median :5.800 Median :3.000 Median :4.350 Median :1.300
Mean :5.843 Mean :3.057 Mean :3.758 Mean :1.199
3rd Qu.:6.400 3rd Qu.:3.300 3rd Qu.:5.100 3rd Qu.:1.800
Max. :7.900 Max. :4.400 Max. :6.900 Max. :2.500
Species
setosa :50
versicolor:50
virginica :50
El dataset contiene 150 observaciones distribuidas en 3 especies: setosa, versicolor y virginica. Cada fila representa una flor individual con cuatro variables numéricas continuas: longitud y ancho del sépalo (Sepal.Length, Sepal.Width) y longitud y ancho del pétalo (Petal.Length, Petal.Width), todas medidas en centímetros. La variable Species es categórica e identifica a cuál de las tres especies pertenece cada observación.
3 Estadística Descriptiva
La siguiente tabla muestra el promedio de cada variable numérica agrupado por especie. Permite comparar de forma directa las diferencias morfológicas entre setosa, versicolor y virginica.
Code
library(dplyr)library(knitr)iris |>group_by(Species) |>summarise(`Sepal.Length (cm)`=round(mean(Sepal.Length), 2),`Sepal.Width (cm)`=round(mean(Sepal.Width), 2),`Petal.Length (cm)`=round(mean(Petal.Length), 2),`Petal.Width (cm)`=round(mean(Petal.Width), 2) ) |>kable(caption ="Promedio de variables morfológicas por especie")
Promedio de variables morfológicas por especie
Species
Sepal.Length (cm)
Sepal.Width (cm)
Petal.Length (cm)
Petal.Width (cm)
setosa
5.01
3.43
1.46
0.25
versicolor
5.94
2.77
4.26
1.33
virginica
6.59
2.97
5.55
2.03
4 Ecuaciones
Las tres medidas que se calcularán son la media aritmética, la desviación estándar y el coeficiente de variación. Sus fórmulas son:
Para la longitud del sépalo (Sepal.Length) en el dataset iris, la media aritmética es 5.843 cm, la desviación estándar es 0.828 cm, y el coeficiente de variación es 14.17%. Este último valor indica que la dispersión relativa de los datos respecto a la media es moderada.