R es un lenguaje de programación estadístico y un entorno de software libre diseñado específicamente para el análisis de datos, la computación estadística y la visualización gráfica. Fue desarrollado inicialmente por Ross Ihaka y Robert Gentleman en la Universidad de Auckland, Nueva Zelanda, y hoy en día es mantenido por el R Development Core Team. Su popularidad ha crecido exponencialmente en las últimas décadas, convirtiéndose en una herramienta fundamental para estadísticos, científicos de datos e investigadores de todo el mundo.
Una de las grandes fortalezas de R es su vasto ecosistema de paquetes disponibles a través de CRAN (Comprehensive R Archive Network), que actualmente cuenta con más de 20,000 paquetes especializados. Estos paquetes cubren desde métodos estadísticos clásicos hasta técnicas modernas de aprendizaje automático, minería de texto, bioinformática, econometría y muchos otros campos. Además, la comunidad de R es extremadamente activa, lo que garantiza soporte continuo y desarrollo constante de nuevas herramientas.
En este reporte utilizaremos R para realizar un análisis estadístico descriptivo del dataset iris, uno de los conjuntos de datos más famosos en la historia de la estadística. A través de este análisis aprenderemos a explorar la estructura de los datos, calcular estadísticas descriptivas, construir tablas resumidas y aplicar fórmulas estadísticas fundamentales como la media, la desviación estándar y el coeficiente de variación.
TipConsejo para el lector
Si eres nuevo en R, te recomendamos instalar RStudio como entorno de desarrollo integrado (IDE). RStudio facilita enormemente la escritura de código, la visualización de resultados y la gestión de proyectos. Además, el paquete tidyverse es tu mejor aliado para el análisis y manipulación de datos: puedes instalarlo con install.packages("tidyverse").
2 Descripción del Dataset
El dataset iris es un conjunto de datos clásico incluido en R base, originalmente introducido por el estadístico y biólogo Ronald Fisher en 1936. A continuación exploramos su estructura y un resumen estadístico completo.
Code
# Cargar dplyr para glimpselibrary(dplyr)# Estructura del datasetglimpse(iris)
Sepal.Length Sepal.Width Petal.Length Petal.Width
Min. :4.300 Min. :2.000 Min. :1.000 Min. :0.100
1st Qu.:5.100 1st Qu.:2.800 1st Qu.:1.600 1st Qu.:0.300
Median :5.800 Median :3.000 Median :4.350 Median :1.300
Mean :5.843 Mean :3.057 Mean :3.758 Mean :1.199
3rd Qu.:6.400 3rd Qu.:3.300 3rd Qu.:5.100 3rd Qu.:1.800
Max. :7.900 Max. :4.400 Max. :6.900 Max. :2.500
Species
setosa :50
versicolor:50
virginica :50
El dataset iris contiene mediciones morfológicas de flores de lirio recolectadas en la Península de Gaspé, Canadá. Cada observación registra cuatro variables numéricas continuas —longitud y ancho del sépalo, y longitud y ancho del pétalo, todas en centímetros— junto con la especie a la que pertenece cada flor.
El dataset cuenta con 150 filas (observaciones) y está compuesto por exactamente 3 especies distintas: Iris setosa, Iris versicolor e Iris virginica, con 50 ejemplares por especie. Es un dataset perfectamente balanceado, lo que lo hace ideal para aprender técnicas de clasificación y análisis multivariado.
3 Estadística Descriptiva
La siguiente tabla muestra el promedio de cada variable numérica agrupado por especie, lo que nos permite comparar las características morfológicas entre los tres tipos de lirio.
Code
library(dplyr)library(knitr)iris |>group_by(Species) |>summarise(`Sépal Length (cm)`=round(mean(Sepal.Length), 3),`Sépal Width (cm)`=round(mean(Sepal.Width), 3),`Petal Length (cm)`=round(mean(Petal.Length), 3),`Petal Width (cm)`=round(mean(Petal.Width), 3) ) |>rename(Especie = Species) |>kable(caption ="Tabla 1. Promedio de variables morfológicas por especie en el dataset Iris",align =c("l", "c", "c", "c", "c") )
Tabla 1. Promedio de variables morfológicas por especie en el dataset Iris
Especie
Sépal Length (cm)
Sépal Width (cm)
Petal Length (cm)
Petal Width (cm)
setosa
5.006
3.428
1.462
0.246
versicolor
5.936
2.770
4.260
1.326
virginica
6.588
2.974
5.552
2.026
Se puede observar que Iris virginica tiende a tener los pétalos más grandes, mientras que Iris setosa presenta los pétalos más pequeños pero el ancho de sépalo más amplio. Estas diferencias son estadísticamente relevantes y constituyen la base de muchos modelos de clasificación supervisada.
4 Ecuaciones
4.1 Fórmulas estadísticas
Las tres medidas de resumen más utilizadas en estadística descriptiva son la media aritmética, la desviación estándar y el coeficiente de variación. Sus definiciones formales son:
# Extraer la variable de interésx <- iris$Sepal.Length# Calcular los tres estadísticosmedia <-mean(x)desv <-sd(x)cv <- (desv / media) *100
Los resultados obtenidos para la variable Sepal.Length del dataset iris son:
Media aritmética:\(\bar{x}\) = 5.8433 cm
Desviación estándar:\(s\) = 0.8281 cm
Coeficiente de variación:\(CV\) = 14.17%
Un coeficiente de variación de 14.17% indica que la dispersión relativa de la longitud del sépalo es baja, lo que sugiere que los valores se concentran bastante alrededor de la media y que la variable tiene una distribución relativamente homogénea entre las tres especies.