Mi Primer Reporte Estadístico en R

Author

Jogeysi Carrasco

Published

June 28, 2026

1 Introducción

R es un lenguaje de programación estadístico y un entorno de software libre diseñado específicamente para el análisis de datos, la computación estadística y la visualización gráfica. Fue desarrollado inicialmente por Ross Ihaka y Robert Gentleman en la Universidad de Auckland, Nueva Zelanda, y hoy en día es mantenido por el R Development Core Team. Su popularidad ha crecido exponencialmente en las últimas décadas, convirtiéndose en una herramienta fundamental para estadísticos, científicos de datos e investigadores de todo el mundo.

Una de las grandes fortalezas de R es su vasto ecosistema de paquetes disponibles a través de CRAN (Comprehensive R Archive Network), que actualmente cuenta con más de 20,000 paquetes especializados. Estos paquetes cubren desde métodos estadísticos clásicos hasta técnicas modernas de aprendizaje automático, minería de texto, bioinformática, econometría y muchos otros campos. Además, la comunidad de R es extremadamente activa, lo que garantiza soporte continuo y desarrollo constante de nuevas herramientas.

En este reporte utilizaremos R para realizar un análisis estadístico descriptivo del dataset iris, uno de los conjuntos de datos más famosos en la historia de la estadística. A través de este análisis aprenderemos a explorar la estructura de los datos, calcular estadísticas descriptivas, construir tablas resumidas y aplicar fórmulas estadísticas fundamentales como la media, la desviación estándar y el coeficiente de variación.

Consejo para el lector

Si eres nuevo en R, te recomendamos instalar RStudio como entorno de desarrollo integrado (IDE). RStudio facilita enormemente la escritura de código, la visualización de resultados y la gestión de proyectos. Además, el paquete tidyverse es tu mejor aliado para el análisis y manipulación de datos: puedes instalarlo con install.packages("tidyverse").

2 Descripción del Dataset

El dataset iris es un conjunto de datos clásico incluido en R base, originalmente introducido por el estadístico y biólogo Ronald Fisher en 1936. A continuación exploramos su estructura y un resumen estadístico completo.

Code

# Cargar dplyr para glimpse
library(dplyr)

# Estructura del dataset
glimpse(iris)

Rows: 150
Columns: 5
$ Sepal.Length <dbl> 5.1, 4.9, 4.7, 4.6, 5.0, 5.4, 4.6, 5.0, 4.4, 4.9, 5.4, 4.…
$ Sepal.Width  <dbl> 3.5, 3.0, 3.2, 3.1, 3.6, 3.9, 3.4, 3.4, 2.9, 3.1, 3.7, 3.…
$ Petal.Length <dbl> 1.4, 1.4, 1.3, 1.5, 1.4, 1.7, 1.4, 1.5, 1.4, 1.5, 1.5, 1.…
$ Petal.Width  <dbl> 0.2, 0.2, 0.2, 0.2, 0.2, 0.4, 0.3, 0.2, 0.2, 0.1, 0.2, 0.…
$ Species      <fct> setosa, setosa, setosa, setosa, setosa, setosa, setosa, s…

Code

# Resumen estadístico
summary(iris)

  Sepal.Length    Sepal.Width     Petal.Length    Petal.Width   
 Min.   :4.300   Min.   :2.000   Min.   :1.000   Min.   :0.100  
 1st Qu.:5.100   1st Qu.:2.800   1st Qu.:1.600   1st Qu.:0.300  
 Median :5.800   Median :3.000   Median :4.350   Median :1.300  
 Mean   :5.843   Mean   :3.057   Mean   :3.758   Mean   :1.199  
 3rd Qu.:6.400   3rd Qu.:3.300   3rd Qu.:5.100   3rd Qu.:1.800  
 Max.   :7.900   Max.   :4.400   Max.   :6.900   Max.   :2.500  
       Species  
 setosa    :50  
 versicolor:50  
 virginica :50

El dataset iris contiene mediciones morfológicas de flores de lirio recolectadas en la Península de Gaspé, Canadá. Cada observación registra cuatro variables numéricas continuas —longitud y ancho del sépalo, y longitud y ancho del pétalo, todas en centímetros— junto con la especie a la que pertenece cada flor.

El dataset cuenta con 150 filas (observaciones) y está compuesto por exactamente 3 especies distintas: Iris setosa, Iris versicolor e Iris virginica, con 50 ejemplares por especie. Es un dataset perfectamente balanceado, lo que lo hace ideal para aprender técnicas de clasificación y análisis multivariado.

3 Estadística Descriptiva

La siguiente tabla muestra el promedio de cada variable numérica agrupado por especie, lo que nos permite comparar las características morfológicas entre los tres tipos de lirio.

Code

library(dplyr)
library(knitr)

iris |>
  group_by(Species) |>
  summarise(
    `Sépal Length (cm)` = round(mean(Sepal.Length), 3),
    `Sépal Width (cm)`  = round(mean(Sepal.Width),  3),
    `Petal Length (cm)` = round(mean(Petal.Length), 3),
    `Petal Width (cm)`  = round(mean(Petal.Width),  3)
  ) |>
  rename(Especie = Species) |>
  kable(
    caption = "Tabla 1. Promedio de variables morfológicas por especie en el dataset Iris",
    align   = c("l", "c", "c", "c", "c")
  )

Tabla 1. Promedio de variables morfológicas por especie en el dataset Iris
Especie	Sépal Length (cm)	Sépal Width (cm)	Petal Length (cm)	Petal Width (cm)
setosa	5.006	3.428	1.462	0.246
versicolor	5.936	2.770	4.260	1.326
virginica	6.588	2.974	5.552	2.026

Se puede observar que Iris virginica tiende a tener los pétalos más grandes, mientras que Iris setosa presenta los pétalos más pequeños pero el ancho de sépalo más amplio. Estas diferencias son estadísticamente relevantes y constituyen la base de muchos modelos de clasificación supervisada.

4 Ecuaciones

4.1 Fórmulas estadísticas

Las tres medidas de resumen más utilizadas en estadística descriptiva son la media aritmética, la desviación estándar y el coeficiente de variación. Sus definiciones formales son:

Media aritmética:

\[\bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i\]

Desviación estándar:

\[s = \sqrt{\frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2}\]

Coeficiente de variación:

\[CV = \frac{s}{\bar{x}} \times 100\%\]

4.2 Cálculo para `Sepal.Length`

Code

# Extraer la variable de interés
x <- iris$Sepal.Length

# Calcular los tres estadísticos
media  <- mean(x)
desv   <- sd(x)
cv     <- (desv / media) * 100

Los resultados obtenidos para la variable Sepal.Length del dataset iris son:

Media aritmética: \(\bar{x}\) = 5.8433 cm
Desviación estándar: \(s\) = 0.8281 cm
Coeficiente de variación: \(CV\) = 14.17%

Un coeficiente de variación de 14.17% indica que la dispersión relativa de la longitud del sépalo es baja, lo que sugiere que los valores se concentran bastante alrededor de la media y que la variable tiene una distribución relativamente homogénea entre las tres especies.

1 Introducción

2 Descripción del Dataset

3 Estadística Descriptiva

4 Ecuaciones

4.1 Fórmulas estadísticas

4.2 Cálculo para Sepal.Length

4.2 Cálculo para `Sepal.Length`