Mi Primer Reporte Estadístico en R

Author

Pascual Mejia

Published

June 14, 2026

1 Introducción

R es un lenguaje de programación diseñado para el análisis estadístico y la visualización de datos. Nació en los años noventa como una implementación libre del lenguaje S, desarrollado en los laboratorios Bell. Hoy es una herramienta central en ciencia de datos, bioinformática, economía, psicología y cualquier disciplina que trabaje con datos.

En este reporte se usará R para explorar el dataset iris, uno de los conjuntos de datos más conocidos en estadística y aprendizaje automático. El objetivo es aplicar técnicas de estadística descriptiva para resumir y comparar las características morfológicas de tres especies de flores. Los resultados se presentan con tablas, ecuaciones y código reproducible.

Cada análisis es completamente reproducible: el código fuente está disponible dentro del documento. Cualquier persona con R instalado puede ejecutar este archivo y obtener exactamente los mismos resultados.

Consejo para el lector

Si es tu primera vez con Quarto, recuerda que puedes ver el código de cada bloque haciendo clic en el botón Code que aparece a la derecha de cada resultado. Activar code-fold: true en el YAML permite leer el reporte de forma limpia sin perder acceso al código.

2 Descripción del Dataset

El dataset iris está incluido en R base, por lo que no requiere instalación adicional. Contiene mediciones de sépalos y pétalos de flores de iris, recolectadas por el botánico Edgar Anderson en 1935 y popularizadas por Ronald Fisher en un artículo de análisis discriminante.

Code

library(dplyr)

glimpse(iris)

Rows: 150
Columns: 5
$ Sepal.Length <dbl> 5.1, 4.9, 4.7, 4.6, 5.0, 5.4, 4.6, 5.0, 4.4, 4.9, 5.4, 4.…
$ Sepal.Width  <dbl> 3.5, 3.0, 3.2, 3.1, 3.6, 3.9, 3.4, 3.4, 2.9, 3.1, 3.7, 3.…
$ Petal.Length <dbl> 1.4, 1.4, 1.3, 1.5, 1.4, 1.7, 1.4, 1.5, 1.4, 1.5, 1.5, 1.…
$ Petal.Width  <dbl> 0.2, 0.2, 0.2, 0.2, 0.2, 0.4, 0.3, 0.2, 0.2, 0.1, 0.2, 0.…
$ Species      <fct> setosa, setosa, setosa, setosa, setosa, setosa, setosa, s…

Code

summary(iris)

  Sepal.Length    Sepal.Width     Petal.Length    Petal.Width   
 Min.   :4.300   Min.   :2.000   Min.   :1.000   Min.   :0.100  
 1st Qu.:5.100   1st Qu.:2.800   1st Qu.:1.600   1st Qu.:0.300  
 Median :5.800   Median :3.000   Median :4.350   Median :1.300  
 Mean   :5.843   Mean   :3.057   Mean   :3.758   Mean   :1.199  
 3rd Qu.:6.400   3rd Qu.:3.300   3rd Qu.:5.100   3rd Qu.:1.800  
 Max.   :7.900   Max.   :4.400   Max.   :6.900   Max.   :2.500  
       Species  
 setosa    :50  
 versicolor:50  
 virginica :50

El dataset contiene 150 observaciones distribuidas en 3 especies: setosa, versicolor y virginica. Cada fila representa una flor individual con cuatro variables numéricas continuas: longitud y ancho del sépalo (Sepal.Length, Sepal.Width) y longitud y ancho del pétalo (Petal.Length, Petal.Width), todas medidas en centímetros. La variable Species es categórica e identifica a cuál de las tres especies pertenece cada observación.

3 Estadística Descriptiva

La siguiente tabla muestra el promedio de cada variable numérica agrupado por especie. Permite comparar de forma directa las diferencias morfológicas entre setosa, versicolor y virginica.

Code

library(dplyr)
library(knitr)

iris |>
  group_by(Species) |>
  summarise(
    `Sepal.Length (cm)` = round(mean(Sepal.Length), 2),
    `Sepal.Width (cm)`  = round(mean(Sepal.Width),  2),
    `Petal.Length (cm)` = round(mean(Petal.Length), 2),
    `Petal.Width (cm)`  = round(mean(Petal.Width),  2)
  ) |>
  kable(caption = "Promedio de variables morfológicas por especie")

Promedio de variables morfológicas por especie
Species	Sepal.Length (cm)	Sepal.Width (cm)	Petal.Length (cm)	Petal.Width (cm)
setosa	5.01	3.43	1.46	0.25
versicolor	5.94	2.77	4.26	1.33
virginica	6.59	2.97	5.55	2.03

4 Ecuaciones

Las tres medidas que se calcularán son la media aritmética, la desviación estándar y el coeficiente de variación. Sus fórmulas son:

\[ \bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i \]

\[ s = \sqrt{\frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2} \]

\[ CV = \frac{s}{\bar{x}} \times 100 \]

A continuación se calculan estos tres valores para la variable Sepal.Length:

Code

media_sl <- mean(iris$Sepal.Length)
de_sl    <- sd(iris$Sepal.Length)
cv_sl    <- (de_sl / media_sl) * 100

Para la longitud del sépalo (Sepal.Length) en el dataset iris, la media aritmética es 5.843 cm, la desviación estándar es 0.828 cm, y el coeficiente de variación es 14.17%. Este último valor indica que la dispersión relativa de los datos respecto a la media es moderada.