Mi primer reporte estadístico en R

Autor/a

Ashley Medina

Fecha de publicación

12 de junio de 2026

1 Sección 1 | Introducción

Es un lenguaje de programación de código abierto creado originalmente en 1993, diseñado específicamente para el análisis estadístico y la visualización de datos. A diferencia de otros lenguajes de propósito general, R fue pensado desde cero para manipular datos y realizar cálculos complejos de manera eficiente.

En esta ocasión, utilizaremos R para explorar un conjunto de datos y aplicar técnicas de estadística descriptiva. El objetivo es demostrar la capacidad de R para generar reportes reproducibles que integren narrativa, códigos ejecutables y resultados matemáticos precisos.

Consejo para el lector

Para ejecutar bloques de código de forma rápida en RStudio, puedes usar el atajo de teclado Ctrl + Enter.

2 Sección 2 | Descripción del data set

Ahora exploraremos la estructura y el resumen estadístico del dataset `iris`, el cual está incluido en la instalación base de R.

Código

library(tidyverse)

# Ver estructura
glimpse(iris)

Rows: 150
Columns: 5
$ Sepal.Length <dbl> 5.1, 4.9, 4.7, 4.6, 5.0, 5.4, 4.6, 5.0, 4.4, 4.9, 5.4, 4.…
$ Sepal.Width  <dbl> 3.5, 3.0, 3.2, 3.1, 3.6, 3.9, 3.4, 3.4, 2.9, 3.1, 3.7, 3.…
$ Petal.Length <dbl> 1.4, 1.4, 1.3, 1.5, 1.4, 1.7, 1.4, 1.5, 1.4, 1.5, 1.5, 1.…
$ Petal.Width  <dbl> 0.2, 0.2, 0.2, 0.2, 0.2, 0.4, 0.3, 0.2, 0.2, 0.1, 0.2, 0.…
$ Species      <fct> setosa, setosa, setosa, setosa, setosa, setosa, setosa, s…

Código

# Resumen estadístico
summary(iris)

  Sepal.Length    Sepal.Width     Petal.Length    Petal.Width   
 Min.   :4.300   Min.   :2.000   Min.   :1.000   Min.   :0.100  
 1st Qu.:5.100   1st Qu.:2.800   1st Qu.:1.600   1st Qu.:0.300  
 Median :5.800   Median :3.000   Median :4.350   Median :1.300  
 Mean   :5.843   Mean   :3.057   Mean   :3.758   Mean   :1.199  
 3rd Qu.:6.400   3rd Qu.:3.300   3rd Qu.:5.100   3rd Qu.:1.800  
 Max.   :7.900   Max.   :4.400   Max.   :6.900   Max.   :2.500  
       Species  
 setosa    :50  
 versicolor:50  
 virginica :50

El dataset contiene información sobre mediciones de flores del género Iris. Técnicamente, cuenta con r nrow(iris) filas y un total de r n_distinct(iris$Species) especies diferentes: setosa, versicolor y virginica.

3 Sección 3 | Estadística descriptiva

En esta parte se puede ver el promedio de las variables numéricas (longitud y ancho de sépalos y pétalos) agrupadas por cada especie.

Código

iris |> 
  group_by(Species) |> 
  summarise(across(where(is.numeric), mean)) |> 
  knitr::kable(caption = "Promedio de variables por especie")

Promedio de variables por especie
Species	Sepal.Length	Sepal.Width	Petal.Length	Petal.Width
setosa	5.006	3.428	1.462	0.246
versicolor	5.936	2.770	4.260	1.326
virginica	6.588	2.974	5.552	2.026

4 Sección 4 | Ecuaciones

Para el análisis estadístico de la variable Sepal.Length, utilizaremos las siguientes fórmulas fundamentales:

\[\begin{aligned} \text{Media aritmética }(\bar{x}) &= \frac{1}{n} \sum_{i=1}^{n} x_i \\[1.5em] \text{Desviación estándar muestral }(s) &= \sqrt{\frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2} \\[1.5em] \text{Coeficiente de variación }(CV) &= \left( \frac{s}{\bar{x}} \right) \times 100\% \end{aligned}\]

Los resultados obtenidos son los siguientes:

La media es de r round(media_sepal, 2) cm.

La desviación estándar es de r round(sd_sepal, 2) cm.

El coeficiente de variación es de r round(cv_sepal, 2)%.