Mi Primer Reporte Estadístico en R

Author

Alfonsina Medina

Published

June 10, 2026

1 Introducción

R es un lenguaje de programación ampliamente utilizado en estadística, ciencia de datos y análisis cuantitativo. Su popularidad se debe a la gran cantidad de herramientas disponibles para manipulación de datos, visualización y modelado estadístico.

En este reporte se utilizará el dataset iris, uno de los conjuntos de datos más conocidos en R. A través de este análisis se explorarán medidas descriptivas básicas y se presentarán ejemplos de tablas, ecuaciones y código reproducible utilizando Quarto.

1.1 Consejo

Utilizar documentos reproducibles en Quarto permite combinar texto, análisis y visualizaciones en un mismo archivo, facilitando la organización y presentación de resultados.

2 Descripción del Dataset

Code
library(tidyverse)

glimpse(iris)
Rows: 150
Columns: 5
$ Sepal.Length <dbl> 5.1, 4.9, 4.7, 4.6, 5.0, 5.4, 4.6, 5.0, 4.4, 4.9, 5.4, 4.…
$ Sepal.Width  <dbl> 3.5, 3.0, 3.2, 3.1, 3.6, 3.9, 3.4, 3.4, 2.9, 3.1, 3.7, 3.…
$ Petal.Length <dbl> 1.4, 1.4, 1.3, 1.5, 1.4, 1.7, 1.4, 1.5, 1.4, 1.5, 1.5, 1.…
$ Petal.Width  <dbl> 0.2, 0.2, 0.2, 0.2, 0.2, 0.4, 0.3, 0.2, 0.2, 0.1, 0.2, 0.…
$ Species      <fct> setosa, setosa, setosa, setosa, setosa, setosa, setosa, s…
Code
summary(iris)
  Sepal.Length    Sepal.Width     Petal.Length    Petal.Width   
 Min.   :4.300   Min.   :2.000   Min.   :1.000   Min.   :0.100  
 1st Qu.:5.100   1st Qu.:2.800   1st Qu.:1.600   1st Qu.:0.300  
 Median :5.800   Median :3.000   Median :4.350   Median :1.300  
 Mean   :5.843   Mean   :3.057   Mean   :3.758   Mean   :1.199  
 3rd Qu.:6.400   3rd Qu.:3.300   3rd Qu.:5.100   3rd Qu.:1.800  
 Max.   :7.900   Max.   :4.400   Max.   :6.900   Max.   :2.500  
       Species  
 setosa    :50  
 versicolor:50  
 virginica :50  
                
                
                
Code
## Running Code

El dataset iris contiene información sobre distintas flores clasificadas en diferentes especies. Este conjunto de datos posee 150 filas y 3 especies diferentes.

Las variables numéricas representan medidas relacionadas con el largo y ancho de sépalos y pétalos, mientras que la variable Species identifica la especie correspondiente de cada observación.

Code
library(dplyr)
library(knitr)

tabla_promedios <- iris %>%
  group_by(Species) %>%
  summarise(
    Promedio_Sepal_Length = mean(Sepal.Length),
    Promedio_Sepal_Width = mean(Sepal.Width),
    Promedio_Petal_Length = mean(Petal.Length),
    Promedio_Petal_Width = mean(Petal.Width)
  )

kable(tabla_promedios,
      caption = "Promedio de variables numéricas por especie")
Promedio de variables numéricas por especie
Species Promedio_Sepal_Length Promedio_Sepal_Width Promedio_Petal_Length Promedio_Petal_Width
setosa 5.006 3.428 1.462 0.246
versicolor 5.936 2.770 4.260 1.326
virginica 6.588 2.974 5.552 2.026

2.1 Fórmulas Estadísticas

2.1.1 Media aritmética

\[\bar{x} = \frac{\sum_{i=1}^{n} x_i}{n}\] ### Desviación estándar

\[s = \sqrt{\frac{\sum_{i=1}^{n}(x_i-\bar{x})^2}{n-1}}\] ### Coeficiente de variación

\[CV = \frac{s}{\bar{x}} \times 100\]

Code
media <- mean(iris$Sepal.Length)

desviacion <- sd(iris$Sepal.Length)

cv <- (desviacion / media) * 100

La media de la variable Sepal.Length es 5.84.

La desviación estándar de Sepal.Length es 0.83.

El coeficiente de variación de Sepal.Length es 14.17%.