Mi Primer Reporte Estadístico

Author

Nathalia Báez

Published

May 22, 2026

1 Introducción

R es un lenguaje de programación orientado al análisis estadístico y la visualización de datos. Su uso se ha extendido ampliamente en áreas académicas, científicas y empresariales debido a la gran variedad de herramientas que ofrece para manipular información, realizar cálculos estadísticos y construir gráficos de alta calidad. Además, permite desarrollar análisis reproducibles y organizados mediante documentos dinámicos como Quarto o R Markdown.

En este análisis se utilizará el dataset iris, incluido de forma predeterminada en R, con el propósito de explorar su estructura y obtener estadísticas descriptivas básicas. A través de diferentes funciones y herramientas del lenguaje, se examinarán las características principales del conjunto de datos y se calcularán medidas estadísticas relevantes para comprender mejor el comportamiento de las variables numéricas.

Consejo

Mantener el código organizado y acompañado de explicaciones claras facilita la interpretación de resultados y mejora la reproducibilidad del análisis.

2 Descripción del Dataset

Code

glimpse(iris)

Rows: 150
Columns: 5
$ Sepal.Length <dbl> 5.1, 4.9, 4.7, 4.6, 5.0, 5.4, 4.6, 5.0, 4.4, 4.9, 5.4, 4.…
$ Sepal.Width  <dbl> 3.5, 3.0, 3.2, 3.1, 3.6, 3.9, 3.4, 3.4, 2.9, 3.1, 3.7, 3.…
$ Petal.Length <dbl> 1.4, 1.4, 1.3, 1.5, 1.4, 1.7, 1.4, 1.5, 1.4, 1.5, 1.5, 1.…
$ Petal.Width  <dbl> 0.2, 0.2, 0.2, 0.2, 0.2, 0.4, 0.3, 0.2, 0.2, 0.1, 0.2, 0.…
$ Species      <fct> setosa, setosa, setosa, setosa, setosa, setosa, setosa, s…

Code

summary(iris)

  Sepal.Length    Sepal.Width     Petal.Length    Petal.Width   
 Min.   :4.300   Min.   :2.000   Min.   :1.000   Min.   :0.100  
 1st Qu.:5.100   1st Qu.:2.800   1st Qu.:1.600   1st Qu.:0.300  
 Median :5.800   Median :3.000   Median :4.350   Median :1.300  
 Mean   :5.843   Mean   :3.057   Mean   :3.758   Mean   :1.199  
 3rd Qu.:6.400   3rd Qu.:3.300   3rd Qu.:5.100   3rd Qu.:1.800  
 Max.   :7.900   Max.   :4.400   Max.   :6.900   Max.   :2.500  
       Species  
 setosa    :50  
 versicolor:50  
 virginica :50

El dataset iris tiene información sobre medidas de flores de distintas especies de iris. Incluye datos relacionadas con el largo y ancho de sépalos y pétalos, además de la especie correspondiente a cada observación.

El conjunto de datos posee 150 filas y 3 especies diferentes.

3 Estadística Descriptiva

Code

#|echo: true

iris %>%
  group_by(Species) %>%
  summarise(Sepal_Length = mean(Sepal.Length),Sepal_Width  = mean(Sepal.Width), Petal_Length = mean(Petal.Length), Petal_Width  = mean(Petal.Width) ) %>%
  kable(caption = "Promedio de variables numéricas por especie")

Promedio de variables numéricas por especie
Species	Sepal_Length	Sepal_Width	Petal_Length	Petal_Width
setosa	5.006	3.428	1.462	0.246
versicolor	5.936	2.770	4.260	1.326
virginica	6.588	2.974	5.552	2.026

4 Ecuaciones

La fórmula de la media aritmética es: \[\bar{x} = \frac{1}{n}\sum_{i=1}^{n} x_i\]
La formula de la desviación estándar es: \[s = \sqrt{\frac{1}{n-1}\sum_{i=1}^{n}(x_i - \bar{x})^2}\]
La fórmula del coeficiente de variación es: \[CV = \frac{s}{\bar{x}} \times 100\%\]

Code

media <- mean(iris$Sepal.Length)
desviacion <- sd(iris$Sepal.Length)
cv <- (desviacion / media) * 100

La media de Sepal.Length es 5.84.
La desviación estándar de Sepal.Length es 0.83.
El coeficiente de variación de Sepal.Length es 14.17%.