Mi Primer Reporte Estadístico en R

Author

Scarlin López

Published

June 11, 2026

1 Introduccion.

R es, en esencia, un lenguaje de programación diseñado específicamente para el análisis estadístico y el manejo de datos. A diferencia de programas tipo hoja de cálculo (como Excel), donde interactúas con una interfaz visual, en R trabajas mediante código. Esto te da una ventaja fundamental: reproducibilidad. Puedes guardar cada paso de tu análisis, lo que significa que si tus datos cambian, solo tienes que ejecutar tu código nuevamente para obtener resultados actualizados, sin tener que repetir el proceso manual.

El uso de R para el análisis tiene como objetivo principal la automatización y la precisión. Se utiliza para limpiar grandes volúmenes de información, realizar pruebas estadísticas complejas y generar visualizaciones que un software estándar no podría manejar con la misma flexibilidad. En el ámbito profesional, esto permite pasar de la exploración superficial de datos a la creación de modelos que revelan relaciones causa-efecto o permiten realizar predicciones basadas en datos históricos.

Tip

No intentes aprender todo el lenguaje de golpe. Enfócate primero en aprender a cargar tus datos y hacer un gráfico sencillo. Una vez que veas el resultado visual, entenderás mucho mejor por qué R es tan útil y tendrás más motivación para seguir aprendiendo funciones más complejas.

2 Descripción del Dataset

Code

library(tidyverse)
glimpse(iris)

Rows: 150
Columns: 5
$ Sepal.Length <dbl> 5.1, 4.9, 4.7, 4.6, 5.0, 5.4, 4.6, 5.0, 4.4, 4.9, 5.4, 4.…
$ Sepal.Width  <dbl> 3.5, 3.0, 3.2, 3.1, 3.6, 3.9, 3.4, 3.4, 2.9, 3.1, 3.7, 3.…
$ Petal.Length <dbl> 1.4, 1.4, 1.3, 1.5, 1.4, 1.7, 1.4, 1.5, 1.4, 1.5, 1.5, 1.…
$ Petal.Width  <dbl> 0.2, 0.2, 0.2, 0.2, 0.2, 0.4, 0.3, 0.2, 0.2, 0.1, 0.2, 0.…
$ Species      <fct> setosa, setosa, setosa, setosa, setosa, setosa, setosa, s…

Code

summary(iris)

  Sepal.Length    Sepal.Width     Petal.Length    Petal.Width   
 Min.   :4.300   Min.   :2.000   Min.   :1.000   Min.   :0.100  
 1st Qu.:5.100   1st Qu.:2.800   1st Qu.:1.600   1st Qu.:0.300  
 Median :5.800   Median :3.000   Median :4.350   Median :1.300  
 Mean   :5.843   Mean   :3.057   Mean   :3.758   Mean   :1.199  
 3rd Qu.:6.400   3rd Qu.:3.300   3rd Qu.:5.100   3rd Qu.:1.800  
 Max.   :7.900   Max.   :4.400   Max.   :6.900   Max.   :2.500  
       Species  
 setosa    :50  
 versicolor:50  
 virginica :50

El dataset iris contiene 150 filas y 3 especies de flores. Está compuesto por cuatro variables numéricas que miden la longitud y el ancho de los sépalos y pétalos, además de una variable categórica llamada Species, que identifica la especie de cada flor. Las especies incluidas son setosa, versicolor y virginica.

3 Estadística Descriptiva

Code

promedios <- iris %>%
  group_by(Species) %>%
  summarise(
    Sepal.Length = mean(Sepal.Length),
    Sepal.Width = mean(Sepal.Width),
    Petal.Length = mean(Petal.Length),
    Petal.Width = mean(Petal.Width)
  )

knitr::kable(promedios)

Species	Sepal.Length	Sepal.Width	Petal.Length	Petal.Width
setosa	5.006	3.428	1.462	0.246
versicolor	5.936	2.770	4.260	1.326
virginica	6.588	2.974	5.552	2.026

4 Ecuaciones

4.0.1 Media aritmética

\[ \bar{x} = \frac{1}{n}\sum_{i=1}^{n} x_i \]

4.0.2 Desviación estándar

\[ s = \sqrt{\frac{1}{n-1}\sum_{i=1}^{n}(x_i-\bar{x})^2} \]

4.0.3 Coeficiente de variación

\[ CV = \frac{s}{\bar{x}} \times 100\% \]

Code

media <- mean(iris$Sepal.Length)
desv <- sd(iris$Sepal.Length)
cv <- (desv/media)*100

Para Sepal.Length se obtuvo una media de 5.84, una desviación estándar de 0.83 y un coeficiente de variación de 14.17%.