Este reporte presenta un ejemplo sencillo de análisis descriptivo
utilizando R Markdown.
Se trabaja con dos variables:
El objetivo es mostrar cómo crear una pequeña base de datos, generar
tablas simples y elaborar gráficos básicos en R.
edades <- c(8, 9, 8, 9, 9, 98)
pesos <- c(34, 35, 45, 30, 45, 98)
datos <- data.frame(
persona = paste0("Persona ", 1:6),
edad = edades,
peso = pesos
)
datos
## persona edad peso
## 1 Persona 1 8 34
## 2 Persona 2 9 35
## 3 Persona 3 8 45
## 4 Persona 4 9 30
## 5 Persona 5 9 45
## 6 Persona 6 98 98
resumen <- datos %>%
summarise(
cantidad = n(),
edad_promedio = mean(edad),
edad_mediana = median(edad),
edad_minima = min(edad),
edad_maxima = max(edad),
peso_promedio = mean(peso),
peso_mediano = median(peso),
peso_minimo = min(peso),
peso_maximo = max(peso)
)
resumen
## cantidad edad_promedio edad_mediana edad_minima edad_maxima peso_promedio
## 1 6 23.5 9 8 98 47.83333
## peso_mediano peso_minimo peso_maximo
## 1 40 30 98
table(datos$edad)
##
## 8 9 98
## 2 3 1
table(datos$peso)
##
## 30 34 35 45 98
## 1 1 1 2 1
table(datos$edad, datos$peso)
##
## 30 34 35 45 98
## 8 0 1 0 1 0
## 9 1 0 1 1 0
## 98 0 0 0 0 1
ggplot(datos, aes(x = peso)) +
geom_histogram(bins = 5, fill = "darkgreen", color = "white") +
labs(
title = "Histograma del peso",
x = "Peso",
y = "Frecuencia"
) +
theme_minimal()
ggplot(datos, aes(x = factor(edad))) +
geom_bar(fill = "darkgreen") +
labs(
title = "Frecuencia por edad",
x = "Edad",
y = "Frecuencia"
) +
theme_minimal()
ggplot(datos, aes(x = edad, y = peso)) +
geom_point(size = 3, color = "darkgreen") +
labs(
title = "Relación entre edad y peso",
x = "Edad",
y = "Peso"
) +
theme_minimal()
El ejemplo muestra que la mayoría de las edades se concentran entre 8 y 9 años, y la mayoría de los pesos entre 30 y 45 kg.
Sin embargo, aparece un valor de edad igual a 98 y un peso igual a 98. Estos valores son muy diferentes al resto y deberían revisarse antes de realizar conclusiones estadísticas más formales.
Este tipo de revisión es importante porque los valores extremos pueden modificar el promedio y afectar la interpretación de los resultados.