Práctica 4. Tablas de Frecuencia y Distribución de Datos

Introducción

En la práctica anterior, aprendimos a crear gráficos descriptivos básicos. Ahora, vamos a profundizar en uno de los más importantes: el histograma. Un histograma no solo nos muestra la forma de nuestros datos, sino que también se basa en una estructura numérica subyacente llamada tabla de distribución de frecuencias.

Esta práctica te enseñará a ir más allá de simplemente crear el gráfico. Aprenderás a construir la tabla de frecuencias que lo alimenta y a comparar la distribución de tus datos reales con un modelo teórico ideal: la curva de distribución normal (también conocida como campana de Gauss).

Objetivo

Al finalizar esta práctica, serás capaz de:

Interpretar un histograma para entender la distribución de una variable numérica. Calcular y construir una tabla de distribución de frecuencias completa (frecuencia absoluta, relativa y acumulada). Comprender la importancia de los “intervalos” o “clases” en un histograma. Superponer una curva de distribución normal sobre tus datos para evaluar su normalidad de forma visual. Calcular la media y la desviación estándar de una variable.

Desarrollo de la Práctica

Paso 1: Preparación del Entorno

Como siempre, nuestro primer paso es cargar los paquetes necesarios y la base de datos que vamos a utilizar.

#CARGAR LIBRERÍAS (se hace en cada sesión)
library(ggplot2)
library(readxl)

Paso 2: Importar la base de datos

Usaremos la misma base de datos de la práctica anterior. ¡RECUERDA MODIFICAR ESTA RUTA con la ubicación de tu archivo!

ruta_archivo <- "C:/Users/alumno/Desktop/equinos_modificado.xlsx"
equinos_df <- read_excel(ruta_archivo)

Paso 3. VERIFICAR LOS DATOS

#Un vistazo rápido para asegurarnos de que todo está en orden.
head(equinos_df)

Paso 4: Profundizando en el Histograma

Pregunta: ¿Cómo se distribuye el peso de nuestros equinos? ¿La mayoría son ligeros, pesados, o se agrupan en el centro?

Vamos a crear un histograma para la variable Peso_Kg usando la función de Base R hist().

hist(equinos_df$Peso_Kg, 
     main = "Distribución del Peso de los Equinos", 
     xlab = "Peso (Kg)", 
     ylab = "Frecuencia", 
     col = "lightblue", 
     border = "black", 
     breaks = 5) # 'breaks' sugiere el número de barras (intervalos)

El gráfico nos muestra la frecuencia de caballos dentro de diferentes rangos de peso. Pero, ¿cuáles son esos rangos y cuántos animales hay exactamente en cada uno? Para responder a eso, necesitamos una tabla de frecuencias.

Paso 5: Construyendo la Tabla de Distribución de Frecuencias

Esta tabla es el esqueleto numérico de nuestro histograma. Nos muestra cómo se agrupan los datos en intervalos y nos da varias medidas clave.

El objeto generado por hist() contiene toda la información que necesitamos.

#Usamos plot = FALSE para que solo nos devuelva los cálculos, sin dibujar el gráfico.

info_hist <- hist(equinos_df$Peso_Kg, breaks = 5, plot = FALSE)

#Ahora construimos un data frame para presentar la información de forma ordenada.

tabla_df <- data.frame( 
  Intervalo = paste("[", info_histbreaks[−length(infohistbreaks)], "-", info_hist$breaks[-1], ")"),
  Frecuencia_Absoluta = info_hist$counts,
  Frecuencia_Relativa = round(info_histcounts/sum(infohistcounts), 3),
  Frecuencia_Acumulada = cumsum(info_hist$counts))

#Mostrar la tabla de distribución de frecuencias completa

print(tabla_df)

Frecuencia Absoluta: Es el conteo de animales en cada intervalo (la altura de las barras del histograma). Frecuencia Relativa: Es la proporción o porcentaje de animales en cada intervalo. Frecuencia Acumulada: Es el conteo acumulado de animales a medida que avanzamos por los intervalos.

Paso 6: Comparando Nuestros Datos con la Curva Normal

En estadística, muchos fenómenos naturales siguen una distribución normal (la “campana de Gauss”). Superponer esta curva teórica sobre nuestro histograma nos ayuda a ver si nuestros datos se comportan de manera “normal”.

Para hacer esto, necesitamos dos valores importantes: la media (el promedio) y la desviación estándar (qué tan dispersos están los datos).

#CALCULAR MEDIA Y DESVIACIÓN ESTÁNDAR

media_peso <- mean(equinos_df$Peso_Kg)
sd_peso <- sd(equinos_df$Peso_Kg)

cat("La media del peso es:", round(media_peso, 2), "Kg\n")
cat("La desviación estándar del peso es:", round(sd_peso, 2), "Kg\n")

#CREAR EL HISTOGRAMA CON LA CURVA (Método ggplot2)
#ggplot2 hace que añadir una curva de densidad sea muy elegante.
ggplot(equinos_df, aes(x = Peso_Kg)) + 
  geom_histogram(aes(y = ..density..), binwidth = 50, fill = "lightblue", color = "black") +
  stat_function(fun = dnorm, args = list(mean = media_peso, sd = sd_peso), color = "red", size = 1) +
  labs(title = "Distribución del Peso vs. Curva Normal",
       x = "Peso (Kg)",
       y = "Densidad")

La línea roja representa cómo se vería una distribución “perfectamente normal” con la misma media y desviación estándar que nuestros datos. Al compararla con nuestras barras, podemos evaluar visualmente si nuestros datos se ajustan bien a este modelo teórico.

Cuestionario:

Pregunta 1: En la tabla de distribución de frecuencias, si la Frecuencia Absoluta de un intervalo es 4, ¿qué significa exactamente ese número?

Pregunta 2: ¿Qué información te da la Frecuencia Relativa que no te da la Frecuencia Absoluta?

Pregunta 3: Si la media del peso de los equinos es 324 Kg, ¿dónde esperarías ver el punto más alto de la campana de Gauss en el gráfico?

Pregunta 4: La desviación estándar nos habla de la dispersión de los datos. Si la desviación estándar fuera mucho mayor, ¿cómo te imaginarías la campana de Gauss: más alta y estrecha, o más baja y ancha? ¿Por qué?

Pregunta 5: Observando el último gráfico, ¿dirías que los pesos de nuestros equinos siguen una distribución aproximadamente normal? Justifica tu respuesta comparando las barras del histograma con la línea roja.

“PROYECTO PAPIME PE215125 DESARROLLO DE MATERIAL DE PRÁCTICAS Y APOYO AUDIOVISUAL PARA LA ASIGNATURA DE MÉTODOS ESTADÍSTICOS EN MEDICINA VETERINARIA Y ZOOTECNIA”

Los autores y participantes agradecen al Programa de Apoyo a Proyectos para Innovar y Mejorar la Educación (PAPIME) de la Universidad Nacional Autónoma de México, por el apoyo brindado, el cual fue fundamental para el éxito de este proyecto. Así como a la Facultad de Medicina Veterinaria y Zootecnia y al Departamento de Genética y Bioestadística.

Héctor Alexander Camarena Ledesma, Jessica González Perea, Ángel Moisés Rentería López, Marco Antonio Alvarado Salas, Argelia Ximena Hernández Recio, Carlos Leonardo Pérez Cuenca, Fabiola Asunción Flores Figueroa, Braulio Herrera Ramírez, Areli Maldonado Fernández, Arenas Escamilla Daniel, Pineda Alatriste Saúl, Rogers Montoya Nathaniel Alec, Noé Orlando Juárez López, Daniel Alonso Domínguez Olvera.

Prácticas de Métodos Estadísticos en Medicina Veterinaria y Zootecnia

Depto. Genética y Bioestadística

2025-12-31