Objetivo

Determinar, interpretar y visualizar medidas de tendencia central de un conjunto de datos de edades, sueldos y calificaciones respectivamente.

Descripción

Cargar tres conjuntos de datos:

Generar datos aleatoriamente mediante la función sample() anteponiendo semilla con valor de 2021 con la función set.seed(2021) para generar valores iguales al momento de construir los documentos markdown.

Identificar estadísticos descriptivos de la media, mediana, moda, valores máximos y mínimos, rango, cuartiles y visualizar los datos mediante histograma y diagrama de caja o bigotes.

Utilizar la función summary() para comprobar los estadísticos encontrados.

Realizar la interpretación correspondiente de cada conjunto de datos.

Desarrollo

Para los tres conjuntos de datos, siembre una semilla para generar datos aleatorios.

set.seed(2021)

Edades

La muestra de edades

Una muestra del contexto de edades de personas entre 18 y 65 años. Se generan 50 datos.

edades<-sample(18:65, 50, replace=TRUE)
edades

Media, mediana

La media se determina mediante la función mean() y la mediana con la función median().

media.edades<-mean(edades)
media.edades
mediana.edades<-median(edades)
mediana.edades

Cuando el valor de la media y la mediana son iguales la distribución de los datos es simétrica.

Si el valor de la media es mayor que la mediana la distribución es asimetrica con un sesgo positivo a la derecha.

Por el contrario si el valor de la media es menor que la mediana, entonces la distribución es asimétrica con un sesgo negativo a la izquierda.

Moda

La moda se puede usar con la función table() o utilizar la función mfv(x) del paquete modeest. Se carga la librería o paquete modest previa instalación con la función install.packages(“modeest”).

library(modeest)
moda.edades<-mfv(edades)
moda.edades

Con la función table() se encuentra la frecuencia de cada valor.

frecuencias.edades<-table(edades)
frecuencias.edades

Valores máximos y mínimos

Con las funciones max() y min() se determinan los valores máximos y mínimos de un conjunto de datos.

max.edades<-max(edades)
max.edades
min.edades<-min(edades)
min.edades

Cuartiles

Se determinan los cuartiles mediante la función quantile(). Los cuartiles significan medidas de localización dentro de un conjunto de datos, sirven para interpretar cuantos datos están por encima y por debajo de cada cuartil.

El cuartil al 50% debe ser igual a la mediana.

cuartiles.edades<-quantile(edades, c(0.25, 0.50, 0.75))
cuartiles.edades

Rango

El rango significa el intervalo de los datos entre el valor máximo y el mínimo.

rango.edades<-range(edades)
rango.edades
intervalo<-rango.edades[2]-rango.edades[1]
intervalo


max(edades)-min(edades)

Histograma

El histograma refleja la distribución de los datos.

hist(edades, main = "Histograma de edades", xlab = "Edades", ylab = "Frecuencia")

Boxplot

boxplot(edades, horizontal = TRUE)

summary()

La función summary genera los estadísticos descriptivos básicos de un conjunto de datos.

resumen <- summary(edades)
resumen

Sueldos

La muestra de sueldos

Una muestra del contexto de sueldos entre 10000 y 50000 pesos. Se generan 500 datos.

sueldos<-sample(10000:50000, 500, replace=TRUE)
sueldos

Media, mediana

La media se determina mediante la función mean() y la mediana con la función median().

media.sueldos<-mean(sueldos)
media.sueldos
mediana.sueldos<-median(sueldos)
mediana.sueldos

Moda

La moda se puede usar con la función table() o utilizar la función mfv(x) del paquete modeest. Se carga la librería o paquete modest previa instalación con la función install.packages(“modeest”).

library(modeest)
moda.sueldos<-mfv(sueldos)
moda.sueldos

Con la función table() se encuentra la frecuencia de cada valor

frecuencias.sueldos<-table(sueldos)
frecuencias.sueldos

Valores máximos y mínimos

Con las funciones max() y min() se determinan los valores máximos y mínimos de un conjunto de datos.

max.sueldos<-max(sueldos)
max.sueldos
min.sueldos<-min(sueldos)
min.sueldos

Rango

rango.sueldos <- range(sueldos)
rango.sueldos
intervalo <- rango.sueldos[2] - rango.sueldos[1]
intervalo
max(sueldos)-min(sueldos) 

Cuartiles

Se determinan los cuartiles mediante la función quantile().

cuartiles.sueldos <- quantile(sueldos, c(0.25, 0.50, 0.75))
cuartiles.sueldos

Histograma

El histograma refleja la distribución de los datos.

hist(sueldos, main = "Histograma de sueldos", xlab = "sueldos", ylab = "Frecuencia")

Boxplot

Diagrama de bigotes o boxplot representa los valores de la mediana con linea en medio, los valores de cuartiles y los extremos mínimo y máximo de un conjunto de datos. Refleja la cantidad de datos (el cuadro) que están por encima o por debajo de la mediana o cuartiles.

boxplot(sueldos, horizontal = TRUE, 
        main="sueldos")

summary()

La función summary() genera los estadísticos descriptivos básicos de un conjunto de datos.

resumen <- summary(sueldos)
resumen

Calificaciones

La muestra de calificaciones

Una muestra del contexto de calificaciones de entre 70 y 100 estudiantes del ITD. Se generan 100 datos.

calificaciones <- sample(70: 100, 100, replace = TRUE)
calificaciones

Media, mediana

La media se determina mediante la función mean() y la mediana con la función median().

media.calificaciones<-mean(calificaciones)
media.calificaciones
mediana.calificaciones<-median(calificaciones)
mediana.calificaciones

Moda

La moda se puede usar con la función table() o utilizar la función mfv(x) del paquete modeest. Se carga la librería o paquete modest previa instalación con la función install.packages(“modeest”).

library(modeest)

moda.calificaciones<-mfv(calificaciones)
moda.calificaciones

Con la función table() se encuentra la frecuencia de cada valor.

frecuencias.calificaciones <- table(calificaciones)
frecuencias.calificaciones

Valores máximos y mínimos

Con las funciones max() y min() se determinan los valores máximos y mínimos de u conjunto de datos.

max.calificaciones <- max(calificaciones)
max.calificaciones
min.calificaciones <- min(calificaciones)
min.calificaciones

Rango

El rango significa el intervalo de los datos entre el valor máximo y mínimo.

rango.calificaciones <- range(calificaciones)
rango.calificaciones
intervalo <- rango.calificaciones[2] - rango.calificaciones[1]
intervalo
max(calificaciones)-min(calificaciones) 

Cuartiles

Se determinan los cuartiles mediante la función quantile(). Los cuartiles significa medidas de localización dentro de un conjunto de datos, sirven para interpretar cuántos datos están por encima y por debajo de cada cuartil.

cuartiles.calificaciones <- quantile(calificaciones, c(0.25, 0.50, 0.75))
cuartiles.calificaciones

Histograma

El histograma refleja la distribución de los datos.

hist(calificaciones, main = "Histograma de calificaciones", xlab = "Calificaciones", ylab = "Frecuencia")

Boxplot

Diagrama de bigotes o boxplot representa los valores de la mediana con linea en medio, los valores de cuartiles y los extremos mínimo y máximo de un conjunto de datos. Refleja la cantidad de datos (el cuadro) que están por encima o por debajo de la mediana o cuartiles.

boxplot(calificaciones, horizontal = TRUE, 
        main="Calificaciones")

summary()

La función summary() genera los estadísticos descriptivos básicos de un conjunto de datos.

resumen <- summary(calificaciones)
resumen

Interpretación

El análisis descriptivo arrojo que la media del conjunto de datos “edades” fue mayor a su mediana con un promedio de 42, así se establece que la distribución es asimétrica con un sesgo positivo a la derecha.

El valor de la mediana es 39.5, esto quiere decir que al momento de partir los valores a la mitad, ese numero quedaría justo en medio, y es igual al segundo cuartil que equivale al 50%. Mientras que el resultado de la moda (valor de mayor frecuencia absoluta) es 55.

El primer cuartil de las edades que corresponde al 25% de los datos es 29.75, el segundo del 50% equivale a 39.50 y en 75% 55.00, gracias a esta division de 4 partes iguales se puede interpretar cuantos datos están por encima y por debajo de cada cuartil.

El valor máximo de las edades es 65, pues de todo el conjunto de datos, la edad máxima es esa y el mínimo 20, todo lo opuesto a lo ya mencionado.

El rango es de 65-20=45, demostrando la diferencia entre el valor máximo y el mínimo.

Mediante el histograma se interpretan las frecuencias de las edades. Al visualizarlo da a entender de manera gráfica que las edades de mayor repetición son las de entre 20-25 con una frecuencia igual a 10, y entre 50-55 en la misma frecuencia.

El diagrama de bigotes o boxplot representa los valores de la mediana de edades con linea en medio, los valores de cuartiles y los extremos mínimo y máximo de un conjunto de datos. Refleja la cantidad de datos (el cuadro) que están por encima o por debajo de la mediana o cuartiles.

Las medidas de tendencia central de los otros dos conjuntos de datos, dan a entender lo mismo, solo que se especifican otros numero, los cuales son:

Sueldos

  • Media: 29444.72 (distribución es asimétrica con un sesgo positivo a la derecha).

  • Mediana: 29630 (tercer cuartil)

  • Moda: 26134

  • Cuartiles: 25% 19063, 50% 29630 y 75% 39477

  • Valor máximo: 49754

  • Valor mínimo:10076

  • rango: 49754-10076= 39678

  • Histograma: el sueldo de 10000 tiene una mayor frecuencia

Edades

  • Media: 85.31 (distribución es asimétrica con un sesgo positivo a la derecha).

  • Mediana: 85 (tercer cuartil)

  • Moda: 100

  • Cuartiles: 25% 77, 50% 85 y 75% 93

  • Valor máximo: 100

  • Valor mínimo: 70

  • Rango: 100-70=30

  • Histograma: la calificación que se repite mas veces es la de 70