Determinar, interpretar y visualizar medidas de tendencia central de un conjunto de datos de edades, sueldos y calificaciones respectivamente.
Cargar tres conjuntos de datos:
Edades
Sueldos
Calificaciones
Generar datos aleatoriamente mediante la función sample() anteponiendo semilla con valor de 2021 con la función set.seed(2021) para generar valores iguales al momento de construir los documentos markdown.
Identificar estadísticos descriptivos de la media, mediana, moda, valores máximos y mínimos, rango, cuartiles y visualizar los datos mediante histograma y diagrama de caja o bigotes.
Utilizar la función summary() para comprobar los estadísticos encontrados.
Realizar la interpretación correspondiente de cada conjunto de datos.
Para los tres conjuntos de datos, siembre una semilla para generar datos aleatorios.
set.seed(2021)
Una muestra del contexto de edades de personas entre 18 y 65 años. Se generan 50 datos.
edades<-sample(18:65, 50, replace=TRUE)
edades
La media se determina mediante la función mean() y la mediana con la función median().
media.edades<-mean(edades)
media.edades
mediana.edades<-median(edades)
mediana.edades
Cuando el valor de la media y la mediana son iguales la distribución de los datos es simétrica.
Si el valor de la media es mayor que la mediana la distribución es asimetrica con un sesgo positivo a la derecha.
Por el contrario si el valor de la media es menor que la mediana, entonces la distribución es asimétrica con un sesgo negativo a la izquierda.
La moda se puede usar con la función table() o utilizar la función mfv(x) del paquete modeest. Se carga la librería o paquete modest previa instalación con la función install.packages(“modeest”).
library(modeest)
moda.edades<-mfv(edades)
moda.edades
Con la función table() se encuentra la frecuencia de cada valor.
frecuencias.edades<-table(edades)
frecuencias.edades
Con las funciones max() y min() se determinan los valores máximos y mínimos de un conjunto de datos.
max.edades<-max(edades)
max.edades
min.edades<-min(edades)
min.edades
Se determinan los cuartiles mediante la función quantile(). Los cuartiles significan medidas de localización dentro de un conjunto de datos, sirven para interpretar cuantos datos están por encima y por debajo de cada cuartil.
El cuartil al 50% debe ser igual a la mediana.
cuartiles.edades<-quantile(edades, c(0.25, 0.50, 0.75))
cuartiles.edades
El rango significa el intervalo de los datos entre el valor máximo y el mínimo.
rango.edades<-range(edades)
rango.edades
intervalo<-rango.edades[2]-rango.edades[1]
intervalo
max(edades)-min(edades)
El histograma refleja la distribución de los datos.
hist(edades, main = "Histograma de edades", xlab = "Edades", ylab = "Frecuencia")
boxplot(edades, horizontal = TRUE)
La función summary genera los estadísticos descriptivos básicos de un conjunto de datos.
resumen <- summary(edades)
resumen
Una muestra del contexto de sueldos entre 10000 y 50000 pesos. Se generan 500 datos.
sueldos<-sample(10000:50000, 500, replace=TRUE)
sueldos
La media se determina mediante la función mean() y la mediana con la función median().
media.sueldos<-mean(sueldos)
media.sueldos
mediana.sueldos<-median(sueldos)
mediana.sueldos
La moda se puede usar con la función table() o utilizar la función mfv(x) del paquete modeest. Se carga la librería o paquete modest previa instalación con la función install.packages(“modeest”).
library(modeest)
moda.sueldos<-mfv(sueldos)
moda.sueldos
Con la función table() se encuentra la frecuencia de cada valor
frecuencias.sueldos<-table(sueldos)
frecuencias.sueldos
Con las funciones max() y min() se determinan los valores máximos y mínimos de un conjunto de datos.
max.sueldos<-max(sueldos)
max.sueldos
min.sueldos<-min(sueldos)
min.sueldos
rango.sueldos <- range(sueldos)
rango.sueldos
intervalo <- rango.sueldos[2] - rango.sueldos[1]
intervalo
max(sueldos)-min(sueldos)
Se determinan los cuartiles mediante la función quantile().
cuartiles.sueldos <- quantile(sueldos, c(0.25, 0.50, 0.75))
cuartiles.sueldos
El histograma refleja la distribución de los datos.
hist(sueldos, main = "Histograma de sueldos", xlab = "sueldos", ylab = "Frecuencia")
Diagrama de bigotes o boxplot representa los valores de la mediana con linea en medio, los valores de cuartiles y los extremos mínimo y máximo de un conjunto de datos. Refleja la cantidad de datos (el cuadro) que están por encima o por debajo de la mediana o cuartiles.
boxplot(sueldos, horizontal = TRUE,
main="sueldos")
La función summary() genera los estadísticos descriptivos básicos de un conjunto de datos.
resumen <- summary(sueldos)
resumen
Una muestra del contexto de calificaciones de entre 70 y 100 estudiantes del ITD. Se generan 100 datos.
calificaciones <- sample(70: 100, 100, replace = TRUE)
calificaciones
La media se determina mediante la función mean() y la mediana con la función median().
media.calificaciones<-mean(calificaciones)
media.calificaciones
mediana.calificaciones<-median(calificaciones)
mediana.calificaciones
La moda se puede usar con la función table() o utilizar la función mfv(x) del paquete modeest. Se carga la librería o paquete modest previa instalación con la función install.packages(“modeest”).
library(modeest)
moda.calificaciones<-mfv(calificaciones)
moda.calificaciones
Con la función table() se encuentra la frecuencia de cada valor.
frecuencias.calificaciones <- table(calificaciones)
frecuencias.calificaciones
Con las funciones max() y min() se determinan los valores máximos y mínimos de u conjunto de datos.
max.calificaciones <- max(calificaciones)
max.calificaciones
min.calificaciones <- min(calificaciones)
min.calificaciones
El rango significa el intervalo de los datos entre el valor máximo y mínimo.
rango.calificaciones <- range(calificaciones)
rango.calificaciones
intervalo <- rango.calificaciones[2] - rango.calificaciones[1]
intervalo
max(calificaciones)-min(calificaciones)
Se determinan los cuartiles mediante la función quantile(). Los cuartiles significa medidas de localización dentro de un conjunto de datos, sirven para interpretar cuántos datos están por encima y por debajo de cada cuartil.
cuartiles.calificaciones <- quantile(calificaciones, c(0.25, 0.50, 0.75))
cuartiles.calificaciones
El histograma refleja la distribución de los datos.
hist(calificaciones, main = "Histograma de calificaciones", xlab = "Calificaciones", ylab = "Frecuencia")
Diagrama de bigotes o boxplot representa los valores de la mediana con linea en medio, los valores de cuartiles y los extremos mínimo y máximo de un conjunto de datos. Refleja la cantidad de datos (el cuadro) que están por encima o por debajo de la mediana o cuartiles.
boxplot(calificaciones, horizontal = TRUE,
main="Calificaciones")
La función summary() genera los estadísticos descriptivos básicos de un conjunto de datos.
resumen <- summary(calificaciones)
resumen
El análisis descriptivo arrojo que la media del conjunto de datos “edades” fue mayor a su mediana con un promedio de 42, así se establece que la distribución es asimétrica con un sesgo positivo a la derecha.
El valor de la mediana es 39.5, esto quiere decir que al momento de partir los valores a la mitad, ese numero quedaría justo en medio, y es igual al segundo cuartil que equivale al 50%. Mientras que el resultado de la moda (valor de mayor frecuencia absoluta) es 55.
El primer cuartil de las edades que corresponde al 25% de los datos es 29.75, el segundo del 50% equivale a 39.50 y en 75% 55.00, gracias a esta division de 4 partes iguales se puede interpretar cuantos datos están por encima y por debajo de cada cuartil.
El valor máximo de las edades es 65, pues de todo el conjunto de datos, la edad máxima es esa y el mínimo 20, todo lo opuesto a lo ya mencionado.
El rango es de 65-20=45, demostrando la diferencia entre el valor máximo y el mínimo.
Mediante el histograma se interpretan las frecuencias de las edades. Al visualizarlo da a entender de manera gráfica que las edades de mayor repetición son las de entre 20-25 con una frecuencia igual a 10, y entre 50-55 en la misma frecuencia.
El diagrama de bigotes o boxplot representa los valores de la mediana de edades con linea en medio, los valores de cuartiles y los extremos mínimo y máximo de un conjunto de datos. Refleja la cantidad de datos (el cuadro) que están por encima o por debajo de la mediana o cuartiles.
Las medidas de tendencia central de los otros dos conjuntos de datos, dan a entender lo mismo, solo que se especifican otros numero, los cuales son:
Media: 29444.72 (distribución es asimétrica con un sesgo positivo a la derecha).
Mediana: 29630 (tercer cuartil)
Moda: 26134
Cuartiles: 25% 19063, 50% 29630 y 75% 39477
Valor máximo: 49754
Valor mínimo:10076
rango: 49754-10076= 39678
Histograma: el sueldo de 10000 tiene una mayor frecuencia
Media: 85.31 (distribución es asimétrica con un sesgo positivo a la derecha).
Mediana: 85 (tercer cuartil)
Moda: 100
Cuartiles: 25% 77, 50% 85 y 75% 93
Valor máximo: 100
Valor mínimo: 70
Rango: 100-70=30
Histograma: la calificación que se repite mas veces es la de 70