Determinar, interpretar y visualizar medidas de tendencia central de un conjunto de datos de edades, sueldos y calificaciones respectivamente.
Cargar tres conjuntos de datos:
edades
sueldos
calificaciones
Generar datos aleatoriamente mediante la función sample() anteponiendo semilla con valor de 2021 con la función set.seed(2021) para generar valores iguales al momento de construir los documentos markdown.
Identificar estadísticos descriptivos de la media, mediana, moda, valores máximos y mínimos, rango, cuartiles y visualizar los datos mediante histograma y diagrama de caja o bigotes.
Utilizar la función summary() para comprobar los estadísticos encontrados.
Realizar la interpretación correspondiente de cada conjunto de datos.
Para los tres conjuntos de datos, se siembre una semilla para generar datos aleatorios.
set.seed(2021) # Semilla
Una muestra del contexto de edades de personas entre 18 y 65 años. Se generan 50 datos.
edades <- sample(18:65, 50, replace = TRUE)
edades
## [1] 24 55 63 56 29 23 55 55 63 22 64 56 58 40 29 35 20 63 57 43 53 54 39 48 65
## [26] 51 36 21 39 22 26 55 35 60 23 39 23 32 51 39 33 32 41 34 55 54 37 21 47 25
La media se determina mediante la función mean() y la mediana con la función median().
media.edades <- mean(edades)
mediana.edades <- median(edades)
media.edades
## [1] 42
mediana.edades
## [1] 39.5
Cuando el valor de la media y la mediana so igual es la distribución de los datos es simétrica.
Si el valor de la media es mayor que la mediana la distribución es asimetrica con un sesgo positivo a la derecha.
Por el contrario si el valor de la media es menor que la mediana, entonces la distribución es asimétrica con un sesgo negativo a la izquierda.
La moda se puede usar la función table() o utilizar la función mfv(x) del paquete modeest. Se carga la librería o paquete modest previa instalación con la función install.packages(“modeest”).
#library(modeest)
#moda.edades <- mfv(edades)
#moda.edades
Con la función table() se encuentra la frecuencia de cada valor
frecuencias.edades <- table(edades)
frecuencias.edades
## edades
## 20 21 22 23 24 25 26 29 32 33 34 35 36 37 39 40 41 43 47 48 51 53 54 55 56 57
## 1 2 2 3 1 1 1 2 2 1 1 2 1 1 4 1 1 1 1 1 2 1 2 5 2 1
## 58 60 63 64 65
## 1 1 3 1 1
Con las funciones max() y min() se determinan los valores máximos y mínimos de u conjunto de datos
max.edades <- max(edades)
min.edades <- min(edades)
max.edades
## [1] 65
min.edades
## [1] 20
El rango significa el intervalo de los datos entre el valor máximo y mínimo.
rango.edades <- range(edades)
rango.edades
## [1] 20 65
intervalo <- rango.edades[2] - rango.edades[1]
intervalo
## [1] 45
max(edades)-min(edades)
## [1] 45
Se determinan los cuartiles mediante la función quantile(). Los cuartiles significa medidas de localización dentro de un conjunto de datos, sirven para interpretar cuántos datos están por encima y por debajo de cada cuartil.
EL cuartil al 50% debe ser igual a la mediana.
cuartiles.edades <- quantile(edades, c(0.25, 0.50, 0.75))
cuartiles.edades
## 25% 50% 75%
## 29.75 39.50 55.00
El histograma refleja la distribución de los datos
hist(edades, main = "Histograma de edades", xlab = "Edades", ylab = "Frecuencia")
Diagrama de bigotes o boxplot representa los valores de la mediana con linea en medio, los valores de cuartiles y los extremos mínimo y máximo de un conjunto de datos. Refleja la cantidad de datos (el cuadro) que están por encima o por debajo de la mediana o cuartiles.
boxplot(edades, horizontal = TRUE,
main="Edades")
La función summary() genera los estadísticos descriptivos básicos de un conjunto de datos.
resumen <- summary(edades)
resumen
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 20.00 29.75 39.50 42.00 55.00 65.00
Una muestra del contexto de edades de personas entre 18 y 65 años. Se generan 500 datos.
sueldos <- sample(10000:50000, 500, replace = TRUE)
sueldos
## [1] 13138 39816 28942 36778 24243 36062 44319 28731 25386 38428 23170 40794
## [13] 26918 13029 26989 30764 23936 24205 45954 13400 36746 26207 38858 42412
## [25] 12367 49480 24637 27920 47236 31612 40066 11733 23396 16694 25524 32004
## [37] 32705 17122 48656 46692 40762 18100 27476 36567 18076 28103 28356 23522
## [49] 14420 23781 45788 16028 12232 32517 45395 15240 40768 12245 12226 37385
## [61] 49591 37927 20903 27598 36569 31654 17818 11559 43479 29394 34456 35649
## [73] 45358 22126 32427 21248 18016 34175 48830 30983 44589 23722 40216 28885
## [85] 21812 13132 13478 23565 12993 31601 32148 36177 41527 20997 21254 12322
## [97] 39837 48642 21317 42089 15065 23403 23219 34673 17542 38027 40789 39021
## [109] 11330 48020 27536 30678 26134 24048 36795 42408 16872 19770 43238 19744
## [121] 11339 39381 28451 42290 48769 31502 12528 34592 32249 16549 40216 21080
## [133] 20762 44601 22248 40277 34801 41512 14761 14584 11469 21475 13549 22111
## [145] 45688 42681 11946 29660 30741 20855 40614 10261 28772 44403 27327 26723
## [157] 42207 23800 33555 15101 36430 37098 15534 26182 46084 34664 13720 41059
## [169] 29909 15613 39120 13907 44155 32805 46489 47959 47530 30970 12013 18201
## [181] 22592 14706 34083 11346 21761 36746 23013 17643 27053 38619 37849 39480
## [193] 35152 36188 39322 18541 16394 39455 44334 19956 11845 41388 11200 13829
## [205] 15271 36534 22153 34534 10076 12646 24935 31515 10112 35007 15014 30008
## [217] 45128 15365 35248 25051 30716 46072 26015 23345 12698 38153 38450 11933
## [229] 40735 25073 26914 28831 13009 41483 31617 12678 32687 15447 27148 41248
## [241] 31839 43235 36810 32958 19957 41880 39687 47916 38169 42512 27850 15359
## [253] 20688 36225 44560 40600 45466 18306 47801 11326 38091 32570 41024 49129
## [265] 10534 36770 18161 48611 37916 33505 29714 13855 21137 25388 36693 13176
## [277] 12479 48700 23613 45803 12290 39372 25860 16454 49492 39749 46735 31150
## [289] 12899 13735 26134 17031 40144 33416 42152 26157 37574 25332 22586 21291
## [301] 12876 42851 46742 13099 10678 25920 24031 32285 32843 14324 33055 33660
## [313] 19941 49481 24692 40411 12030 31181 32466 37636 26286 22414 21878 47557
## [325] 36721 22237 28416 12191 19883 23728 33958 36518 46109 45561 21059 40575
## [337] 15770 31699 38954 45449 48462 47299 16683 29937 30103 38291 46577 45631
## [349] 12299 11928 16568 35450 33667 47501 14042 13497 23674 18042 10892 32600
## [361] 38060 40794 39476 42561 49549 13662 28091 26616 30085 49428 41952 12611
## [373] 44569 38569 14068 38026 13298 37994 27251 27526 16604 18343 27213 35728
## [385] 41700 17695 19880 16631 37711 18028 17517 31671 10872 10848 41574 24863
## [397] 27221 22378 36519 10697 41307 24495 30690 14658 46781 49241 22635 39115
## [409] 42190 20548 37234 38070 23506 44748 49754 46228 41651 40882 18202 15002
## [421] 10808 29259 18336 23538 29195 45237 42951 21748 11922 40843 25874 11020
## [433] 28888 37039 19454 32681 17735 14172 42221 38187 48174 23770 25196 46080
## [445] 49622 48142 24440 44980 41407 10511 38040 26672 14418 41847 12936 29638
## [457] 17072 45060 44984 20629 23083 13691 39227 29748 13395 21209 30192 21896
## [469] 38376 17723 48292 29622 25618 32081 15269 30005 15675 46609 47481 37628
## [481] 28585 14297 11440 47614 23988 44576 43910 30413 34250 45377 11909 14650
## [493] 19237 27007 39490 22859 22186 17854 47233 34602
La media se determina mediante la función mean() y la mediana con la función median().
media.sueldos <- mean(sueldos)
mediana.sueldos <- median(sueldos)
media.sueldos
## [1] 29444.72
mediana.sueldos
## [1] 29630
Cuando el valor de la media y la mediana so igual es la distribución de los datos es simétrica.
Si el valor de la media es mayor que la mediana la distribución es asimetrica con un sesgo positivo a la derecha.
Por el contrario si el valor de la media es menor que la mediana, entonces la distribución es asimétrica con un sesgo negativo a la izquierda.
La moda se puede usar la función table() o utilizar la función mfv(x) del paquete modeest. Se carga la librería o paquete modest previa instalación con la función install.packages(“modeest”).
#library(modeest)
#moda.edades <- mfv(edades)
#moda.edades
Con la función table() se encuentra la frecuencia de cada valor
frecuencias.sueldos <- table(sueldos)
frecuencias.sueldos
## sueldos
## 10076 10112 10261 10511 10534 10678 10697 10808 10848 10872 10892 11020 11200
## 1 1 1 1 1 1 1 1 1 1 1 1 1
## 11326 11330 11339 11346 11440 11469 11559 11733 11845 11909 11922 11928 11933
## 1 1 1 1 1 1 1 1 1 1 1 1 1
## 11946 12013 12030 12191 12226 12232 12245 12290 12299 12322 12367 12479 12528
## 1 1 1 1 1 1 1 1 1 1 1 1 1
## 12611 12646 12678 12698 12876 12899 12936 12993 13009 13029 13099 13132 13138
## 1 1 1 1 1 1 1 1 1 1 1 1 1
## 13176 13298 13395 13400 13478 13497 13549 13662 13691 13720 13735 13829 13855
## 1 1 1 1 1 1 1 1 1 1 1 1 1
## 13907 14042 14068 14172 14297 14324 14418 14420 14584 14650 14658 14706 14761
## 1 1 1 1 1 1 1 1 1 1 1 1 1
## 15002 15014 15065 15101 15240 15269 15271 15359 15365 15447 15534 15613 15675
## 1 1 1 1 1 1 1 1 1 1 1 1 1
## 15770 16028 16394 16454 16549 16568 16604 16631 16683 16694 16872 17031 17072
## 1 1 1 1 1 1 1 1 1 1 1 1 1
## 17122 17517 17542 17643 17695 17723 17735 17818 17854 18016 18028 18042 18076
## 1 1 1 1 1 1 1 1 1 1 1 1 1
## 18100 18161 18201 18202 18306 18336 18343 18541 19237 19454 19744 19770 19880
## 1 1 1 1 1 1 1 1 1 1 1 1 1
## 19883 19941 19956 19957 20548 20629 20688 20762 20855 20903 20997 21059 21080
## 1 1 1 1 1 1 1 1 1 1 1 1 1
## 21137 21209 21248 21254 21291 21317 21475 21748 21761 21812 21878 21896 22111
## 1 1 1 1 1 1 1 1 1 1 1 1 1
## 22126 22153 22186 22237 22248 22378 22414 22586 22592 22635 22859 23013 23083
## 1 1 1 1 1 1 1 1 1 1 1 1 1
## 23170 23219 23345 23396 23403 23506 23522 23538 23565 23613 23674 23722 23728
## 1 1 1 1 1 1 1 1 1 1 1 1 1
## 23770 23781 23800 23936 23988 24031 24048 24205 24243 24440 24495 24637 24692
## 1 1 1 1 1 1 1 1 1 1 1 1 1
## 24863 24935 25051 25073 25196 25332 25386 25388 25524 25618 25860 25874 25920
## 1 1 1 1 1 1 1 1 1 1 1 1 1
## 26015 26134 26157 26182 26207 26286 26616 26672 26723 26914 26918 26989 27007
## 1 2 1 1 1 1 1 1 1 1 1 1 1
## 27053 27148 27213 27221 27251 27327 27476 27526 27536 27598 27850 27920 28091
## 1 1 1 1 1 1 1 1 1 1 1 1 1
## 28103 28356 28416 28451 28585 28731 28772 28831 28885 28888 28942 29195 29259
## 1 1 1 1 1 1 1 1 1 1 1 1 1
## 29394 29622 29638 29660 29714 29748 29909 29937 30005 30008 30085 30103 30192
## 1 1 1 1 1 1 1 1 1 1 1 1 1
## 30413 30678 30690 30716 30741 30764 30970 30983 31150 31181 31502 31515 31601
## 1 1 1 1 1 1 1 1 1 1 1 1 1
## 31612 31617 31654 31671 31699 31839 32004 32081 32148 32249 32285 32427 32466
## 1 1 1 1 1 1 1 1 1 1 1 1 1
## 32517 32570 32600 32681 32687 32705 32805 32843 32958 33055 33416 33505 33555
## 1 1 1 1 1 1 1 1 1 1 1 1 1
## 33660 33667 33958 34083 34175 34250 34456 34534 34592 34602 34664 34673 34801
## 1 1 1 1 1 1 1 1 1 1 1 1 1
## 35007 35152 35248 35450 35649 35728 36062 36177 36188 36225 36430 36518 36519
## 1 1 1 1 1 1 1 1 1 1 1 1 1
## 36534 36567 36569 36693 36721 36746 36770 36778 36795 36810 37039 37098 37234
## 1 1 1 1 1 2 1 1 1 1 1 1 1
## 37385 37574 37628 37636 37711 37849 37916 37927 37994 38026 38027 38040 38060
## 1 1 1 1 1 1 1 1 1 1 1 1 1
## 38070 38091 38153 38169 38187 38291 38376 38428 38450 38569 38619 38858 38954
## 1 1 1 1 1 1 1 1 1 1 1 1 1
## 39021 39115 39120 39227 39322 39372 39381 39455 39476 39480 39490 39687 39749
## 1 1 1 1 1 1 1 1 1 1 1 1 1
## 39816 39837 40066 40144 40216 40277 40411 40575 40600 40614 40735 40762 40768
## 1 1 1 1 2 1 1 1 1 1 1 1 1
## 40789 40794 40843 40882 41024 41059 41248 41307 41388 41407 41483 41512 41527
## 1 2 1 1 1 1 1 1 1 1 1 1 1
## 41574 41651 41700 41847 41880 41952 42089 42152 42190 42207 42221 42290 42408
## 1 1 1 1 1 1 1 1 1 1 1 1 1
## 42412 42512 42561 42681 42851 42951 43235 43238 43479 43910 44155 44319 44334
## 1 1 1 1 1 1 1 1 1 1 1 1 1
## 44403 44560 44569 44576 44589 44601 44748 44980 44984 45060 45128 45237 45358
## 1 1 1 1 1 1 1 1 1 1 1 1 1
## 45377 45395 45449 45466 45561 45631 45688 45788 45803 45954 46072 46080 46084
## 1 1 1 1 1 1 1 1 1 1 1 1 1
## 46109 46228 46489 46577 46609 46692 46735 46742 46781 47233 47236 47299 47481
## 1 1 1 1 1 1 1 1 1 1 1 1 1
## 47501 47530 47557 47614 47801 47916 47959 48020 48142 48174 48292 48462 48611
## 1 1 1 1 1 1 1 1 1 1 1 1 1
## 48642 48656 48700 48769 48830 49129 49241 49428 49480 49481 49492 49549 49591
## 1 1 1 1 1 1 1 1 1 1 1 1 1
## 49622 49754
## 1 1
Con las funciones max() y min() se determinan los valores máximos y mínimos de u conjunto de datos
max.sueldos <- max(sueldos)
min.sueldos <- min(sueldos)
max.sueldos
## [1] 49754
min.sueldos
## [1] 10076
El rango significa el intervalo de los datos entre el valor máximo y mínimo.
rango.sueldos <- range(sueldos)
rango.sueldos
## [1] 10076 49754
intervalo <- rango.sueldos[2] - rango.sueldos[1]
intervalo
## [1] 39678
max(sueldos)-min(sueldos)
## [1] 39678
Se determinan los cuartiles mediante la función quantile(). Los cuartiles significa medidas de localización dentro de un conjunto de datos, sirven para interpretar cuántos datos están por encima y por debajo de cada cuartil.
EL cuartil al 50% debe ser igual a la mediana.
cuartiles.sueldos <- quantile(sueldos, c(0.25, 0.50, 0.75))
cuartiles.sueldos
## 25% 50% 75%
## 19063 29630 39477
El histograma refleja la distribución de los datos
hist(sueldos, main = "Histograma de sueldos", xlab = "Sueldos", ylab = "Frecuencia")
Diagrama de bigotes o boxplot representa los valores de la mediana con linea en medio, los valores de cuartiles y los extremos mínimo y máximo de un conjunto de datos. Refleja la cantidad de datos (el cuadro) que están por encima o por debajo de la mediana o cuartiles.
boxplot(sueldos, horizontal = TRUE,
main="Sueldos")
La función summary() genera los estadísticos descriptivos básicos de un conjunto de datos.
resumen <- summary(sueldos)
resumen
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 10076 19063 29630 29445 39477 49754
Una muestra del contexto de calificaciones de entre 70 y 100 de estudiantes del ITD. Se generan 100 datos.
calificaciones <- sample(70: 100, 100, replace = TRUE)
calificaciones
## [1] 99 90 83 80 71 75 71 94 72 95 75 81 98 73 100 73 93 89
## [19] 99 89 86 99 94 89 91 100 70 94 72 98 78 93 88 82 98 94
## [37] 82 99 82 74 91 100 100 99 77 89 90 77 84 91 73 86 90 100
## [55] 73 77 70 77 76 84 97 76 72 81 93 84 88 100 100 90 79 83
## [73] 98 93 90 71 85 85 81 82 82 82 85 75 80 85 86 85 81 82
## [91] 96 89 74 75 73 70 71 100 72 93
La media se determina mediante la función mean() y la mediana con la función median().
media.calificaciones <- mean(calificaciones)
mediana.calificaciones <- median(calificaciones)
media.calificaciones
## [1] 85.31
mediana.calificaciones
## [1] 85
Cuando el valor de la media y la mediana so igual es la distribución de los datos es simétrica.
Si el valor de la media es mayor que la mediana la distribución es asimetrica con un sesgo positivo a la derecha.
Por el contrario si el valor de la media es menor que la mediana, entonces la distribución es asimétrica con un sesgo negativo a la izquierda.
La moda se puede usar la función table() o utilizar la función mfv(x) del paquete modeest. Se carga la librería o paquete modest previa instalación con la función install.packages(“modeest”).
#library(modeest)
#moda.edades <- mfv(edades)
#moda.edades
Con la función table() se encuentra la frecuencia de cada valor
frecuencias.calificaciones <- table(calificaciones)
frecuencias.calificaciones
## calificaciones
## 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 88 89 90
## 3 4 4 5 2 4 2 4 1 1 2 4 7 2 3 5 3 2 5 5
## 91 93 94 95 96 97 98 99 100
## 3 5 4 1 1 1 4 5 8
Con las funciones max() y min() se determinan los valores máximos y mínimos de u conjunto de datos
max.calificaciones <- max(calificaciones)
min.calificaciones <- min(calificaciones)
max.calificaciones
## [1] 100
min.calificaciones
## [1] 70
El rango significa el intervalo de los datos entre el valor máximo y mínimo.
rango.calificaciones <- range(calificaciones)
rango.calificaciones
## [1] 70 100
intervalo <- rango.calificaciones[2] - rango.calificaciones[1]
intervalo
## [1] 30
max(calificaciones)-min(calificaciones)
## [1] 30
Se determinan los cuartiles mediante la función quantile(). Los cuartiles significa medidas de localización dentro de un conjunto de datos, sirven para interpretar cuántos datos están por encima y por debajo de cada cuartil.
EL cuartil al 50% debe ser igual a la mediana.
cuartiles.calificaciones <- quantile(calificaciones, c(0.25, 0.50, 0.75))
cuartiles.calificaciones
## 25% 50% 75%
## 77 85 93
El histograma refleja la distribución de los datos
hist(calificaciones, main = "Histograma de calificaciones", xlab = "Calificaciones", ylab = "Frecuencia")
Diagrama de bigotes o boxplot representa los valores de la mediana con linea en medio, los valores de cuartiles y los extremos mínimo y máximo de un conjunto de datos. Refleja la cantidad de datos (el cuadro) que están por encima o por debajo de la mediana o cuartiles.
boxplot(calificaciones, horizontal = TRUE,
main="Sueldos")
La función summary() genera los estadísticos descriptivos básicos de un conjunto de datos.
resumen <- summary(calificaciones)
resumen
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 70.00 77.00 85.00 85.31 93.00 100.00
Responder de manera descriptiva con sus palabras a las siguientes preguntas:
¿Cuáles son los valores de media, mediana y moda y qué significan en el conjunto de datos de edades, sueldos y calificaciones?
Edades: la media de los datos es de 42, mientras que la mediana es de 39.5y la moda que en este caso es de 39 con una frecuencia de 4 significa que esa es la edad que mas se repite
Sueldos: tenemos una media de 29444.72 que es el promedio de lo que ganan las personas de nuestra muestra y una media de 29630 y una moda de 26134 con una repeticion de 2
Calificaciones: la media en este caso es de 85.31 que es la suma de todas las calificaciones sobre el numero de calificados, tenemos una mediana de 85 y una moda de 82 con una frecuencia de 7 el cual es el numero de personas que sacaron la misma calificacion
¿Cuáles son los valores de los cuartiles para cada conjunto de datos y qué signfican?
Edades: el 25% de nuesra muestra lo tienen los datos hasta la cantidad 29.75 el cual es nuestro primer cuartil, del 25 al 50% estan las cantidades desde 29.75 hasta 39.50 el cual es el mismo valor que nuestra media, del 50 al 75% las edades desde 39.50 hasta 55 y del 75 al 100% estan el resto de edades
Sueldos: 0% - 25%:sueldo minimo - 19063 25% - 50%: 19063 - 29630 50% - 75%: 29630 - 39477 75% - 100%: 39477 - sueldo maximo
Calificaciones: 0% - 25%:calificacion minima - 77 25% - 50%: 77 - 85 50% - 75%: 85 - 93 75% - 100%: 93 - calificacion maxima
¿Cuáles son los valores máximos, mínimos y el rango de cada conjunto de datos y qué significa? El rango es la diferencia entre el mayor y menor dato de nuestra muestra Edades: minimo: 20 maximo: 65 rango: 42
Sueldos: minimo:10076 maximo: 49754 rango: 39678
Calificaciones: minimo: 70 maximo: 100 rango: 30
¿Para qué sirve o cómo se interpreta un histograma de datos?; ¿cuál es el significado de cada histograma en cada conjunto de datos? Un histograma de datos sirve para ver los resultados de una forma mas agradable a la vista y asi poder facilitar su comprencion
¿Cómo se interpreta el diagrama de boxplot() o diagrama de bigotes?, ¿qué significado tiene en cada conjunto de datos? Este diagrama nos muestra de una forma mas visual los resultados de los cuartiles, los extremos representan los valores minimo y maximo respectivamente, y la linea negra representa la media al igual que el 2do cuartil o el 50%