Objetivo

Determinar, interpretar y visualizar medidas de tendencia central de un conjunto de datos de edades, sueldos y calificaciones respectivamente.

Descripción

Cargar tres conjuntos de datos:

Generar datos aleatoriamente mediante la función sample() anteponiendo semilla con valor de 2021 con la función set.seed(2021) para generar valores iguales al momento de construir los documentos markdown.

Identificar estadísticos descriptivos de la media, mediana, moda, valores máximos y mínimos, rango, cuartiles y visualizar los datos mediante histograma y diagrama de caja o bigotes.

Utilizar la función summary() para comprobar los estadísticos encontrados.

Realizar la interpretación correspondiente de cada conjunto de datos.

Desarrollo

Para los tres conjuntos de datos, se siembre una semilla para generar datos aleatorios.

set.seed(2021) # Semilla

Edades

La muestra de edades

Una muestra del contexto de edades de personas entre 18 y 65 años. Se generan 50 datos.

edades <- sample(18:65, 50, replace = TRUE)
edades
##  [1] 24 55 63 56 29 23 55 55 63 22 64 56 58 40 29 35 20 63 57 43 53 54 39 48 65
## [26] 51 36 21 39 22 26 55 35 60 23 39 23 32 51 39 33 32 41 34 55 54 37 21 47 25

Media, mediana

La media se determina mediante la función mean() y la mediana con la función median().

media.edades <- mean(edades)
mediana.edades <- median(edades)

media.edades
## [1] 42
mediana.edades
## [1] 39.5

Cuando el valor de la media y la mediana so igual es la distribución de los datos es simétrica.

Si el valor de la media es mayor que la mediana la distribución es asimetrica con un sesgo positivo a la derecha.

Por el contrario si el valor de la media es menor que la mediana, entonces la distribución es asimétrica con un sesgo negativo a la izquierda.

Moda

La moda se puede usar la función table() o utilizar la función mfv(x) del paquete modeest. Se carga la libraría o paquete modest previa instalación con la función install.packages(“modeest”).

library(modeest)
moda.edades <- mfv(edades)
moda.edades
## [1] 55

Con la función table() se encuentra la frecuencia de cada valor

frecuencias.edades <- table(edades)
frecuencias.edades
## edades
## 20 21 22 23 24 25 26 29 32 33 34 35 36 37 39 40 41 43 47 48 51 53 54 55 56 57 
##  1  2  2  3  1  1  1  2  2  1  1  2  1  1  4  1  1  1  1  1  2  1  2  5  2  1 
## 58 60 63 64 65 
##  1  1  3  1  1

Valores máximos y mínimos

Con las funciones max() y min() se determinan los valores máximos y mínimos de u conjunto de datos

max.edades <- max(edades)
min.edades <- min(edades)

max.edades
## [1] 65
min.edades
## [1] 20

Rango

El rango significa el intervalo de los datos entre el valor máximo y mínimo.

rango.edades <- range(edades)
rango.edades
## [1] 20 65
intervalo <- rango.edades[2] - rango.edades[1]
intervalo
## [1] 45
max(edades)-min(edades) 
## [1] 45

Cuartiles

Se determinan los cuartiles mediante la función quantile(). Los cuartiles significa medidas de localización dentro de un conjunto de datos, sirven para interpretar cuántos datos están por encima y por debajo de cada cuartil.

EL cuartil al 50% debe ser igual a la mediana.

cuartiles.edades <- quantile(edades, c(0.25, 0.50, 0.75))
cuartiles.edades
##   25%   50%   75% 
## 29.75 39.50 55.00

Histograma

El histograma refleja la distribución de los datos

hist(edades, main = "Histograma de edades", xlab = "Edades", ylab = "Frecuencia")

Boxplot

Diagrama de bigotes o boxplot representa los valores de la mediana con linea en medio, los valores de cuartiles y los extremos mínimo y máximo de un conjunto de datos. Refleja la cantidad de datos (el cuadro) que están por encima o por debajo de la mediana o cuartiles.

boxplot(edades, horizontal = TRUE, 
        main="Edades")

summary()

La función summary() genera los estadísticos descriptivos básicos de un conjunto de datos.

resumen <- summary(edades)
resumen
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   20.00   29.75   39.50   42.00   55.00   65.00

Sueldos

Una muestra del contexto de edades de personas entre 18 y 65 años. Se generan 500 datos.

sueldos <- sample(10000:50000, 500, replace = TRUE)
sueldos
##   [1] 13138 39816 28942 36778 24243 36062 44319 28731 25386 38428 23170 40794
##  [13] 26918 13029 26989 30764 23936 24205 45954 13400 36746 26207 38858 42412
##  [25] 12367 49480 24637 27920 47236 31612 40066 11733 23396 16694 25524 32004
##  [37] 32705 17122 48656 46692 40762 18100 27476 36567 18076 28103 28356 23522
##  [49] 14420 23781 45788 16028 12232 32517 45395 15240 40768 12245 12226 37385
##  [61] 49591 37927 20903 27598 36569 31654 17818 11559 43479 29394 34456 35649
##  [73] 45358 22126 32427 21248 18016 34175 48830 30983 44589 23722 40216 28885
##  [85] 21812 13132 13478 23565 12993 31601 32148 36177 41527 20997 21254 12322
##  [97] 39837 48642 21317 42089 15065 23403 23219 34673 17542 38027 40789 39021
## [109] 11330 48020 27536 30678 26134 24048 36795 42408 16872 19770 43238 19744
## [121] 11339 39381 28451 42290 48769 31502 12528 34592 32249 16549 40216 21080
## [133] 20762 44601 22248 40277 34801 41512 14761 14584 11469 21475 13549 22111
## [145] 45688 42681 11946 29660 30741 20855 40614 10261 28772 44403 27327 26723
## [157] 42207 23800 33555 15101 36430 37098 15534 26182 46084 34664 13720 41059
## [169] 29909 15613 39120 13907 44155 32805 46489 47959 47530 30970 12013 18201
## [181] 22592 14706 34083 11346 21761 36746 23013 17643 27053 38619 37849 39480
## [193] 35152 36188 39322 18541 16394 39455 44334 19956 11845 41388 11200 13829
## [205] 15271 36534 22153 34534 10076 12646 24935 31515 10112 35007 15014 30008
## [217] 45128 15365 35248 25051 30716 46072 26015 23345 12698 38153 38450 11933
## [229] 40735 25073 26914 28831 13009 41483 31617 12678 32687 15447 27148 41248
## [241] 31839 43235 36810 32958 19957 41880 39687 47916 38169 42512 27850 15359
## [253] 20688 36225 44560 40600 45466 18306 47801 11326 38091 32570 41024 49129
## [265] 10534 36770 18161 48611 37916 33505 29714 13855 21137 25388 36693 13176
## [277] 12479 48700 23613 45803 12290 39372 25860 16454 49492 39749 46735 31150
## [289] 12899 13735 26134 17031 40144 33416 42152 26157 37574 25332 22586 21291
## [301] 12876 42851 46742 13099 10678 25920 24031 32285 32843 14324 33055 33660
## [313] 19941 49481 24692 40411 12030 31181 32466 37636 26286 22414 21878 47557
## [325] 36721 22237 28416 12191 19883 23728 33958 36518 46109 45561 21059 40575
## [337] 15770 31699 38954 45449 48462 47299 16683 29937 30103 38291 46577 45631
## [349] 12299 11928 16568 35450 33667 47501 14042 13497 23674 18042 10892 32600
## [361] 38060 40794 39476 42561 49549 13662 28091 26616 30085 49428 41952 12611
## [373] 44569 38569 14068 38026 13298 37994 27251 27526 16604 18343 27213 35728
## [385] 41700 17695 19880 16631 37711 18028 17517 31671 10872 10848 41574 24863
## [397] 27221 22378 36519 10697 41307 24495 30690 14658 46781 49241 22635 39115
## [409] 42190 20548 37234 38070 23506 44748 49754 46228 41651 40882 18202 15002
## [421] 10808 29259 18336 23538 29195 45237 42951 21748 11922 40843 25874 11020
## [433] 28888 37039 19454 32681 17735 14172 42221 38187 48174 23770 25196 46080
## [445] 49622 48142 24440 44980 41407 10511 38040 26672 14418 41847 12936 29638
## [457] 17072 45060 44984 20629 23083 13691 39227 29748 13395 21209 30192 21896
## [469] 38376 17723 48292 29622 25618 32081 15269 30005 15675 46609 47481 37628
## [481] 28585 14297 11440 47614 23988 44576 43910 30413 34250 45377 11909 14650
## [493] 19237 27007 39490 22859 22186 17854 47233 34602

Calificaciones

Una muestra del contexto de calificaciones de entre 70 y 100 de estudiantes del ITD. Se generan 100 datos.

calificaciones <- sample(70: 100, 100, replace = TRUE)
calificaciones
##   [1]  99  90  83  80  71  75  71  94  72  95  75  81  98  73 100  73  93  89
##  [19]  99  89  86  99  94  89  91 100  70  94  72  98  78  93  88  82  98  94
##  [37]  82  99  82  74  91 100 100  99  77  89  90  77  84  91  73  86  90 100
##  [55]  73  77  70  77  76  84  97  76  72  81  93  84  88 100 100  90  79  83
##  [73]  98  93  90  71  85  85  81  82  82  82  85  75  80  85  86  85  81  82
##  [91]  96  89  74  75  73  70  71 100  72  93

Interpretación

Responder de manera descriptiva con sus palabras a las siguientes preguntas:

¿Cuáles son los valores de media, mediana y moda y qué significan en el conjunto de datos de edades, sueldos y calificaciones?


La mediana proporciona el valor típico aun cuando el grupo de datos esté desviado hacia un lado u otro. Cuando los datos no estén desviados (cuando están distribuidos normalmente) la media y la mediana serán esencialmente el mismo número. También puede utilizar la moda los valores más comunes en un juego de datos.

¿Cuáles son los valores de los cuartiles para cada conjunto de datos y qué signfican?

Los cuartiles son medidas estadísticas de posición que tienen la propiedad de dividir la serie estadística en cuatro grupos de números iguales de términos. De manera similar los deciles dividen a la serie en diez partes iguales y los percentiles dividen a los términos de la serie en cien grupos iguales.

¿Cuáles son los valores máximos, mínimos y el rango de cada conjunto de datos y qué significa?

El Rango es el intervalo entre el valor máximo y el valor mínimo; por ello, comparte unidades con los datos. Permite obtener una idea de la dispersión de los datos, cuanto mayor es el rango, aún más dispersos están los datos (sin considerar la afectación de los valores extremos).

¿Para qué sirve o cómo se interpreta un histograma de datos?; ¿cuál es el significado de cada histograma en cada conjunto de datos?

Un histograma es la representación gráfica en forma de barras, que simboliza la distribución de un conjunto de datos. Sirven para obtener una “primera vista” general, o panorama, de la distribución de la población, o de la muestra, respecto a una característica, cuantitativa y continua.

¿Cómo se interpreta el diagrama de boxplot() o diagrama de bigotes?, ¿qué significado tiene en cada conjunto de datos?

Un diagrama de cajas y bigotes es una manera conveniente de mostrar visualmente grupos de datos numéricos a través de sus cuartiles. Las líneas que se extienden paralelas a las cajas se conocen como «bigotes», y se usan para indicar variabilidad fuera de los cuartiles superior e inferior.