4 Desarrollo

El desarrollo del caso utiliza primero datos simulados.

Luego, se utilizan y se descargan los datos de alumnos que existen en la dirección “alumnos.”

Con ambos datos se encuentran cuartiles y percentiles; finalmente se visualizan con diagramas de cajas utilizando la librería ggplot.

Al final del caso se busca la interpretación del mismo.

4.1 Cargar librerías

Se cargan las librerías readr y ggplot2 cuya utilidad es disponer de funciones para importar datos de archivos separados por coma o csv y visualizar diversos tipos de gráficos respectivamente.

library(readr)
library(ggplot2)

## Warning: package 'ggplot2' was built under R version 4.0.4

4.2 Datos simulados

4.2.1 Crear datos con sample

Se crean datos con la función sample de tal vez 100 valores de edades de personas entre 18 y 65. La variable datos es un vector que almacena dichos valore

set.seed(10101)
datos <- sample(18:65, 100, replace = TRUE)
datos

##   [1] 62 29 53 39 27 36 22 63 30 49 47 34 20 54 43 30 38 60 61 59 45 45 60 22 20
##  [26] 43 37 41 39 58 52 37 30 50 54 48 40 55 39 19 65 44 61 33 45 49 63 28 25 35
##  [51] 64 53 38 56 49 37 35 35 21 39 19 65 25 27 27 21 40 37 60 62 31 24 23 64 65
##  [76] 23 24 60 37 18 60 48 35 19 61 62 58 54 45 44 44 45 22 31 45 49 47 53 45 33

n <- length(datos)
n

## [1] 100

4.2.2 Agregando datos atípicos a los datos

datos <- c(datos, c(-13,9,96,150))
datos

##   [1]  62  29  53  39  27  36  22  63  30  49  47  34  20  54  43  30  38  60
##  [19]  61  59  45  45  60  22  20  43  37  41  39  58  52  37  30  50  54  48
##  [37]  40  55  39  19  65  44  61  33  45  49  63  28  25  35  64  53  38  56
##  [55]  49  37  35  35  21  39  19  65  25  27  27  21  40  37  60  62  31  24
##  [73]  23  64  65  23  24  60  37  18  60  48  35  19  61  62  58  54  45  44
##  [91]  44  45  22  31  45  49  47  53  45  33 -13   9  96 150

4.2.3 Ordenando los dados con order

Ordenando y mostrando los datos para luego determinar medidas de localización cuartiles y percentiles

datos.ordenados <- datos[order(datos)]
datos.ordenados

##   [1] -13   9  18  19  19  19  20  20  21  21  22  22  22  23  23  24  24  25
##  [19]  25  27  27  27  28  29  30  30  30  31  31  33  33  34  35  35  35  35
##  [37]  36  37  37  37  37  37  38  38  39  39  39  39  40  40  41  43  43  44
##  [55]  44  44  45  45  45  45  45  45  45  47  47  48  48  49  49  49  49  50
##  [73]  52  53  53  53  54  54  54  55  56  58  58  59  60  60  60  60  60  61
##  [91]  61  61  62  62  62  63  63  64  64  65  65  65  96 150

4.2.4 Cuartiles conforme a fórmula

\[L_p = (n+1) \cdot \frac{p}{100}\]

Estos valores deberán ser aproximados a utilizar la función quantile() en R

q1 <- datos.ordenados[(n+1) * 25/100]; q1

## [1] 30

q2 <- datos.ordenados[(n+1) * 50/100]; q2

## [1] 40

q3 <- datos.ordenados[(n+1) * 75/100]; q3

## [1] 53

Para el resto del caso se le hará caso a los valores generados por la función quantile().

4.2.5 Cuartiles por medio de la función quantile()

Q1 <- quantile(datos, c(0.25), type = 6); Q1

## 25% 
##  30

Q2 <- quantile(datos, c(0.50), type = 6); Q2

## 50% 
##  43

Q3 <- quantile(datos, c(0.75), type = 6); Q3

## 75% 
##  54

La mediana siempre será igual al cuartil del 50% o al segundo cuartil

mediana <- median(datos)
mediana

## [1] 43

Q2

## 50% 
##  43

4.2.6 Percentiles

Los percentiles es dividir los datos en un procentaje a decisión del analista, ñpuede ser al 10%, al 20%, al 30%… al 90%

P10 <- quantile(datos, c(0.10)); P10

## 10% 
##  22

percentiles <- quantile(datos, c(0.2, 0.40, 0.50, 0.60, 0.80), type = 6)
percentiles

## 20% 40% 50% 60% 80% 
##  27  37  43  45  59

4.2.7 Máximos y mínimos

Se determinan los valores mínimos y máximos y se muestran.

La función summary() describe los mismos datos

minimo <- min(datos)
maximo <- max(datos)
 
minimo; Q1; Q2; Q3; maximo

## [1] -13

## 25% 
##  30

## 50% 
##  43

## 75% 
##  54

## [1] 150

summary(datos)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  -13.00   30.00   43.00   42.88   54.00  150.00

4.2.8 Convertir a data.frame

El vector de los datos se transforma a estructura data.frame para poderlo tratar con la libería ggplot2.

datos <- data.frame(datos)
datos

##     datos
## 1      62
## 2      29
## 3      53
## 4      39
## 5      27
## 6      36
## 7      22
## 8      63
## 9      30
## 10     49
## 11     47
## 12     34
## 13     20
## 14     54
## 15     43
## 16     30
## 17     38
## 18     60
## 19     61
## 20     59
## 21     45
## 22     45
## 23     60
## 24     22
## 25     20
## 26     43
## 27     37
## 28     41
## 29     39
## 30     58
## 31     52
## 32     37
## 33     30
## 34     50
## 35     54
## 36     48
## 37     40
## 38     55
## 39     39
## 40     19
## 41     65
## 42     44
## 43     61
## 44     33
## 45     45
## 46     49
## 47     63
## 48     28
## 49     25
## 50     35
## 51     64
## 52     53
## 53     38
## 54     56
## 55     49
## 56     37
## 57     35
## 58     35
## 59     21
## 60     39
## 61     19
## 62     65
## 63     25
## 64     27
## 65     27
## 66     21
## 67     40
## 68     37
## 69     60
## 70     62
## 71     31
## 72     24
## 73     23
## 74     64
## 75     65
## 76     23
## 77     24
## 78     60
## 79     37
## 80     18
## 81     60
## 82     48
## 83     35
## 84     19
## 85     61
## 86     62
## 87     58
## 88     54
## 89     45
## 90     44
## 91     44
## 92     45
## 93     22
## 94     31
## 95     45
## 96     49
## 97     47
## 98     53
## 99     45
## 100    33
## 101   -13
## 102     9
## 103    96
## 104   150

4.2.9 Diagrama de caja de los datos

4.2.9.1 Diagrama de caja en función del eje de las x.

ggplot(data = datos, mapping = aes(x=datos)) + geom_boxplot(outlier.colour="red")

4.2.9.2 Diagrama de caja en función del eje de las y.

ggplot(data = datos, mapping = aes(y=datos)) + geom_boxplot(outlier.colour="red")

4.3 Datos de alumnos

4.3.1 Importar datos

Se importan los datos de alumnos.

Cabe hacer notar que en este conjunto de datos existen datos en la variable Promedio que son igual a cero, esto se interpreta como datos atípicos o que tal vez no debieran ser considerados en análisis estadísticos.

datos.alumnos <- read.csv("https://raw.githubusercontent.com/rpizarrog/probabilidad-y-estad-stica/master/datos/promedios%20alumnos/ALUMNOS%20EJ2021.csv")

head(datos.alumnos)

##   NoControl Alumno Semestre Cr.Aprobados Cr.Cursando Promedio  Carrera
## 1         1      1       12          207          19    79.84 SISTEMAS
## 2         2      2       13          226           9    82.55 SISTEMAS
## 3         3      3       10          235          10    95.16 SISTEMAS
## 4         4      4       13          231          14    79.32 SISTEMAS
## 5         5      5       10          235          10    92.67 SISTEMAS
## 6         6      6       10          235          10    91.25 SISTEMAS

tail(datos.alumnos)

##      NoControl Alumno Semestre Cr.Aprobados Cr.Cursando Promedio      Carrera
## 6037       750    750        9          170          20    81.16 ARQUITECTURA
## 6038       751    751        7          103          19    84.43 ARQUITECTURA
## 6039       752    752        4           76          34    92.47 ARQUITECTURA
## 6040       753    753        4           84          26    89.74 ARQUITECTURA
## 6041       754    754        3           52          28    87.75 ARQUITECTURA
## 6042       755    755        2           18          22    86.50 ARQUITECTURA

n <- nrow(datos.alumnos)
n

## [1] 6042

4.3.2 Summary de datos.alumnos

Se factoriza la variable Carrera para que en summary se obtenga la frecuencia de la columna Carrera.

datos.alumnos$Carrera <- factor(datos.alumnos$Carrera)

summary(datos.alumnos)

##    NoControl         Alumno         Semestre       Cr.Aprobados  
##  Min.   :  1.0   Min.   :  1.0   Min.   : 1.000   Min.   :  0.0  
##  1st Qu.:112.0   1st Qu.:112.0   1st Qu.: 3.000   1st Qu.: 53.0  
##  Median :245.0   Median :245.0   Median : 5.000   Median :109.0  
##  Mean   :268.1   Mean   :268.1   Mean   : 5.428   Mean   :114.8  
##  3rd Qu.:394.0   3rd Qu.:394.0   3rd Qu.: 8.000   3rd Qu.:172.0  
##  Max.   :755.0   Max.   :755.0   Max.   :17.000   Max.   :264.0  
##                                                   NA's   :499    
##   Cr.Cursando       Promedio                Carrera    
##  Min.   : 3.00   Min.   :  0.00   ARQUITECTURA  : 755  
##  1st Qu.:23.00   1st Qu.: 82.20   INDUSTRIAL    : 721  
##  Median :27.00   Median : 85.83   CIVIL         : 674  
##  Mean   :26.09   Mean   : 79.33   QUIMICA       : 564  
##  3rd Qu.:30.00   3rd Qu.: 89.50   GESTION       : 557  
##  Max.   :42.00   Max.   :100.00   ADMINISTRACION: 492  
##                                   (Other)       :2279

4.3.3 Cuartiles

Se determinan los cuartiles de la variable Promedio de los datos de alumnos con la función quantile().

cuartiles <- quantile(x = datos.alumnos$Promedio, probs = c(0.25, 0.50, 0.75), type = 6)
cuartiles

##   25%   50%   75% 
## 82.20 85.83 89.50

Q1 <- cuartiles[1]; Q1

##  25% 
## 82.2

Q2 <- cuartiles[2]; Q2

##   50% 
## 85.83

Q3 <- cuartiles[3]; Q3

##  75% 
## 89.5

El $50%$ de los datos está entre 82.2 y 89.5. El $RI$ rango intercuartil es $Q3−Q1$ o sea 7.3.

Los valores atípicos mayores a $Q3$ serán los que estén por encima de 100.45 y los valores atípicos menores a $Q1$ serán los que estén por debajo de 71.25

4.3.4 Atípicos mayores. Rango intercuartil

atipicos.mayores <- Q3 + 1.5 * (Q3-Q1)
atipicos.mayores

##    75% 
## 100.45

4.3.5 Atípicos menores. Rango intercuartil

atipicos.menores <- Q1 - 1.5 * (Q3-Q1)
atipicos.menores

##   25% 
## 71.25

4.3.6 Diagramas de cajas con datos atípicos

ggplot(data = datos.alumnos, mapping = aes(y=Promedio)) + geom_boxplot(outlier.colour="red")

En este diagrama de caja se detecta que hay valores atípicos principalemente los que tienen $0$ en la variable promedio.

Aquí es en donde se hace prudente tomar decisiones de que ¿hacer con esos valores?, por lo pronto la decisión es simple, son alumnos que no tienen promedio en su historia académica, es decir que no han cursado semestre alguno y no han cerrado al menos un periodo escolar.

4.3.7 Limpiando valores atípicos

Por medio de la función subset() vista anteriormente, se eliminan o filtran esos registros.

datos <- subset(datos, Promedio > 0) significa quitar los alumnos que no tienen promedio aún.

datos.alumnos <- subset(datos.alumnos, Promedio > 0)
head(datos.alumnos)

##   NoControl Alumno Semestre Cr.Aprobados Cr.Cursando Promedio  Carrera
## 1         1      1       12          207          19    79.84 SISTEMAS
## 2         2      2       13          226           9    82.55 SISTEMAS
## 3         3      3       10          235          10    95.16 SISTEMAS
## 4         4      4       13          231          14    79.32 SISTEMAS
## 5         5      5       10          235          10    92.67 SISTEMAS
## 6         6      6       10          235          10    91.25 SISTEMAS

tail(datos.alumnos)

##      NoControl Alumno Semestre Cr.Aprobados Cr.Cursando Promedio      Carrera
## 6037       750    750        9          170          20    81.16 ARQUITECTURA
## 6038       751    751        7          103          19    84.43 ARQUITECTURA
## 6039       752    752        4           76          34    92.47 ARQUITECTURA
## 6040       753    753        4           84          26    89.74 ARQUITECTURA
## 6041       754    754        3           52          28    87.75 ARQUITECTURA
## 6042       755    755        2           18          22    86.50 ARQUITECTURA

n<-nrow(datos.alumnos)
n

## [1] 5535

4.3.8 Nuevos cuartiles con datos limpios

cuartiles <- quantile(x = datos.alumnos$Promedio, probs = c(0.25, 0.50, 0.75), type = 6)
cuartiles

##   25%   50%   75% 
## 83.24 86.36 89.83

Q1 <- cuartiles[1]; Q1

##   25% 
## 83.24

Q2 <- cuartiles[2]; Q2

##   50% 
## 86.36

Q3 <- cuartiles[3]; Q3

##   75% 
## 89.83

4.3.9 Diagramas de cajas con datos limpios

summary(datos.alumnos)

##    NoControl         Alumno         Semestre       Cr.Aprobados  Cr.Cursando  
##  Min.   :  1.0   Min.   :  1.0   Min.   : 2.000   Min.   :  4   Min.   : 3.0  
##  1st Qu.:106.0   1st Qu.:106.0   1st Qu.: 3.000   1st Qu.: 53   1st Qu.:23.0  
##  Median :239.0   Median :239.0   Median : 6.000   Median :109   Median :28.0  
##  Mean   :262.2   Mean   :262.2   Mean   : 5.826   Mean   :115   Mean   :26.1  
##  3rd Qu.:388.0   3rd Qu.:388.0   3rd Qu.: 8.000   3rd Qu.:172   3rd Qu.:30.0  
##  Max.   :755.0   Max.   :755.0   Max.   :17.000   Max.   :264   Max.   :42.0  
##                                                                               
##     Promedio                Carrera    
##  Min.   : 70.00   INDUSTRIAL    : 653  
##  1st Qu.: 83.25   ARQUITECTURA  : 633  
##  Median : 86.36   CIVIL         : 594  
##  Mean   : 86.60   GESTION       : 518  
##  3rd Qu.: 89.83   QUIMICA       : 515  
##  Max.   :100.00   ADMINISTRACION: 458  
##                   (Other)       :2164

ggplot(data = datos.alumnos, mapping = aes(y=Promedio)) + geom_boxplot(outlier.colour="red") +
  labs(title = "Promedio de Alumnos",subtitle =  paste("Q1 = ",Q1, ", Q2 = ",Q2, ", Q3 = ",Q3))

Se siguen visualizando datos atípicos, sin embargo estos si son datos extraños pero reales, que significa que hay alumnos con promedio de 100 y alumnos con promedio de 70 aproximadamente.

4.4 Histograma con cuartiles

ggplot(data = datos.alumnos, aes(x=Promedio)) +
    geom_histogram(bins = 30) + 
    geom_vline(aes(xintercept = Q1,
                  color = "Q1"),
              linetype = "dashed",
              size = 1) +
    geom_vline(aes(xintercept = Q2,
                  color = "Q2"),
              linetype = "dashed",
              size = 1) +
    geom_vline(aes(xintercept = Q3,
                  color = "Q3"),
              linetype = "dashed",
              size = 1) +  
  labs(title = "Histograma de Promedio de Alumnos",subtitle =  paste("Cuartil 1 al 25% = ",Q1, ", Cuartil 2 al 50% = ",Q2, ", Cuartil 3 al 75% = ",Q3))

4.5 Interpretación

¿Qué significan los cuartiles en un conjunto de datos? Los cuartiles son las “divisiones” de un conjunto de datos en cuatro partes, refiriéndose por ejemplo del primer cuartil al 1-25% de los datos.
¿Qué significa el rango intercuartil y para qué sirve? Es la diferencia entre dos cuartiles que se encuentran uno después del otro. Sirven para elaborar diagramas de caja.
En el conjunto de datos de alumnos si un alumno tiene promedio de 80 ¿está por encima o por debajo del segundo cuartil? Se encuentra debajo ya que el cuartil 2 está al 86.36
¿Cómo se interpreta e diagrama de caja? Se utiliza para interpretar varios estadísticos descriptivos de las puntuaciones que contiene la variable, el elemento principal es la mediana que se representa con la línea más gruesa, también este tipo de diagrama podemos apreciar la representación de los cuartiles por el porcentaje del diagrama.
¿Qué describe la función summary() y como se interpreta? Es una función genérica que se usa para dar como resultado un resumen de los datos sobre las variables del data frame (mínimo, máximo, media, mediana, primer y tercer cuartil)
¿Qué les deja el caso? El caso deja como enseñanzza la descripción, interpretación y el uso de los cuartiles así de los rangos intercuartiles. También reafirma el uso de algunas funciones y de los métodos de representación gráficas por medio de diagramas. Algo más que enseña este caso es el diagrama de caja el cual ya fue anteriormente explicado. En sí, nos permite interpretar los datos de calificaciones de alumnos desde otra perspectiva a la que lo habíamos estado viendo.

Caso 5. Cuartiles y Percentiles

Misael Alanis

3/13/2021

Objetivo

Descripción

Marco teórico