Determinar medidas de localización basadas en estadísticos cuartiles y percentiles utilizando de un conjunto de datos así como determinar su significado e interpretación.
El caso pretende dar a conocer como determinar cuartiles y percentiles de un conjunto de datos.
Los datos será simulados igual que en caso 4, primero un conjunto de valores numéricos y la segunda parte se hace uso de los datos descargados del promedio de alumnos.
Este caso inicia con la declaración con cargar las librerías, posteriormente, se simulan los datos y se descargan los datos de alumnos, finalmente se aplican los cuartiles y percentiles así como su visualziación y se identifica su significa e interpretación.
Existen además de la media, mediana y moda otras medidas de posición, estas consisten en determinar la ubicación de los valores que dividen un conjunto de observaciones en partes iguales. Estas medidas son los cuartiles, deciles y percentiles. (Lind, Marchal, and Wathen 2015).
Los cuartiles dividen a un conjunto de observaciones en cuatro partes iguales de en un conjunto de valores ordenados de menor a mayor. (Lind, Marchal, and Wathen 2015).
Hablando de medida de localización mediana, esta significa que señala el centro de los datos ordenados, es decir al 50% o 0.500.50.
De igual manera, los cuartiles dividen a un conjunto de observaciones en cuatro partes iguales. El primer cuartil, que se representa mediante Q1, es el valor bajo el cual se presenta 25% o 0.250.25 de las observaciones, y el tercer cuartil, simbolizado por Q3, es el valor bajo el cual se presenta 75% o 0.750.75 de las observaciones. El cuartil dos 2 es igual al valor que se representa el 50% es decir igua a la mediana. (Lind, Marchal, and Wathen 2015).
Hablar de percentiles (porcentaje) significa encontrar el valor de los datos ordenados en una localización porcentual entre 1 y 100, es decir al 2020, al 45%, al 60% o al 85%, es decir cualquier valor entre 1% y 100% en términos porcentuales o lo que es lo mismo cualquier valor entre 0 y 1 en términos relativos.
Los deciles significa dividir el conjunto de datos ordenados en 10 partes, de tal forma que el primer decil está al 10%, el segundo al 20% y así sucesivamente hasta llegar al 100%
Algunos razonmientos e igualdades sería por ejemplo, el cuartil 1 o Q1Q1 que es el 25%, es igual al percentil 25; el decil 6 al 60% es igual al percentil 60, y así algunas similitudes de localización.
La interpretación de cuartiles, percentiles y deciles radica en determinar cuántos datos están por encima o por debajo de esa medida de localización.
Por ejemplo como lo menciona Lind (2015), si un promedio general de estudiantes en la universidad se encuentra en el octavo decil, se podría concluir que 80% de los estudiantes tuvieron un promedio general inferior a ese valor y un 20% superior al valor encontrado. Si un promedio estuvo en el 92 percentil, entonces 92% de los estudiantes tuvo ese promedio general menor al valor encontrado, y solo 8%de ellos tuvo uno mayor.(Lind, Marchal, and Wathen 2015).
Lo mismo sucede con los cuartiles, significa interpretar y determinar el porcentaje y la cantidad de elementos que está por encima o por debajo del 25%, del 50% o del 75% de los datos.
Para determinar el valor de un cuartil o un percentil se puede utilizar la siguiente fórmula
\[L_p = (n+1) \cdot \frac{p}{100}\]
Siendo:
LpLp El valor del percentil o del cuartil a buscar
nn Es el total de los datos pp Es el valor porcentual 25,30,50,75,….25,30,50,75,….
100100 dividido entre cien es el valor relativo
El diagrama de caja permite es una representación gráfica basada en cuartiles que ayuda a presentar un conjunto de datos. Para construir un diagrama de caja solo se necesitan estos estadísticos: valor mínimo, Q1 (primer cuartil), mediana o Q2 (segundo cuartil), Q3 (tercer cuartil) y valor máximo.
Diagrama de caja o diagrama de bigotes
El diagrama de caja también revele el concepto de rango intercuartil que significa la cantidad o la densidad de elementos que hay entre el Q1Q1 y Q3Q3; este rango inercuartil significa que el 50%50% de los datos está en ese rango.
Luego existe otro significado del diagrama, se pueden ver cuales son valores atípicos, extraños, muy altos o muy bajos, o outliers en inglés. Un dato atípico se trata de un valor que no concuerda con el resto de los datos. (Lind, Marchal, and Wathen 2015).
Se define como un valor más de 1.5 veces la amplitud del rango intercuartil más pequeño que Q1, o mayor que Q3. (Lind, Marchal, and Wathen 2015).
dato atípico > Q3=Q3+1.5⋅(Q3−Q1))dato atípico > Q3=Q3+1.5⋅(Q3−Q1))
dato atípico < Q1=Q1−1.5⋅(Q3−Q1))dato atípico < Q1=Q1−1.5⋅(Q3−Q1))
estos datos se encuentran a 1.5 veces el valor del rango entercuartil
rango intercuartil RI =Q3−Q1rango intercuartil RI =Q3−Q1
En Lenguaje R se utiliza la función quantile para determinar tanto cuartiles como percentiles y hasta deciles.
La función tiene un atributo type que permite determinar los cuartiles de acuerdo a autores y cada uno de ellos con sus fórmulas matemáticas para su cálculo, finalmente los valores que da una u otra fórmula son muy similares entre si y lo trascendente es el significado y la interpretación que hay que darle a estas medidas de localización.
El desarrollo del caso utiliza primero datos simulados.
Luego, se utilizan y se descargan los datos de alumnos que existen en la dirección “alumnos.”
Con ambos datos se encuentran cuartiles y percentiles; finalmente se visualizan con diagramas de cajas utilizando la librería ggplot.
Al final del caso se busca la interpretación del mismo.
Se cargan las librerías readr y ggplot2 cuya utilidad es disponer de funciones para importar datos de archivos separados por coma o csv y visualizar diversos tipos de gráficos respectivamente.
library(readr)
library(ggplot2)
Se crean datos con la función sample de tal vez 100 valores de edades de personas entre 18 y 65. La variale datos es un vector que almacena dichos valores
datos <- sample(18:65, 100, replace = TRUE)
datos
## [1] 51 32 39 64 31 30 60 55 35 31 47 60 53 29 44 34 23 39 20 65 53 20 30 53 26
## [26] 37 37 46 50 24 36 32 27 34 45 23 65 65 46 56 29 40 18 18 54 39 26 65 35 42
## [51] 60 36 36 40 25 44 24 43 20 24 58 62 36 53 21 51 36 30 37 40 39 40 47 34 49
## [76] 32 41 46 20 65 18 21 62 47 18 64 30 35 37 19 30 63 61 58 35 21 42 35 40 25
n <- length(datos)
n
## [1] 100
datos <- c(datos, c(-13,9,96,150))
datos
## [1] 51 32 39 64 31 30 60 55 35 31 47 60 53 29 44 34 23 39
## [19] 20 65 53 20 30 53 26 37 37 46 50 24 36 32 27 34 45 23
## [37] 65 65 46 56 29 40 18 18 54 39 26 65 35 42 60 36 36 40
## [55] 25 44 24 43 20 24 58 62 36 53 21 51 36 30 37 40 39 40
## [73] 47 34 49 32 41 46 20 65 18 21 62 47 18 64 30 35 37 19
## [91] 30 63 61 58 35 21 42 35 40 25 -13 9 96 150
Ordenando y mostrando los datos para luego determinar medidas de localización cuartiles y percentiles.
datos.ordenados <- datos[order(datos)]
datos.ordenados
## [1] -13 9 18 18 18 18 19 20 20 20 20 21 21 21 23 23 24 24
## [19] 24 25 25 26 26 27 29 29 30 30 30 30 30 31 31 32 32 32
## [37] 34 34 34 35 35 35 35 35 36 36 36 36 36 37 37 37 37 39
## [55] 39 39 39 40 40 40 40 40 41 42 42 43 44 44 45 46 46 46
## [73] 47 47 47 49 50 51 51 53 53 53 53 54 55 56 58 58 60 60
## [91] 60 61 62 62 63 64 64 65 65 65 65 65 96 150
\[L_p = (n+1) \cdot \frac{p}{100}\]
Estos valores deberán ser aproximados a utilizar la función quantile() en R
q1 <- datos.ordenados[(n+1) * 25/100]; q1
## [1] 29
q2 <- datos.ordenados[(n+1) * 50/100]; q2
## [1] 37
q3 <- datos.ordenados[(n+1) * 75/100]; q3
## [1] 47
Para el resto del caso se le hará caso a los valores generados por la función quantile().
Q1 <- quantile(datos, c(0.25), type = 6); Q1
## 25%
## 29.25
Q2 <- quantile(datos, c(0.50), type = 6); Q2
## 50%
## 37
Q3 <- quantile(datos, c(0.75), type = 6); Q3
## 75%
## 51
La mediana siempre será igual al cuartil del 50% o al segundo cuartil
mediana <- median(datos)
mediana
## [1] 37
Q2
## 50%
## 37
Los percentiles es dividir los datos en un procentaje a decisión del analista, puede ser al 10%, al 20%, al 30%… al 90%
P10 <- quantile(datos, c(0.10)); P10
## 10%
## 20.3
percentiles <- quantile(datos, c(0.2, 0.40, 0.50, 0.60, 0.80), type = 6)
percentiles
## 20% 40% 50% 60% 80%
## 25 35 37 41 54
Se determinan los valores mínimos y máximos y se muestran.
La función summary() describe los mismos datos
minimo <- min(datos)
maximo <- max(datos)
minimo; Q1; Q2; Q3; maximo
## [1] -13
## 25%
## 29.25
## 50%
## 37
## 75%
## 51
## [1] 150
summary(datos)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -13.00 29.75 37.00 40.43 51.00 150.00
El vector de los datos se transforma a estructura data.frame para poderlo tratar con la libería ggplot2.
datos <- data.frame(datos)
datos
## datos
## 1 51
## 2 32
## 3 39
## 4 64
## 5 31
## 6 30
## 7 60
## 8 55
## 9 35
## 10 31
## 11 47
## 12 60
## 13 53
## 14 29
## 15 44
## 16 34
## 17 23
## 18 39
## 19 20
## 20 65
## 21 53
## 22 20
## 23 30
## 24 53
## 25 26
## 26 37
## 27 37
## 28 46
## 29 50
## 30 24
## 31 36
## 32 32
## 33 27
## 34 34
## 35 45
## 36 23
## 37 65
## 38 65
## 39 46
## 40 56
## 41 29
## 42 40
## 43 18
## 44 18
## 45 54
## 46 39
## 47 26
## 48 65
## 49 35
## 50 42
## 51 60
## 52 36
## 53 36
## 54 40
## 55 25
## 56 44
## 57 24
## 58 43
## 59 20
## 60 24
## 61 58
## 62 62
## 63 36
## 64 53
## 65 21
## 66 51
## 67 36
## 68 30
## 69 37
## 70 40
## 71 39
## 72 40
## 73 47
## 74 34
## 75 49
## 76 32
## 77 41
## 78 46
## 79 20
## 80 65
## 81 18
## 82 21
## 83 62
## 84 47
## 85 18
## 86 64
## 87 30
## 88 35
## 89 37
## 90 19
## 91 30
## 92 63
## 93 61
## 94 58
## 95 35
## 96 21
## 97 42
## 98 35
## 99 40
## 100 25
## 101 -13
## 102 9
## 103 96
## 104 150
ggplot(data = datos, mapping = aes(x=datos)) + geom_boxplot(outlier.colour="pink")
ggplot(data = datos, mapping = aes(y=datos)) + geom_boxplot(outlier.colour="pink")
Se importan los datos de alumnos.
Cabe hacer notar que en este conjunto de datos existen datos en la variable Promedio que son igual a cero, esto se interpreta como datos atípicos o que tal vez no debieran ser considerados en análisis estadísticos.
datos.alumnos <- read.csv("https://raw.githubusercontent.com/rpizarrog/probabilidad-y-estad-stica/master/datos/promedios%20alumnos/ALUMNOS%20EJ2021.csv")
head(datos.alumnos)
## NoControl Alumno Semestre Cr.Aprobados Cr.Cursando Promedio Carrera
## 1 1 1 12 207 19 79.84 SISTEMAS
## 2 2 2 13 226 9 82.55 SISTEMAS
## 3 3 3 10 235 10 95.16 SISTEMAS
## 4 4 4 13 231 14 79.32 SISTEMAS
## 5 5 5 10 235 10 92.67 SISTEMAS
## 6 6 6 10 235 10 91.25 SISTEMAS
tail(datos.alumnos)
## NoControl Alumno Semestre Cr.Aprobados Cr.Cursando Promedio Carrera
## 6037 750 750 9 170 20 81.16 ARQUITECTURA
## 6038 751 751 7 103 19 84.43 ARQUITECTURA
## 6039 752 752 4 76 34 92.47 ARQUITECTURA
## 6040 753 753 4 84 26 89.74 ARQUITECTURA
## 6041 754 754 3 52 28 87.75 ARQUITECTURA
## 6042 755 755 2 18 22 86.50 ARQUITECTURA
n <- nrow(datos.alumnos)
n
## [1] 6042
Se factoriza la variable Carrera para que en summary se obtenga la frecuencia de la columna Carrera.
datos.alumnos$Carrera <- factor(datos.alumnos$Carrera)
summary(datos.alumnos)
## NoControl Alumno Semestre Cr.Aprobados
## Min. : 1.0 Min. : 1.0 Min. : 1.000 Min. : 0.0
## 1st Qu.:112.0 1st Qu.:112.0 1st Qu.: 3.000 1st Qu.: 53.0
## Median :245.0 Median :245.0 Median : 5.000 Median :109.0
## Mean :268.1 Mean :268.1 Mean : 5.428 Mean :114.8
## 3rd Qu.:394.0 3rd Qu.:394.0 3rd Qu.: 8.000 3rd Qu.:172.0
## Max. :755.0 Max. :755.0 Max. :17.000 Max. :264.0
## NA's :499
## Cr.Cursando Promedio Carrera
## Min. : 3.00 Min. : 0.00 ARQUITECTURA : 755
## 1st Qu.:23.00 1st Qu.: 82.20 INDUSTRIAL : 721
## Median :27.00 Median : 85.83 CIVIL : 674
## Mean :26.09 Mean : 79.33 QUIMICA : 564
## 3rd Qu.:30.00 3rd Qu.: 89.50 GESTION : 557
## Max. :42.00 Max. :100.00 ADMINISTRACION: 492
## (Other) :2279
Se determinan los cuartiles de la variable Promedio de los datos de alumnos con la función quantile().
cuartiles <- quantile(x = datos.alumnos$Promedio, probs = c(0.25, 0.50, 0.75), type = 6)
cuartiles
## 25% 50% 75%
## 82.20 85.83 89.50
Q1 <- cuartiles[1]; Q1
## 25%
## 82.2
Q2 <- cuartiles[2]; Q2
## 50%
## 85.83
Q3 <- cuartiles[3]; Q3
## 75%
## 89.5
El 50%50% de los datos está entre 82.2 y 89.5. El RIRI rango intercuartil es Q3−Q1Q3−Q1 o sea 7.3.
Los valores atípicos mayores a Q3Q3 serán los que estén por encima de 100.45 y los valores atípicos menores a Q1Q1 serán los que estén por debajo de 71.25
atipicos.mayores <- Q3 + 1.5 * (Q3-Q1)
atipicos.mayores
## 75%
## 100.45
atipicos.menores <- Q1 - 1.5 * (Q3-Q1)
atipicos.menores
## 25%
## 71.25
ggplot(data = datos.alumnos, mapping = aes(y=Promedio)) + geom_boxplot(outlier.colour="pink")
En este diagrama de caja se detecta que hay valores atípicos principalemente los que tienen 00 en la variable promedio.
Aquí es en donde se hace prudente tomar decisiones de que ¿hacer con esos valores?, por lo pronto la decisión es simple, son alumnos que no tienen promedio en su historia académica, es decir que no han cursado semestre alguno y no han cerrado al menos un periodo escolar.
Por medio de la función subset() vista anteriormente, se eliminan o filtran esos registros.
datos <- subset(datos, Promedio > 0) significa quitar los alumnos que no tienen promedio aún.
datos.alumnos <- subset(datos.alumnos, Promedio > 0)
head(datos.alumnos)
## NoControl Alumno Semestre Cr.Aprobados Cr.Cursando Promedio Carrera
## 1 1 1 12 207 19 79.84 SISTEMAS
## 2 2 2 13 226 9 82.55 SISTEMAS
## 3 3 3 10 235 10 95.16 SISTEMAS
## 4 4 4 13 231 14 79.32 SISTEMAS
## 5 5 5 10 235 10 92.67 SISTEMAS
## 6 6 6 10 235 10 91.25 SISTEMAS
tail(datos.alumnos)
## NoControl Alumno Semestre Cr.Aprobados Cr.Cursando Promedio Carrera
## 6037 750 750 9 170 20 81.16 ARQUITECTURA
## 6038 751 751 7 103 19 84.43 ARQUITECTURA
## 6039 752 752 4 76 34 92.47 ARQUITECTURA
## 6040 753 753 4 84 26 89.74 ARQUITECTURA
## 6041 754 754 3 52 28 87.75 ARQUITECTURA
## 6042 755 755 2 18 22 86.50 ARQUITECTURA
n<-nrow(datos.alumnos)
n
## [1] 5535
cuartiles <- quantile(x = datos.alumnos$Promedio, probs = c(0.25, 0.50, 0.75), type = 6)
cuartiles
## 25% 50% 75%
## 83.24 86.36 89.83
Q1 <- cuartiles[1]; Q1
## 25%
## 83.24
Q2 <- cuartiles[2]; Q2
## 50%
## 86.36
Q3 <- cuartiles[3]; Q3
## 75%
## 89.83
summary(datos.alumnos)
## NoControl Alumno Semestre Cr.Aprobados Cr.Cursando
## Min. : 1.0 Min. : 1.0 Min. : 2.000 Min. : 4 Min. : 3.0
## 1st Qu.:106.0 1st Qu.:106.0 1st Qu.: 3.000 1st Qu.: 53 1st Qu.:23.0
## Median :239.0 Median :239.0 Median : 6.000 Median :109 Median :28.0
## Mean :262.2 Mean :262.2 Mean : 5.826 Mean :115 Mean :26.1
## 3rd Qu.:388.0 3rd Qu.:388.0 3rd Qu.: 8.000 3rd Qu.:172 3rd Qu.:30.0
## Max. :755.0 Max. :755.0 Max. :17.000 Max. :264 Max. :42.0
##
## Promedio Carrera
## Min. : 70.00 INDUSTRIAL : 653
## 1st Qu.: 83.25 ARQUITECTURA : 633
## Median : 86.36 CIVIL : 594
## Mean : 86.60 GESTION : 518
## 3rd Qu.: 89.83 QUIMICA : 515
## Max. :100.00 ADMINISTRACION: 458
## (Other) :2164
ggplot(data = datos.alumnos, mapping = aes(y=Promedio)) + geom_boxplot(outlier.colour="pink") +
labs(title = "Promedio de Alumnos",subtitle = paste("Q1 = ",Q1, ", Q2 = ",Q2, ", Q3 = ",Q3))
Se siguen visualizando datos atípicos, sin embargo estos si son datos extraños pero reales, que significa que hay alumnos con promedio de 100 y alumnos con promedio de 70 aproximadamente.
ggplot(data = datos.alumnos, aes(x=Promedio)) +
geom_histogram(bins = 30) +
geom_vline(aes(xintercept = Q1,
color = "Q1"),
linetype = "dashed",
size = 1) +
geom_vline(aes(xintercept = Q2,
color = "Q2"),
linetype = "dashed",
size = 1) +
geom_vline(aes(xintercept = Q3,
color = "Q3"),
linetype = "dashed",
size = 1) +
labs(title = "Histograma de Promedio de Alumnos",subtitle = paste("Cuartil 1 al 25% = ",Q1, ", Cuartil 2 al 50% = ",Q2, ", Cuartil 3 al 75% = ",Q3))
¿Qué significan los cuartiles en un conjunto de datos?
Los cuartiles son una herramienta que usamos en la estadística y que nos sirve para administrar grupos de datos previamente ordenados.
Los cuartiles son los tres valores de la variable que dividen a un conjunto de datos ordenados en cuatro partes iguales.
¿Qué significa el rango intercuartil y para qué sirve?
En estadistica descrptiva se le llama rango intercuartílico o rango intercuartil, a la diferencia entre el tercer y el primer cuartil de una distribución. Es una medida de la dispersion estadística.
A diferencia del rango, se trata de un estadistico mas robusto.
Por lo tanto, en distribuciones con una gran asimetria, (alejadas de la distribución normal o campana de Gauss) es más apropiado medir la tendencia central y la dispersion mediante la mediana y el rango intercuartil respectivamente que con la media aritmetica y la desviacion tipica.
Con el IQR podremos elaborar los diagramas de caja, que es un instrumento muy visual para evaluar la dispersión de una distribución.
En el conjunto de datos de alumnos si un alumno tiene promedio de 80 ¿está por encima o por debajo del segundo cuartil?
¿Cómo se interpreta el diagrama de caja?
Un diagrama de cajas representa de forma gráfica la distribución de puntuaciones dentro de una variable. Es una forma de describir las puntuaciones que contiene una variable y su distribución de forma visual. Además, señala los valores atípicos o casos extremos de la variable Es muy util porque presenta una gran cantidad de información. Sin embargo, son un poco complejos porque para poder interpretarlos hay que tener bien claro qué información se presenta en el gráfico.
¿Qué describe la función summary() y como se interpreta
Leer y cargar nuestros datos como data frame
Extraer valores (con $ o usando corchetes [,])
Explorar objetos
Obtener estadísticos de conjuntos numéricos
Guardar la información de nuestro historial
summary() (resumen).
¿Qué les deja el caso?
En este caso aprendimo a identificar la diferencia entre cuartil y percentil, asi como tambien a graficarlos usando distintos codigos.
Cuartiles: Los cuartiles son los tres valores que dividen al conjunto de datos ordenados en cuatro partes porcentualmente iguales. Hay tres cuartiles denotados usualmente Q1, Q2, Q3: El primer cuartil Q1, es el menor valor que es mayor que una cuarta parte de los datos; es decir, aquel valor de la variable que supera 25% de las observaciones y es superado por el 75% de las observaciones El segundo cuartil Q2, (coincide, es idéntico o similar a la mediana, Q2 = Md), es el menor valor que es mayor que la mitad de los datos, es decir el 50% de las observaciones son mayores que la mediana y el 50% son menores. El tercer cuartil Q3, es el menor valor que es mayor que tres cuartas partes de los datos, es decir aquel valor de la variable que supera al 75% y es superado por el 25% de las observaciones.
Percentiles o centiles: Los percentiles son, tal vez, las medidas más utilizadas para propósitos de ubicación o clasificación de las personas cuando atienden características tales como peso, estatura, etc. Los percentiles son ciertos números que dividen la sucesión de datos ordenados en cien partes porcentualmente iguales. Estos son los 99 valores que dividen en cien partes iguales el conjunto de datos ordenados. Sencillamente Percentil es el valor del recorrido de una variable, bajo el cual se encuentra una proporción determinada de la población. Los percentiles (P1, P2,… P99), leídos primer percentil,…, percentil 99, muestran la variable que deja detrás una frecuencia acumulada igual al valor del percentil: Primer percentil, que supera al uno por ciento de los valores y es superado por el noventa y nueve por ciento restante. El 60 percentil, es aquel valor de la variable que supera al 60% de las observaciones y es superado por el 40% de las observaciones. El percentil 99 supera 99% de los datos y es superado a su vez por el 1% restante.
Lind, Douglas, William Marchal, and Samuel Wathen. 2015. Estadística Aplicada a Los Negocios y La Economía. Decimo Sexta. México, D.F.: McGraw-Hill.