1 Objetivo

Identificar, describir e interpretar medidas de variabilidad en un conjunto de datos.

2 Descripción

El caso se relaciona con identificar medidas de variabilidad como la varianza, la desviación estándar y el coeficiente de variación.

Primero se utilizan datos del libro del autor (Anderson, Sweeney, and Williams 2008a) como ejemplo para calcular la varianza, y a partir de ahí, se determina la desviación y finalmente el coeficiente de variación.

Segundo con datos de alumnos se calculan las mismas medias de dispersión, luego, se selecciona tres carreras y se determina cuál de los tres conjuntos de datos tiene mayor o menor dispersión conforme al valor % del coeficiente de variación.

3 Marco de referencia

Pendiente.

4 Desarrollo

4.1 Cargar liberías

library(readr)
library(ggplot2)

4.2 Los datos de sueldos

datos <- c(3450,3550, 3650, 3480, 3355, 3310, 3490, 3730, 3540, 3925, 3520, 3480 )

datos <- data.frame(xi=datos)

4.2.1 Varianza mamtemáticamente

n <- nrow(datos)

summary(datos)

##        xi      
##  Min.   :3310  
##  1st Qu.:3472  
##  Median :3505  
##  Mean   :3540  
##  3rd Qu.:3575  
##  Max.   :3925

datos <- cbind(datos, media = mean(datos$xi))
datos <- cbind(datos, diferencia=datos$xi - datos$media)
datos <- cbind(datos, alcuadrado = datos$diferencia^2)


media <- mean(datos$xi)


datos

##      xi media diferencia alcuadrado
## 1  3450  3540        -90       8100
## 2  3550  3540         10        100
## 3  3650  3540        110      12100
## 4  3480  3540        -60       3600
## 5  3355  3540       -185      34225
## 6  3310  3540       -230      52900
## 7  3490  3540        -50       2500
## 8  3730  3540        190      36100
## 9  3540  3540          0          0
## 10 3925  3540        385     148225
## 11 3520  3540        -20        400
## 12 3480  3540        -60       3600

sumatoria <- sum(datos$alcuadrado)
sumatoria

## [1] 301850

varianza <- sumatoria / (n-1)
varianza

## [1] 27440.91

4.2.2 Desviación matemáticamente

desviacion <- sqrt(varianza)
desviacion

## [1] 165.653

4.2.3 Coeficiente de variación matemáticamente

CV <- desviacion / media * 100
CV

## [1] 4.679463

4.2.4 Funciones en R para medidas de dispersión

var(datos$xi)

## [1] 27440.91

#[1] 27440.91

sd(datos$xi)

## [1] 165.653

#[1] 165.653

CV <- sd(datos$xi) / mean(datos$xi) * 100
CV

## [1] 4.679463

4.2.5 Dispersión de datos

titulo <- "Sueldos"
subtitulo <- paste("Media =", round(media,2)," Varianza=",round(varianza,2)," Desv. Std.=",round(desviacion,2), " CV =", round(CV, 2),"%") 
ggplot(data = datos, mapping = aes(x = 1:n,  y = xi)) + 
  geom_point(colour = "green") +
  geom_hline(yintercept = media, colour = "red") +
  ggtitle(titulo, subtitle = subtitulo) +
  xlab('Observaciones') + ylab('Sueldos')

4.3 Datos de alumnos

4.3.1 Cargar los datos

datos <- read.csv("https://raw.githubusercontent.com/rpizarrog/probabilidad-y-estad-stica/master/datos/promedios%20alumnos/datos.alumnosEJ2021.csv", stringsAsFactors = TRUE)

#datos$Carrera <- factor(datos$Carrera)

summary(datos[c(2,4,8,9)])

##        X            Alumno         Promedio                Carrera    
##  Min.   :   1   Min.   :  1.0   Min.   : 70.00   INDUSTRIAL    : 653  
##  1st Qu.:1384   1st Qu.:106.0   1st Qu.: 83.25   ARQUITECTURA  : 633  
##  Median :2768   Median :239.0   Median : 86.36   CIVIL         : 594  
##  Mean   :2768   Mean   :262.2   Mean   : 86.60   GESTION       : 518  
##  3rd Qu.:4152   3rd Qu.:388.0   3rd Qu.: 89.83   QUIMICA       : 515  
##  Max.   :5535   Max.   :755.0   Max.   :100.00   ADMINISTRACION: 458  
##                                                  (Other)       :2164

str(datos)

## 'data.frame':    5535 obs. of  9 variables:
##  $ X.1         : int  1 2 3 4 5 6 7 8 9 10 ...
##  $ X           : int  1 2 3 4 5 6 7 8 9 10 ...
##  $ NoControl   : int  1 2 3 4 5 6 7 8 9 10 ...
##  $ Alumno      : int  1 2 3 4 5 6 7 8 9 10 ...
##  $ Semestre    : int  12 13 10 13 10 10 13 11 11 10 ...
##  $ Cr.Aprobados: int  207 226 235 231 235 235 231 197 235 231 ...
##  $ Cr.Cursando : int  19 9 10 14 10 10 4 23 10 4 ...
##  $ Promedio    : num  79.8 82.5 95.2 79.3 92.7 ...
##  $ Carrera     : Factor w/ 14 levels "ADMINISTRACION",..: 13 13 13 13 13 13 13 13 13 13 ...

4.3.2 Primeros y últimos cincuenta registros

Los primeros cincuentra registros

head(datos[,c(2,8,9)], 50)

##     X Promedio  Carrera
## 1   1    79.84 SISTEMAS
## 2   2    82.55 SISTEMAS
## 3   3    95.16 SISTEMAS
## 4   4    79.32 SISTEMAS
## 5   5    92.67 SISTEMAS
## 6   6    91.25 SISTEMAS
## 7   7    82.46 SISTEMAS
## 8   8    83.72 SISTEMAS
## 9   9    85.37 SISTEMAS
## 10 10    85.12 SISTEMAS
## 11 11    78.22 SISTEMAS
## 12 12    91.25 SISTEMAS
## 13 13    84.59 SISTEMAS
## 14 14    89.16 SISTEMAS
## 15 15    82.51 SISTEMAS
## 16 16    81.58 SISTEMAS
## 17 17    82.63 SISTEMAS
## 18 18    87.18 SISTEMAS
## 19 19    89.55 SISTEMAS
## 20 20    86.27 SISTEMAS
## 21 21    84.02 SISTEMAS
## 22 22    82.23 SISTEMAS
## 23 23    83.37 SISTEMAS
## 24 24    92.67 SISTEMAS
## 25 25    82.75 SISTEMAS
## 26 26    95.94 SISTEMAS
## 27 27    91.27 SISTEMAS
## 28 28    89.33 SISTEMAS
## 29 29    86.02 SISTEMAS
## 30 30    83.45 SISTEMAS
## 31 31    80.81 SISTEMAS
## 32 32    78.33 SISTEMAS
## 33 33    89.35 SISTEMAS
## 34 34    83.76 SISTEMAS
## 35 35    80.42 SISTEMAS
## 36 36    94.43 SISTEMAS
## 37 37    83.29 SISTEMAS
## 38 38    87.72 SISTEMAS
## 39 39    85.25 SISTEMAS
## 40 40    93.16 SISTEMAS
## 41 41    81.88 SISTEMAS
## 42 42    80.86 SISTEMAS
## 43 43    82.24 SISTEMAS
## 44 44    87.78 SISTEMAS
## 45 45    81.60 SISTEMAS
## 46 46    84.83 SISTEMAS
## 47 47    83.71 SISTEMAS
## 48 48    90.44 SISTEMAS
## 49 49    90.79 SISTEMAS
## 50 50    89.08 SISTEMAS

Los últimos cincuenta registros

tail(datos[,c(2,8,9)], 50)

##         X Promedio      Carrera
## 5486 5486    87.70 ARQUITECTURA
## 5487 5487    81.96 ARQUITECTURA
## 5488 5488    85.45 ARQUITECTURA
## 5489 5489    93.75 ARQUITECTURA
## 5490 5490    82.33 ARQUITECTURA
## 5491 5491    82.80 ARQUITECTURA
## 5492 5492    76.71 ARQUITECTURA
## 5493 5493    87.05 ARQUITECTURA
## 5494 5494    87.50 ARQUITECTURA
## 5495 5495    83.70 ARQUITECTURA
## 5496 5496    93.50 ARQUITECTURA
## 5497 5497    91.67 ARQUITECTURA
## 5498 5498    89.67 ARQUITECTURA
## 5499 5499    89.83 ARQUITECTURA
## 5500 5500    87.03 ARQUITECTURA
## 5501 5501    87.25 ARQUITECTURA
## 5502 5502    77.91 ARQUITECTURA
## 5503 5503    88.38 ARQUITECTURA
## 5504 5504    89.00 ARQUITECTURA
## 5505 5505    86.17 ARQUITECTURA
## 5506 5506    86.40 ARQUITECTURA
## 5507 5507    91.50 ARQUITECTURA
## 5508 5508    84.33 ARQUITECTURA
## 5509 5509    91.75 ARQUITECTURA
## 5510 5510    86.72 ARQUITECTURA
## 5511 5511    89.13 ARQUITECTURA
## 5512 5512    87.00 ARQUITECTURA
## 5513 5513    86.21 ARQUITECTURA
## 5514 5514    87.80 ARQUITECTURA
## 5515 5515    88.83 ARQUITECTURA
## 5516 5516    75.00 ARQUITECTURA
## 5517 5517    84.00 ARQUITECTURA
## 5518 5518    84.50 ARQUITECTURA
## 5519 5519    85.55 ARQUITECTURA
## 5520 5520    87.77 ARQUITECTURA
## 5521 5521    86.11 ARQUITECTURA
## 5522 5522    91.50 ARQUITECTURA
## 5523 5523    84.36 ARQUITECTURA
## 5524 5524    86.81 ARQUITECTURA
## 5525 5525    87.80 ARQUITECTURA
## 5526 5526    84.67 ARQUITECTURA
## 5527 5527    81.27 ARQUITECTURA
## 5528 5528    92.00 ARQUITECTURA
## 5529 5529    87.59 ARQUITECTURA
## 5530 5530    81.16 ARQUITECTURA
## 5531 5531    84.43 ARQUITECTURA
## 5532 5532    92.47 ARQUITECTURA
## 5533 5533    89.74 ARQUITECTURA
## 5534 5534    87.75 ARQUITECTURA
## 5535 5535    86.50 ARQUITECTURA

4.3.3 La media

media <- mean(datos$Promedio)
media

## [1] 86.59522

4.3.4 La varianza

varianza <- var(datos$Promedio)
varianza

## [1] 20.72146

4.3.5 La desviación

desviacion <- sd(datos$Promedio)
desviacion

## [1] 4.552083

4.3.6 El coeficiente de variación

CV <- desviacion / media * 100
CV

## [1] 5.256737

4.3.7 Dispersión de promedio

titulo <- "Todos los alumnos"
subtitulo <- paste("Media=", round(media,2), " Varianza=",round(varianza,2)," Desv. Std.=",round(desviacion,2), " CV =", round(CV, 2),"%") 
ggplot(data = datos, mapping = aes(x = X,  y = Promedio)) + 
  geom_point(colour = "blue") +
  geom_hline(yintercept = media, colour = "red") +
  ggtitle(titulo, subtitle = subtitulo) +
  xlab('Observaciones') + ylab('Promedios')

4.4 Tres carreras diferentes

4.4.1 Datos ARQUITECTURA

datos.arquitectura <- subset(datos, Carrera == 'ARQUITECTURA') 

head(datos.arquitectura)

##       X.1    X NoControl Alumno Semestre Cr.Aprobados Cr.Cursando Promedio
## 4903 4903 4903         1      1       10          227          10    91.96
## 4904 4904 4904         2      2        8          178          33    83.16
## 4905 4905 4905         3      3       10          176          34    81.68
## 4906 4906 4906         4      4       12          194          39    83.60
## 4907 4907 4907         5      5       10          172          18    81.51
## 4908 4908 4908         6      6       10          182          33    83.08
##           Carrera
## 4903 ARQUITECTURA
## 4904 ARQUITECTURA
## 4905 ARQUITECTURA
## 4906 ARQUITECTURA
## 4907 ARQUITECTURA
## 4908 ARQUITECTURA

media.arquitectura <- mean(datos.arquitectura$Promedio)
varianza.arquitectura <- var(datos.arquitectura$Promedio)
desviacion.arquitectura <- sd(datos.arquitectura$Promedio)
CV.arquitectura <- desviacion.arquitectura / media.arquitectura * 100

4.4.2 Dispersión

titulo <- "Alumnos Arquitectura"
subtitulo <- paste("Media=", round(media.arquitectura,2), " Varianza=",round(varianza.arquitectura,2)," Desv. Std.=",round(desviacion.arquitectura,2), " CV =", round(CV.arquitectura, 2),"%") 
ggplot(data = datos.arquitectura, mapping = aes(x = Alumno,  y = Promedio)) + 
  geom_point(colour = "orange") +
  geom_hline(yintercept = media, colour = "red") +
  ggtitle(titulo, subtitle = subtitulo) +
  xlab('Observaciones') + ylab('Promedios')

4.4.3 Datos CIVIL

datos.civil <- subset(datos, Carrera == 'CIVIL') 

head(datos.civil)

##       X.1    X NoControl Alumno Semestre Cr.Aprobados Cr.Cursando Promedio
## 3909 3909 3909         1      1       11          166          20    76.74
## 3910 3910 3910         2      2       10          178          20    79.76
## 3911 3911 3911         3      3       11          165          17    79.43
## 3912 3912 3912         4      4       11          211          24    77.57
## 3913 3913 3913         5      5       10          216          29    80.31
## 3914 3914 3914         6      6       10          220          15    78.54
##      Carrera
## 3909   CIVIL
## 3910   CIVIL
## 3911   CIVIL
## 3912   CIVIL
## 3913   CIVIL
## 3914   CIVIL

media.civil <- mean(datos.civil$Promedio)
varianza.civil <- var(datos.civil$Promedio)
desviacion.civil <- sd(datos.civil$Promedio)
CV.civil <- desviacion.civil / media.civil * 100

4.4.4 Dispersión

titulo <- "Alumnos Civil"
subtitulo <- paste("Media=", round(media.civil,2), " Varianza=",round(varianza.civil,2)," Desv. Std.=",round(desviacion.civil,2), " CV =", round(CV.civil, 2),"%") 
ggplot(data = datos.civil, mapping = aes(x = Alumno,  y = Promedio)) + 
  geom_point(colour = "brown") +
  geom_hline(yintercept = media, colour = "red") +
  ggtitle(titulo, subtitle = subtitulo) +
  xlab('Observaciones') + ylab('Promedios')

4.4.5 Datos INDUSTRIAL

datos.industrial <- subset(datos, Carrera == 'INDUSTRIAL') 

head(datos.industrial)

##       X.1    X NoControl Alumno Semestre Cr.Aprobados Cr.Cursando Promedio
## 2708 2708 2708         1      1       10          221          14    85.04
## 2709 2709 2709         2      2       15          224           6    76.45
## 2710 2710 2710         3      3       14          250          10    87.41
## 2711 2711 2711         4      4       10          235          10    79.83
## 2712 2712 2712         5      5       12          218          27    80.78
## 2713 2713 2713         6      6       11          158          15    79.92
##         Carrera
## 2708 INDUSTRIAL
## 2709 INDUSTRIAL
## 2710 INDUSTRIAL
## 2711 INDUSTRIAL
## 2712 INDUSTRIAL
## 2713 INDUSTRIAL

media.industrial <- mean(datos.industrial$Promedio)
varianza.industrial <- var(datos.industrial$Promedio)
desviacion.industrial <- sd(datos.industrial$Promedio)
CV.industrial <- desviacion.industrial / media.industrial * 100

4.4.6 Dispersión

titulo <- "Alumnos Industrial"
subtitulo <- paste("Media=", round(media.industrial,2), " Varianza=",round(varianza.industrial,2)," Desv. Std.=",round(desviacion.industrial,2), " CV =", round(CV.industrial, 2),"%") 
ggplot(data = datos.industrial, mapping = aes(x = Alumno,  y = Promedio)) + 
  geom_point(colour = "green") +
  geom_hline(yintercept = media, colour = "red") +
  ggtitle(titulo, subtitle = subtitulo) +
  xlab('Observaciones') + ylab('Promedios')

4.4.7 Dispersión de todas las carreras

ggplot(data = datos, mapping = aes(x = Alumno, y = Promedio, color = Carrera)) +
         geom_point() +
         facet_wrap(~ Carrera, nrow = 5)

5 Interpretación del caso

¿A que se refieren las medidas de dispersión? Las medidas de dispersión se refieren a la manera en que un conjunto de datos se extira o se deprime, con respecto a su distribución.
¿Qué significa la varianza en un conjunto de datos? y ¿cómo se determina en lenguaje R? La varianza representa la variabilidad con respecto a la media en un conjunto de datos, se puede calcular elevando al cuadrado la desviación estándar y la forma en la que se determina en R es:

varianza <- var(datos$Promedio)
varianza

## [1] 20.72146

¿Qué significa la desviación estándar en un conjunto de datos? y ¿cómo se determina en lenguaje R? La desviación estándar se utiliza para determinar la dispersión o variación entre los datos de una distribución, y la forma en que se determina en R es:

desviacion <- sd(datos$Promedio)
desviacion

## [1] 4.552083

¿A qué se refiere el coeficiente de variación en un conjunto de datos? y ¿cómo se determina en R? El coeficiente de variación es la medida de dispersión o variación que muestra un conjunto de datos, con respecto a la desviación etándar y la media aritmética, y la forma en que se determina en R es:

CV <- desviacion / media * 100
CV

## [1] 5.256737

De los datos alumnos de aquellos que tienen promedio superior a cero, ¿cuál es el valor de la media, de la varianza, de la desviación estándar y del coeficiente de variación de todos ellos conforme a la variable o columna Promedio? El valor de la media es de 86.59, la varianza es igual a 20.72, la desviación estándar es 4.55 y el coeficiente de variación es de 5.25.
Seleccione tres carreras al azar e indique cuáles seleccionaron, determine los coeficiente de variación para cada carrera o para cada conjunto de datos de cada carrra conforme a la variable Promedio. ¿Cuál de los tres conjuntos tiene mayor y menor coeficiene de variación y qué significa?.

SISTEMAS

datos.sistemas <- subset(datos, Carrera == 'SISTEMAS') 

head(datos.sistemas)

##   X.1 X NoControl Alumno Semestre Cr.Aprobados Cr.Cursando Promedio  Carrera
## 1   1 1         1      1       12          207          19    79.84 SISTEMAS
## 2   2 2         2      2       13          226           9    82.55 SISTEMAS
## 3   3 3         3      3       10          235          10    95.16 SISTEMAS
## 4   4 4         4      4       13          231          14    79.32 SISTEMAS
## 5   5 5         5      5       10          235          10    92.67 SISTEMAS
## 6   6 6         6      6       10          235          10    91.25 SISTEMAS

media.sistemas <- mean(datos.sistemas$Promedio)
varianza.sistemas <- var(datos.sistemas$Promedio)
desviacion.sistemas <- sd(datos.sistemas$Promedio)
CV.sistemas <- desviacion.sistemas / media.sistemas * 100

media.sistemas

## [1] 87.15769

varianza.sistemas

## [1] 20.32183

desviacion.sistemas

## [1] 4.507974

CV.sistemas

## [1] 5.172205

MECATRONICA

datos.mecatronica <- subset(datos, Carrera == 'MECATRONICA') 

head(datos.mecatronica)

##       X.1    X NoControl Alumno Semestre Cr.Aprobados Cr.Cursando Promedio
## 2049 2049 2049         1      1       13          195          25    78.63
## 2050 2050 2050         2      2       12          229           6    80.46
## 2051 2051 2051         3      3       12          220          15    83.91
## 2052 2052 2052         4      4       10          235          10    92.45
## 2053 2053 2053         5      5       10          201           9    84.10
## 2054 2054 2054         6      6       11          189          36    83.03
##          Carrera
## 2049 MECATRONICA
## 2050 MECATRONICA
## 2051 MECATRONICA
## 2052 MECATRONICA
## 2053 MECATRONICA
## 2054 MECATRONICA

media.mecatronica <- mean(datos.mecatronica$Promedio)
varianza.mecatronica <- var(datos.mecatronica$Promedio)
desviacion.mecatronica <- sd(datos.mecatronica$Promedio)
CV.mecatronica <- desviacion.mecatronica / media.mecatronica * 100

media.mecatronica

## [1] 85.23032

varianza.mecatronica

## [1] 13.01185

desviacion.mecatronica

## [1] 3.607194

CV.mecatronica

## [1] 4.232289

GESTIÓN

datos.gestion <- subset(datos, Carrera == 'GESTION') 

head(datos.gestion)

##       X.1    X NoControl Alumno Semestre Cr.Aprobados Cr.Cursando Promedio
## 1016 1016 1016         1      1       10          230          15    85.75
## 1017 1017 1017         2      2       10          235          10    93.49
## 1018 1018 1018         3      3       13          235          10    90.00
## 1019 1019 1019         4      4       11          195          10    87.54
## 1020 1020 1020         5      5       10          220          10    86.24
## 1021 1021 1021         6      6       11          235          10    83.33
##      Carrera
## 1016 GESTION
## 1017 GESTION
## 1018 GESTION
## 1019 GESTION
## 1020 GESTION
## 1021 GESTION

media.gestion <- mean(datos.gestion$Promedio)
varianza.gestion <- var(datos.gestion$Promedio)
desviacion.gestion <- sd(datos.gestion$Promedio)
CV.gestion <- desviacion.gestion / media.gestion * 100

media.gestion

## [1] 88.33218

varianza.gestion

## [1] 16.39952

desviacion.gestion

## [1] 4.049632

CV.gestion

## [1] 4.584549

La carrera de Sistemas es la que tiene un mayor coeficiente de variación y la carrera de mecatronica la menor, esto quiere decir que Sistemas tiene una mayor dispersión de la media con respecto a su promedio, esto quiere decir, que sus datos son los que más se despegan del promedio. Mientras que mecatronica, sus datos se depegan menos de la media.

¿Qué les deja el caso? El nuevo caso me deja nuevos temas de la estadistica y probabilidad, en este caso las medidas de dispersión, las cuales tiene por objetivo ver que tanto se dispersa un conjunto de datos de la media, una medida de tendencia central que hemos estado viendo desde el principio, que sigue presente en este tema y nos ayuda a determinar nuevas medidas aprendidas. También me dejo nuevas habilidades en el lenguaje de programación R y nuevas formas de utilizarlo en el análisis de datos estadisticos.

6 Referencias bibilográficas

Anderson, David R., Dennis J. Sweeney, and Thomas A. Williams. 2008a. Estadística Para Administración y Economía. 10th ed. Australia • Brasil • Corea • España • Estados Unidos • Japón • México • Reino Unido • Singapur: Cengage Learning,. ———. 2008b. Estadística Para Administración y Economía. 10th ed. Australia Brasil Corea España Estados Unidos Japón México Reino Unido Singapur: Cengage Learning,. Devore, Jay L. 2016b. Fundamentos de Probabilidad y Estadística. Primera Edición. CENGAGE. ———. 2016a. Fundamentos de Probabilidad y Estadística. Primera Edición. CENGAGE.

Caso 6. Medidas de dispersion

Karol Gracia Garcia

17/3/2021