Tabla de Frecuencias de alumnos inscritos en institución de Educación Superior

Objetivo. Identificar medidas de dispersión y visualizar datos de alumnos inscritos de una institución de educación superior.

Descripción. Cargar datos de los alumnos inscritos en el semestre Septiembre 2020-Enero 2021 y determinar medidas centrales media, mediana; encontrarmedidas de dispersión varianza, desviación estándar y coeficiente de variación; visualizar datos con diagrama de cajas de alumnos por carrera y sus promediospara ubicar cuartiles, gráficas de dispersión de cada carrera y los promedios de cada alumno identificando el coeficiente de dispersión en cada conjunto de datos.

1. Cargar librerías library (readr), (ggplot2), (dplyr)

library(readr)
library(ggplot2)
library(dplyr)

2. Cargar los datos de la dirección citada. read.csv()

datos<- read.csv("https://raw.githubusercontent.com/rpizarrog/probabilidad-y-estad-stica/master/datos/promedios%20alumnos/datos%20alumnos%20promedios%20SEP%202020.csv")
head(datos)
##   No..Control Alumno Semestre Cr..Apr. Carga Promedio  Carrera
## 1    20190001      1       11      198    19    80.21 SISTEMAS
## 2    20190002      2       11      235    10    84.33 SISTEMAS
## 3    20190003      3        9      235    10    95.25 SISTEMAS
## 4    20190004      4        9      226    19    95.00 SISTEMAS
## 5    20190005      5       10      231    14    82.32 SISTEMAS
## 6    20190006      6        9      212    23    95.02 SISTEMAS
tail(datos)
##      No..Control Alumno Semestre Cr..Apr. Carga Promedio        Carrera
## 5924    20195924   5924        2       27    28    92.83 ADMINISTRACION
## 5925    20195925   5925        7       94    13    80.95 ADMINISTRACION
## 5926    20195926   5926        5      103    32    92.68 ADMINISTRACION
## 5927    20195927   5927        4       79    34    86.18 ADMINISTRACION
## 5928    20195928   5928        5      108    32    90.48 ADMINISTRACION
## 5929    20195929   5929        7      169    32    92.33 ADMINISTRACION

3. Genera gráfica de caja de promedios de alumnos en función de las carreras para identificar cuartiles (1 gráfica)

ggplot(filter(datos,Promedio>0), aes(x= Carrera, y= Promedio, color=Carrera))+geom_boxplot() +
  labs(title = "Promedios de Alumnos por Carrera")

4. Identificar medidas de tendencia central con histograma y líneas de sus media y mediana de cada carrera en función de los promedios (14 gráficas)

ING EN SISTEMAS COMPUTACIONALES

*variables de interes es Promedio y Carrera

Sistemas<- filter(datos,Promedio>0 & Carrera=="SISTEMAS")

mean(Sistemas$Promedio)
## [1] 85.90464
median(Sistemas$Promedio)
## [1] 85.34
ggplot(Sistemas, aes(Promedio)) +
  geom_histogram(bins = 30) +
  geom_vline(aes(xintercept = median(Promedio),
                  color = "mediana"),
              linetype = "solid",
              size = 2) +
    geom_vline(aes(xintercept = mean(Promedio),
                  color = "media"),
              linetype = "solid",
              size = 2) +
  labs(title = "Histograma de Promedio de SISTEMAS",subtitle =  paste("Media = ", round(mean(Sistemas$Promedio),2), ", Mediana = ", round(median(Sistemas$Promedio),2))) 

ARQUITECTURA

Arquitectura<- filter(datos,Promedio>0 & Carrera=="ARQUITECTURA")

mean(Arquitectura$Promedio)
## [1] 86.46481
median(Arquitectura$Promedio)
## [1] 86.58
ggplot(Arquitectura, aes(Promedio)) +
  geom_histogram(bins = 30) +
  geom_vline(aes(xintercept = median(Promedio),
                  color = "mediana"),
              linetype = "solid",
              size = 2) +
    geom_vline(aes(xintercept = mean(Promedio),
                  color = "media"),
              linetype = "solid",
              size = 2) +
  labs(title = "Histograma de Promedio de ARQUITECTURA",subtitle =  paste("Media = ", round(mean(Arquitectura$Promedio),2), ", Mediana = ", round(median(Arquitectura$Promedio),2))) 

BIOQUIMICA

Bioquimica<- filter(datos,Promedio>0 & Carrera=="BIOQUIMICA")

mean(Bioquimica$Promedio)
## [1] 84.68143
median(Bioquimica$Promedio)
## [1] 84.06
ggplot(Bioquimica, aes(Promedio)) +
  geom_histogram(bins = 30) +
  geom_vline(aes(xintercept = median(Promedio),
                  color = "mediana"),
              linetype = "solid",
              size = 2) +
    geom_vline(aes(xintercept = mean(Promedio),
                  color = "media"),
              linetype = "solid",
              size = 2) +
  labs(title = "Histograma de Promedio de BIOQUIMICA",subtitle =  paste("Media = ", round(mean(Bioquimica$Promedio),2), ", Mediana = ", round(median(Bioquimica$Promedio),2))) 

CIVIL

Civil<- filter(datos,Promedio>0 & Carrera=="CIVIL")

mean(Civil$Promedio)
## [1] 84.281
median(Civil$Promedio)
## [1] 83.915
ggplot(Civil, aes(Promedio)) +
  geom_histogram(bins = 30) +
  geom_vline(aes(xintercept = median(Promedio),
                  color = "mediana"),
              linetype = "solid",
              size = 2) +
    geom_vline(aes(xintercept = mean(Promedio),
                  color = "media"),
              linetype = "solid",
              size = 2) +
  labs(title = "Histograma de Promedio de CIVIL",subtitle =  paste("Media = ", round(mean(Civil$Promedio),2), ", Mediana = ", round(median(Civil$Promedio),2))) 

ELECTRICA

Electrica<- filter(datos,Promedio>0 & Carrera=="ELECTRICA")

mean(Electrica$Promedio)
## [1] 83.77305
median(Electrica$Promedio)
## [1] 83.24
ggplot(Electrica, aes(Promedio)) +
  geom_histogram(bins = 30) +
  geom_vline(aes(xintercept = median(Promedio),
                  color = "mediana"),
              linetype = "solid",
              size = 2) +
    geom_vline(aes(xintercept = mean(Promedio),
                  color = "media"),
              linetype = "solid",
              size = 2) +
  labs(title = "Histograma de Promedio de ELECTRICA",subtitle =  paste("Media = ", round(mean(Electrica$Promedio),2), ", Mediana = ", round(median(Electrica$Promedio),2))) 

ELECTRONICA

Electronica<- filter(datos,Promedio>0 & Carrera=="ELECTRONICA")

mean(Electronica$Promedio)
## [1] 86.6572
median(Electronica$Promedio)
## [1] 86.67
ggplot(Electronica, aes(Promedio)) +
  geom_histogram(bins = 30) +
  geom_vline(aes(xintercept = median(Promedio),
                  color = "mediana"),
              linetype = "solid",
              size = 2) +
    geom_vline(aes(xintercept = mean(Promedio),
                  color = "media"),
              linetype = "solid",
              size = 2) +
  labs(title = "Histograma de Promedio de ELECTRONICA",subtitle =  paste("Media = ", round(mean(Electronica$Promedio),2), ", Mediana = ", round(median(Electronica$Promedio),2))) 

INDUSTRIAL

Industrial<- filter(datos,Promedio>0 & Carrera=="INDUSTRIAL")

mean(Industrial$Promedio)
## [1] 85.01737
median(Industrial$Promedio)
## [1] 84.64
ggplot(Industrial, aes(Promedio)) +
  geom_histogram(bins = 30) +
  geom_vline(aes(xintercept = median(Promedio),
                  color = "mediana"),
              linetype = "solid",
              size = 2) +
    geom_vline(aes(xintercept = mean(Promedio),
                  color = "media"),
              linetype = "solid",
              size = 2) +
  labs(title = "Histograma de Promedio de INDUSTRIAL",subtitle =  paste("Media = ", round(mean(Industrial$Promedio),2), ", Mediana = ", round(median(Industrial$Promedio),2))) 

MECANICA

Mecanica<- filter(datos,Promedio>0 & Carrera=="MECANICA")

mean(Mecanica$Promedio)
## [1] 82.58467
median(Mecanica$Promedio)
## [1] 82.02
ggplot(Mecanica, aes(Promedio)) +
  geom_histogram(bins = 30) +
  geom_vline(aes(xintercept = median(Promedio),
                  color = "mediana"),
              linetype = "solid",
              size = 2) +
    geom_vline(aes(xintercept = mean(Promedio),
                  color = "media"),
              linetype = "solid",
              size = 2) +
  labs(title = "Histograma de Promedio de MECANICA",subtitle =  paste("Media = ", round(mean(Mecanica$Promedio),2), ", Mediana = ", round(median(Mecanica$Promedio),2))) 

MECATRONICA

Mecatronica<- filter(datos,Promedio>0 & Carrera=="MECATRONICA")

mean(Mecatronica$Promedio)
## [1] 84.45948
median(Mecatronica$Promedio)
## [1] 84.085
ggplot(Mecatronica, aes(Promedio)) +
  geom_histogram(bins = 30) +
  geom_vline(aes(xintercept = median(Promedio),
                  color = "mediana"),
              linetype = "solid",
              size = 2) +
    geom_vline(aes(xintercept = mean(Promedio),
                  color = "media"),
              linetype = "solid",
              size = 2) +
  labs(title = "Histograma de Promedio de MECATRONICA",subtitle =  paste("Media = ", round(mean(Mecatronica$Promedio),2), ", Mediana = ", round(median(Mecatronica$Promedio),2))) 

QUIMICA

Quimica<- filter(datos,Promedio>0 & Carrera=="QUIMICA")

mean(Quimica$Promedio)
## [1] 86.05215
median(Quimica$Promedio)
## [1] 85.67
ggplot(Quimica, aes(Promedio)) +
  geom_histogram(bins = 30) +
  geom_vline(aes(xintercept = median(Promedio),
                  color = "mediana"),
              linetype = "solid",
              size = 2) +
    geom_vline(aes(xintercept = mean(Promedio),
                  color = "media"),
              linetype = "solid",
              size = 2) +
  labs(title = "Histograma de Promedio de QUIMICA",subtitle =  paste("Media = ", round(mean(Quimica$Promedio),2), ", Mediana = ", round(median(Quimica$Promedio),2))) 

GESTION EMPRESARIAL

Gestion<- filter(datos,Promedio>0 & Carrera=="GESTION EMPRESARIAL")

mean(Gestion$Promedio)
## [1] 87.66966
median(Gestion$Promedio)
## [1] 87.59
ggplot(Gestion, aes(Promedio)) +
  geom_histogram(bins = 30) +
  geom_vline(aes(xintercept = median(Promedio),
                  color = "mediana"),
              linetype = "solid",
              size = 2) +
    geom_vline(aes(xintercept = mean(Promedio),
                  color = "media"),
              linetype = "solid",
              size = 2) +
  labs(title = "Histograma de Promedio de GESTION EMPRESARIAL",subtitle =  paste("Media = ", round(mean(Gestion$Promedio),2), ", Mediana = ", round(median(Gestion$Promedio),2))) 

TIC

Tic<- filter(datos,Promedio>0 & Carrera=="TIC")

mean(Tic$Promedio)
## [1] 84.31719
median(Tic$Promedio)
## [1] 83.24
ggplot(Tic, aes(Promedio)) +
  geom_histogram(bins = 30) +
  geom_vline(aes(xintercept = median(Promedio),
                  color = "mediana"),
              linetype = "solid",
              size = 2) +
    geom_vline(aes(xintercept = mean(Promedio),
                  color = "media"),
              linetype = "solid",
              size = 2) +
  labs(title = "Histograma de Promedio de TIC",subtitle =  paste("Media = ", round(mean(Tic$Promedio),2), ", Mediana = ", round(median(Tic$Promedio),2))) 

INFORMATICA

Informatica<- filter(datos,Promedio>0 & Carrera=="INFORMATICA")

mean(Informatica$Promedio)
## [1] 86.26577
median(Informatica$Promedio)
## [1] 86.64
ggplot(Informatica, aes(Promedio)) +
  geom_histogram(bins = 30) +
  geom_vline(aes(xintercept = median(Promedio),
                  color = "mediana"),
              linetype = "solid",
              size = 2) +
    geom_vline(aes(xintercept = mean(Promedio),
                  color = "media"),
              linetype = "solid",
              size = 2) +
  labs(title = "Histograma de Promedio de INFORMATICA",subtitle =  paste("Media = ", round(mean(Informatica$Promedio),2), ", Mediana = ", round(median(Informatica$Promedio),2))) 

ADMINISTRACION

Administracion<- filter(datos,Promedio>0 & Carrera=="ADMINISTRACION")

mean(Administracion$Promedio)
## [1] 89.44312
median(Administracion$Promedio)
## [1] 89.605
ggplot(Administracion, aes(Promedio)) +
  geom_histogram(bins = 30) +
  geom_vline(aes(xintercept = median(Promedio),
                  color = "mediana"),
              linetype = "solid",
              size = 2) +
    geom_vline(aes(xintercept = mean(Promedio),
                  color = "media"),
              linetype = "solid",
              size = 2) +
  labs(title = "Histograma de Promedio de ADMINISTRACION",subtitle =  paste("Media = ", round(mean(Administracion$Promedio),2), ", Mediana = ", round(median(Administracion$Promedio),2))) 

5. Identificar varianza y desviación estándar en una gráfica de dispersión de los promedios de cada carrera (14 gráficas)

ING EN SISTEMAS COMPUTACIONALES

n <- nrow(Sistemas)
ggplot(Sistemas, aes(x = 1:n, y = Promedio)) +
   geom_point() +
    labs(title = "Dispersión de Promedio de Sistemas", subtitle =  paste("Varianza = ", round(var(Sistemas$Promedio),2), ", DesvStd = ", round(sd(Sistemas$Promedio),2), ", C.V. = ",  round(sd(Sistemas$Promedio) / mean(Sistemas$Promedio) *  100, 2 )))

ARQUITECTURA

n <- nrow(Arquitectura)
ggplot(Arquitectura, aes(x = 1:n, y = Promedio)) +
   geom_point() +
    labs(title = "Dispersión de Promedio de Arquitectura", subtitle =  paste("Varianza = ", round(var(Arquitectura$Promedio),2), ", DesvStd = ", round(sd(Arquitectura$Promedio),2), ", C.V. = ",  round(sd(Arquitectura$Promedio) / mean(Arquitectura$Promedio) *  100, 2 )))

BIOQUIMICA

n <- nrow(Bioquimica)
ggplot(Bioquimica, aes(x = 1:n, y = Promedio)) +
   geom_point() +
    labs(title = "Dispersión de Promedio de Bioquimica", subtitle =  paste("Varianza = ", round(var(Bioquimica$Promedio),2), ", DesvStd = ", round(sd(Bioquimica$Promedio),2), ", C.V. = ",  round(sd(Bioquimica$Promedio) / mean(Bioquimica$Promedio) *  100, 2 )))

CIVIL

n <- nrow(Civil)
ggplot(Civil, aes(x = 1:n, y = Promedio)) +
   geom_point() +
    labs(title = "Dispersión de Promedio de Civil", subtitle =  paste("Varianza = ", round(var(Civil$Promedio),2), ", DesvStd = ", round(sd(Civil$Promedio),2), ", C.V. = ",  round(sd(Civil$Promedio) / mean(Civil$Promedio) *  100, 2 )))

ELECTRICA

n <- nrow(Electrica)
ggplot(Electrica, aes(x = 1:n, y = Promedio)) +
   geom_point() +
    labs(title = "Dispersión de Promedio de Electrica", subtitle =  paste("Varianza = ", round(var(Electrica$Promedio),2), ", DesvStd = ", round(sd(Electrica$Promedio),2), ", C.V. = ",  round(sd(Electrica$Promedio) / mean(Electrica$Promedio) *  100, 2 )))

ELECTRONICA

n <- nrow(Electronica)
ggplot(Electronica, aes(x = 1:n, y = Promedio)) +
   geom_point() +
    labs(title = "Dispersión de Promedio de Electronica", subtitle =  paste("Varianza = ", round(var(Electronica$Promedio),2), ", DesvStd = ", round(sd(Electronica$Promedio),2), ", C.V. = ",  round(sd(Electronica$Promedio) / mean(Electronica$Promedio) *  100, 2 )))

INDUSTRIAL

n <- nrow(Industrial)
ggplot(Industrial, aes(x = 1:n, y = Promedio)) +
   geom_point() +
    labs(title = "Dispersión de Promedio de Industrial", subtitle =  paste("Varianza = ", round(var(Industrial$Promedio),2), ", DesvStd = ", round(sd(Industrial$Promedio),2), ", C.V. = ",  round(sd(Industrial$Promedio) / mean(Industrial$Promedio) *  100, 2 )))

MECANICA

n <- nrow(Mecanica)
ggplot(Mecanica, aes(x = 1:n, y = Promedio)) +
   geom_point() +
    labs(title = "Dispersión de Promedio de Mecanica", subtitle =  paste("Varianza = ", round(var(Mecanica$Promedio),2), ", DesvStd = ", round(sd(Mecanica$Promedio),2), ", C.V. = ",  round(sd(Mecanica$Promedio) / mean(Mecanica$Promedio) *  100, 2 )))

MECATRONICA

n <- nrow(Mecatronica)
ggplot(Mecatronica, aes(x = 1:n, y = Promedio)) +
   geom_point() +
    labs(title = "Dispersión de Promedio de Mecatronica", subtitle =  paste("Varianza = ", round(var(Mecatronica$Promedio),2), ", DesvStd = ", round(sd(Mecatronica$Promedio),2), ", C.V. = ",  round(sd(Mecatronica$Promedio) / mean(Mecatronica$Promedio) *  100, 2 )))

QUIMICA

n <- nrow(Quimica)
ggplot(Quimica, aes(x = 1:n, y = Promedio)) +
   geom_point() +
    labs(title = "Dispersión de Promedio de Quimica", subtitle =  paste("Varianza = ", round(var(Quimica$Promedio),2), ", DesvStd = ", round(sd(Quimica$Promedio),2), ", C.V. = ",  round(sd(Quimica$Promedio) / mean(Quimica$Promedio) *  100, 2 )))

GESTION EMPRESARIAL

n <- nrow(Gestion)
ggplot(Gestion, aes(x = 1:n, y = Promedio)) +
   geom_point() +
    labs(title = "Dispersión de Promedio de Gestion Empresarial", subtitle =  paste("Varianza = ", round(var(Gestion$Promedio),2), ", DesvStd = ", round(sd(Gestion$Promedio),2), ", C.V. = ",  round(sd(Gestion$Promedio) / mean(Gestion$Promedio) *  100, 2 )))

TIC

n <- nrow(Tic)
ggplot(Tic, aes(x = 1:n, y = Promedio)) +
   geom_point() +
    labs(title = "Dispersión de Promedio de Tic", subtitle =  paste("Varianza = ", round(var(Tic$Promedio),2), ", DesvStd = ", round(sd(Tic$Promedio),2), ", C.V. = ",  round(sd(Tic$Promedio) / mean(Tic$Promedio) *  100, 2 )))

INFORMATICA

n <- nrow(Informatica)
ggplot(Informatica, aes(x = 1:n, y = Promedio)) +
   geom_point() +
    labs(title = "Dispersión de Promedio de Informatica", subtitle =  paste("Varianza = ", round(var(Informatica$Promedio),2), ", DesvStd = ", round(sd(Informatica$Promedio),2), ", C.V. = ",  round(sd(Informatica$Promedio) / mean(Informatica$Promedio) *  100, 2 )))

ADMINISTRACION

n <- nrow(Administracion)
ggplot(Administracion, aes(x = 1:n, y = Promedio)) +
   geom_point() +
    labs(title = "Dispersión de Promedio de Administracion", subtitle =  paste("Varianza = ", round(var(Administracion$Promedio),2), ", DesvStd = ", round(sd(Administracion$Promedio),2), ", C.V. = ",  round(sd(Administracion$Promedio) / mean(Administracion$Promedio) *  100, 2 )))

6. Identificar el coeficiente de dispersión para cada carrera en función de los promedios

tabla <- datos %>%
    group_by (Carrera) %>%
    summarize(n = n(), media = mean(Promedio), mediana = median(Promedio), vari = var(Promedio), desvstd = sd(Promedio), cv = desvstd / media * 100)
## `summarise()` ungrouping output (override with `.groups` argument)
tabla
## # A tibble: 14 x 7
##    Carrera                 n media mediana  vari desvstd    cv
##    <chr>               <int> <dbl>   <dbl> <dbl>   <dbl> <dbl>
##  1 ADMINISTRACION        497  74.5    88.4 1125.    33.5  45.0
##  2 ARQUITECTURA          675  70.1    85.4 1163.    34.1  48.7
##  3 BIOQUIMICA            441  68.6    82.8 1126.    33.6  48.9
##  4 CIVIL                 648  73.1    83.1  834.    28.9  39.5
##  5 ELECTRICA             280  60.7    81.8 1414.    37.6  61.9
##  6 ELECTRONICA           161  67.3    85.3 1324.    36.4  54.1
##  7 GESTION EMPRESARIAL   585  74.2    86.7 1013.    31.8  42.9
##  8 INDUSTRIAL            707  74.2    83.7  819.    28.6  38.6
##  9 INFORMATICA           101  60.6    83.6 1581.    39.8  65.6
## 10 MECANICA              301  61.7    80.7 1302.    36.1  58.4
## 11 MECATRONICA           432  70.8    83.4  981.    31.3  44.3
## 12 QUIMICA               568  72.6    84.6  996.    31.6  43.5
## 13 SISTEMAS              452  70.9    84.1 1081.    32.9  46.4
## 14 TIC                    81  66.6    81.7 1209.    34.8  52.2

7. Interpretación del CASO 5

Comenzamos el caso número 5, que son las medidas de dispersión de los alumnos del tecnológico de durango se presenta las medias y medianas de cada carrera, bueno empezamos con la media y mediana de SISTEMAS, que la media es: 85.90 y la mediana es: 85.34. en ARQUITECTURA la media es: 86.46 y la mediana es 86.58. en BIOQUÍMICA la media es: 84.68 y la mediana es 84.06. en CIVIL la media es: 84.28 y la mediana es: 83.91. en ELÉCTRICA la media es 83.77 y la mediana es 83.24. en ELECTRÓNICA la media es: 86.65 y la mediana es 86.67. en INDUSTRIAL la media es: 85.01 y la mediana es: 84.64. en MECÁNICA la media es: 82.58 y la mediana: 82.02. en MECATRÓNICA la media es: 84.45 y la mediana es: 84.085. en QUÍMICA la media es: 86.05 y la mediana es: 85.67. en GESTIÓN EMPRESARIAL la media es: 87.66 y la mediana 87.59. en TIC la media es 84.31 y la mediana es: 83.24. en INFORMÁTICA la media es 86.26 y la mediana es 86.64. por último, en ADMINISTRACIÓN la media es 89.44 y la mediana 89.60, como vemos son todas las carreras que nuestro instituto ofrece a los estudiantes de media superior y la carrera con mas media y mediana es la de ADMINISTRACIÓN y la carrera con menos media y mediana es MECÁNICA. Por último, tenemos la varianza y la desviación estándar, tenemos que en SISTEMAS la Varianza es: 17.05 y la desviación es: 4.13. en ARQUITECTURA la varianza es: 15.57 y la desviación es: 3.95. en BIOQUÍMICA la varianza es: 21.63 y la desviación es: 4.65. en CIVIL la varianza es: 17.37 y la desviación es: 4.17. en ELÉCTRICA la varianza es: 13.22 y la desviación es: 3.64. en ELECTRÓNICA la varianza es: 15.8 y la desviación es: 3.98. en INDUSTRIAL la varianza es: 17.2 y la desviación es: 4.15. en MECÁNICA la varianza es: 13.72 y la desviación es: 3.7. en MECATRÓNICA la varianza es: 12.46 y la desviación es: 3.53. en QUÍMICA la varianza es: 18.48 y la desviación es: 4.3. en GESTIÓN EMPRESARIAL la varianza es: 12.64 y la desviación es: 3.55. en TIC la varianza es: 19.55 y la desviación es: 4.42. en INFORMÁTICA la varianza es: 16.49 y la desviación es: 4.06. por último, en ADMINISTRACIÓN la varianza es: 12.08 y la desviación es: 3.48. la carrera con más varianza y desviación fue BIOQUÍMICA y la menor fue ADMINISTRACIÓN. Ya finalmente se representan todos estos datos en graficas con el apoyo de la función ggplot.