PASO 1. Cargar librerías

library(readr)
library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
library(ggplot2)

PASO 2. Cargar los datos

datos = read.csv("https://raw.githubusercontent.com/rpizarrog/probabilidad-y-estad-stica/master/datos/promedios%20alumnos/datos%20alumnos%20promedios%20SEP%202020.csv", encoding = "UTF-8")

Identificar los primeros 6 y últimos 6 registros de mi conjunto

head(datos)
##   No..Control Alumno Semestre Cr..Apr. Carga Promedio  Carrera
## 1    20190001      1       11      198    19    80.21 SISTEMAS
## 2    20190002      2       11      235    10    84.33 SISTEMAS
## 3    20190003      3        9      235    10    95.25 SISTEMAS
## 4    20190004      4        9      226    19    95.00 SISTEMAS
## 5    20190005      5       10      231    14    82.32 SISTEMAS
## 6    20190006      6        9      212    23    95.02 SISTEMAS
tail(datos)
##      No..Control Alumno Semestre Cr..Apr. Carga Promedio        Carrera
## 5924    20195924   5924        2       27    28    92.83 ADMINISTRACION
## 5925    20195925   5925        7       94    13    80.95 ADMINISTRACION
## 5926    20195926   5926        5      103    32    92.68 ADMINISTRACION
## 5927    20195927   5927        4       79    34    86.18 ADMINISTRACION
## 5928    20195928   5928        5      108    32    90.48 ADMINISTRACION
## 5929    20195929   5929        7      169    32    92.33 ADMINISTRACION

PASO 3.

ggplot(filter(datos, Promedio > 0), aes(x = Carrera, y = Promedio, color= Carrera ) ) +
    geom_boxplot()

PASO 4

Identificar medidas de tendencia central con histograma y líneas de sus media y mediana de cada carrera en función de los promedios (14 gráficas)

1. ADMINISTRACIÓN

administracion = filter (datos, Promedio > 0 & Carrera == "ADMINISTRACION") 

mean(administracion$Promedio)
## [1] 89.44312
median(administracion$Promedio)
## [1] 89.605
ggplot(administracion, aes(Promedio)) +
  geom_histogram(bins = 30) +
  geom_vline(aes(xintercept = median(Promedio),
                  color = "mediana"),
              linetype = "solid",
              size = 2) +
    geom_vline(aes(xintercept = mean(Promedio),
                  color = "media"),
              linetype = "solid",
              size = 2) +
  labs(title = "Histograma de Promedio de Administración",subtitle =  paste("Media = ", round(mean(administracion$Promedio),2), ", Mediana = ", round(median(administracion$Promedio),2))) 

2. ARQUITECTURA

arqui = filter (datos, Promedio > 0 & Carrera == "ARQUITECTURA") 

mean(arqui$Promedio)
## [1] 86.46481
median(arqui$Promedio)
## [1] 86.58
ggplot(arqui, aes(Promedio)) +
  geom_histogram(bins = 30) +
  geom_vline(aes(xintercept = median(Promedio),
                  color = "mediana"),
              linetype = "solid",
              size = 2) +
    geom_vline(aes(xintercept = mean(Promedio),
                  color = "media"),
              linetype = "solid",
              size = 2) +
  labs(title = "Histograma de Promedio de Arquitectura",subtitle =  paste("Media = ", round(mean(arqui$Promedio),2), ", Mediana = ", round(median(arqui$Promedio),2))) 

3. BIOQUIMICA

bio = filter (datos, Promedio > 0 & Carrera == "BIOQUIMICA") 

mean(bio$Promedio)
## [1] 84.68143
median(bio$Promedio)
## [1] 84.06
ggplot(bio, aes(Promedio)) +
  geom_histogram(bins = 30) +
  geom_vline(aes(xintercept = median(Promedio),
                  color = "mediana"),
              linetype = "solid",
              size = 2) +
    geom_vline(aes(xintercept = mean(Promedio),
                  color = "media"),
              linetype = "solid",
              size = 2) +
  labs(title = "Histograma de Promedio de Bioquímica",subtitle =  paste("Media = ", round(mean(bio$Promedio),2), ", Mediana = ", round(median(bio$Promedio),2))) 

4. CIVIL

civil = filter (datos, Promedio > 0 & Carrera == "CIVIL") 

mean(civil$Promedio)
## [1] 84.281
median(civil$Promedio)
## [1] 83.915
ggplot(civil, aes(Promedio)) +
  geom_histogram(bins = 30) +
  geom_vline(aes(xintercept = median(Promedio),
                  color = "mediana"),
              linetype = "solid",
              size = 2) +
    geom_vline(aes(xintercept = mean(Promedio),
                  color = "media"),
              linetype = "solid",
              size = 2) +
  labs(title = "Histograma de Promedio de Civil",subtitle =  paste("Media = ", round(mean(civil$Promedio),2), ", Mediana = ", round(median(civil$Promedio),2))) 

5. ELECTRICA

electri = filter (datos, Promedio > 0 & Carrera == "ELECTRICA") 

mean(electri$Promedio)
## [1] 83.77305
median(electri$Promedio)
## [1] 83.24
ggplot(electri, aes(Promedio)) +
  geom_histogram(bins = 30) +
  geom_vline(aes(xintercept = median(Promedio),
                  color = "mediana"),
              linetype = "solid",
              size = 2) +
    geom_vline(aes(xintercept = mean(Promedio),
                  color = "media"),
              linetype = "solid",
              size = 2) +
  labs(title = "Histograma de Promedio de Eléctrica",subtitle =  paste("Media = ", round(mean(electri$Promedio),2), ", Mediana = ", round(median(electri$Promedio),2))) 

6. ELECTRONICA

electron = filter (datos, Promedio > 0 & Carrera == "ELECTRONICA") 

mean(electron$Promedio)
## [1] 86.6572
median(electron$Promedio)
## [1] 86.67
ggplot(electron, aes(Promedio)) +
  geom_histogram(bins = 30) +
  geom_vline(aes(xintercept = median(Promedio),
                  color = "mediana"),
              linetype = "solid",
              size = 2) +
    geom_vline(aes(xintercept = mean(Promedio),
                  color = "media"),
              linetype = "solid",
              size = 2) +
  labs(title = "Histograma de Promedio de Electrónica",subtitle =  paste("Media = ", round(mean(electron$Promedio),2), ", Mediana = ", round(median(electron$Promedio),2))) 

7. GESTION EMPRESARIAL

gesti = filter (datos, Promedio > 0 & Carrera == "GESTION EMPRESARIAL") 

mean(gesti$Promedio)
## [1] 87.66966
median(gesti$Promedio)
## [1] 87.59
ggplot(gesti, aes(Promedio)) +
  geom_histogram(bins = 30) +
  geom_vline(aes(xintercept = median(Promedio),
                  color = "mediana"),
              linetype = "solid",
              size = 2) +
    geom_vline(aes(xintercept = mean(Promedio),
                  color = "media"),
              linetype = "solid",
              size = 2) +
  labs(title = "Histograma de Promedio de Gestión Empresarial",subtitle =  paste("Media = ", round(mean(gesti$Promedio),2), ", Mediana = ", round(median(gesti$Promedio),2))) 

8. INDUSTRIAL

indus = filter (datos, Promedio > 0 & Carrera == "INDUSTRIAL") 

mean(indus$Promedio)
## [1] 85.01737
median(indus$Promedio)
## [1] 84.64
ggplot(indus, aes(Promedio)) +
  geom_histogram(bins = 30) +
  geom_vline(aes(xintercept = median(Promedio),
                  color = "mediana"),
              linetype = "solid",
              size = 2) +
    geom_vline(aes(xintercept = mean(Promedio),
                  color = "media"),
              linetype = "solid",
              size = 2) +
  labs(title = "Histograma de Promedio de Industrial",subtitle =  paste("Media = ", round(mean(indus$Promedio),2), ", Mediana = ", round(median(indus$Promedio),2))) 

9. INFORMATICA

infor = filter (datos, Promedio > 0 & Carrera == "INFORMATICA") 

mean(infor$Promedio)
## [1] 86.26577
median(infor$Promedio)
## [1] 86.64
ggplot(infor, aes(Promedio)) +
  geom_histogram(bins = 30) +
  geom_vline(aes(xintercept = median(Promedio),
                  color = "mediana"),
              linetype = "solid",
              size = 2) +
    geom_vline(aes(xintercept = mean(Promedio),
                  color = "media"),
              linetype = "solid",
              size = 2) +
  labs(title = "Histograma de Promedio de Informática",subtitle =  paste("Media = ", round(mean(infor$Promedio),2), ", Mediana = ", round(median(infor$Promedio),2))) 

10. MECANICA

 meca= filter (datos, Promedio > 0 & Carrera == "MECANICA") 

mean(meca$Promedio)
## [1] 82.58467
median(meca$Promedio)
## [1] 82.02
ggplot(meca, aes(Promedio)) +
  geom_histogram(bins = 30) +
  geom_vline(aes(xintercept = median(Promedio),
                  color = "mediana"),
              linetype = "solid",
              size = 2) +
    geom_vline(aes(xintercept = mean(Promedio),
                  color = "media"),
              linetype = "solid",
              size = 2) +
  labs(title = "Histograma de Promedio de Mecánica",subtitle =  paste("Media = ", round(mean(meca$Promedio),2), ", Mediana = ", round(median(meca$Promedio),2))) 

11. MECATRONICA

mecatron = filter (datos, Promedio > 0 & Carrera == "MECATRONICA") 

mean(mecatron$Promedio)
## [1] 84.45948
median(mecatron$Promedio)
## [1] 84.085
ggplot(mecatron, aes(Promedio)) +
  geom_histogram(bins = 30) +
  geom_vline(aes(xintercept = median(Promedio),
                  color = "mediana"),
              linetype = "solid",
              size = 2) +
    geom_vline(aes(xintercept = mean(Promedio),
                  color = "media"),
              linetype = "solid",
              size = 2) +
  labs(title = "Histograma de Promedio de Mecatrónica",subtitle =  paste("Media = ", round(mean(mecatron$Promedio),2), ", Mediana = ", round(median(mecatron$Promedio),2))) 

12. QUIMICA

quim = filter (datos, Promedio > 0 & Carrera == "QUIMICA") 

mean(quim$Promedio)
## [1] 86.05215
median(quim$Promedio)
## [1] 85.67
ggplot(quim, aes(Promedio)) +
  geom_histogram(bins = 30) +
  geom_vline(aes(xintercept = median(Promedio),
                  color = "mediana"),
              linetype = "solid",
              size = 2) +
    geom_vline(aes(xintercept = mean(Promedio),
                  color = "media"),
              linetype = "solid",
              size = 2) +
  labs(title = "Histograma de Promedio de Química",subtitle =  paste("Media = ", round(mean(quim$Promedio),2), ", Mediana = ", round(median(quim$Promedio),2))) 

13. SISTEMAS

sis = filter (datos, Promedio > 0 & Carrera == "SISTEMAS") 

mean(sis$Promedio)
## [1] 85.90464
median(sis$Promedio)
## [1] 85.34
ggplot(sis, aes(Promedio)) +
  geom_histogram(bins = 30) +
  geom_vline(aes(xintercept = median(Promedio),
                  color = "mediana"),
              linetype = "solid",
              size = 2) +
    geom_vline(aes(xintercept = mean(Promedio),
                  color = "media"),
              linetype = "solid",
              size = 2) +
  labs(title = "Histograma de Promedio de Sistemas",subtitle =  paste("Media = ", round(mean(sis$Promedio),2), ", Mediana = ", round(median(sis$Promedio),2))) 

14. TICS

tics = filter (datos, Promedio > 0 & Carrera == "TIC") 

mean(tics$Promedio)
## [1] 84.31719
median(tics$Promedio)
## [1] 83.24
ggplot(tics, aes(Promedio)) +
  geom_histogram(bins = 30) +
  geom_vline(aes(xintercept = median(Promedio),
                  color = "mediana"),
              linetype = "solid",
              size = 2) +
    geom_vline(aes(xintercept = mean(Promedio),
                  color = "media"),
              linetype = "solid",
              size = 2) +
  labs(title = "Histograma de Promedio de TICs",subtitle =  paste("Media = ", round(mean(tics$Promedio),2), ", Mediana = ", round(median(tics$Promedio),2))) 

PASO 5. Identificar varianza y desviación estándar en una gráfica de dispersión de los promedios de cada carrera (14 gráficas)

1. ADMINISTRACION

n = nrow(administracion)
ggplot(administracion, aes(x = 1:n, y = Promedio)) +
   geom_point() +
    labs(title = "Dispersión de Promedio de Administración", subtitle =  paste("Varianza = ", round(var(administracion$Promedio),2), ", DesvStd = ", round(sd(administracion$Promedio),2), ", C.V. = ",  round(sd(administracion$Promedio) / mean(administracion$Promedio) *  100, 2 )))

2. ARQUITECTURA

n = nrow(arqui)
ggplot(arqui, aes(x = 1:n, y = Promedio)) +
   geom_point() +
    labs(title = "Dispersión de Promedio de Arquitectura", subtitle =  paste("Varianza = ", round(var(arqui$Promedio),2), ", DesvStd = ", round(sd(arqui$Promedio),2), ", C.V. = ",  round(sd(arqui$Promedio) / mean(arqui$Promedio) *  100, 2 )))

3. BIOQUIMICA

n = nrow(bio)
ggplot(bio, aes(x = 1:n, y = Promedio)) +
   geom_point() +
    labs(title = "Dispersión de Promedio de Bioquímica", subtitle =  paste("Varianza = ", round(var(bio$Promedio),2), ", DesvStd = ", round(sd(bio$Promedio),2), ", C.V. = ",  round(sd(bio$Promedio) / mean(bio$Promedio) *  100, 2 )))

4. CIVIL

n = nrow(civil)
ggplot(civil, aes(x = 1:n, y = Promedio)) +
   geom_point() +
    labs(title = "Dispersión de Promedio de Civil", subtitle =  paste("Varianza = ", round(var(civil$Promedio),2), ", DesvStd = ", round(sd(civil$Promedio),2), ", C.V. = ",  round(sd(civil$Promedio) / mean(civil$Promedio) *  100, 2 )))

5. ELECTRICA

n = nrow(electri)
ggplot(electri, aes(x = 1:n, y = Promedio)) +
   geom_point() +
    labs(title = "Dispersión de Promedio de Electrica", subtitle =  paste("Varianza = ", round(var(electri$Promedio),2), ", DesvStd = ", round(sd(electri$Promedio),2), ", C.V. = ",  round(sd(electri$Promedio) / mean(electri$Promedio) *  100, 2 )))

6. ELECTRÓNICA

n = nrow(electron)
ggplot(electron, aes(x = 1:n, y = Promedio)) +
   geom_point() +
    labs(title = "Dispersión de Promedio de Electróncia", subtitle =  paste("Varianza = ", round(var(electron$Promedio),2), ", DesvStd = ", round(sd(electron$Promedio),2), ", C.V. = ",  round(sd(electron$Promedio) / mean(electron$Promedio) *  100, 2 )))

7. GESTIÓN EMPRESARIAL

n = nrow(gesti)
ggplot(gesti, aes(x = 1:n, y = Promedio)) +
   geom_point() +
    labs(title = "Dispersión de Promedio de Gestión", subtitle =  paste("Varianza = ", round(var(gesti$Promedio),2), ", DesvStd = ", round(sd(gesti$Promedio),2), ", C.V. = ",  round(sd(gesti$Promedio) / mean(gesti$Promedio) *  100, 2 )))

8. INDUTRIAL

n = nrow(indus)
ggplot(indus, aes(x = 1:n, y = Promedio)) +
   geom_point() +
    labs(title = "Dispersión de Promedio de Industrial", subtitle =  paste("Varianza = ", round(var(indus$Promedio),2), ", DesvStd = ", round(sd(indus$Promedio),2), ", C.V. = ",  round(sd(indus$Promedio) / mean(indus$Promedio) *  100, 2 )))

9. INFORMÁTICA

n = nrow(infor)
ggplot(infor, aes(x = 1:n, y = Promedio)) +
   geom_point() +
    labs(title = "Dispersión de Promedio de Informática", subtitle =  paste("Varianza = ", round(var(infor$Promedio),2), ", DesvStd = ", round(sd(infor$Promedio),2), ", C.V. = ",  round(sd(infor$Promedio) / mean(infor$Promedio) *  100, 2 )))

10. MECÁNICA

n = nrow(meca)
ggplot(meca, aes(x = 1:n, y = Promedio)) +
   geom_point() +
    labs(title = "Dispersión de Promedio de Mecánica", subtitle =  paste("Varianza = ", round(var(meca$Promedio),2), ", DesvStd = ", round(sd(meca$Promedio),2), ", C.V. = ",  round(sd(meca$Promedio) / mean(meca$Promedio) *  100, 2 )))

11. MECATRÓNICA

n = nrow(mecatron)
ggplot(mecatron, aes(x = 1:n, y = Promedio)) +
   geom_point() +
    labs(title = "Dispersión de Promedio de Mecatrónica", subtitle =  paste("Varianza = ", round(var(mecatron$Promedio),2), ", DesvStd = ", round(sd(mecatron$Promedio),2), ", C.V. = ",  round(sd(mecatron$Promedio) / mean(mecatron$Promedio) *  100, 2 )))

12. QUÍMICA

n = nrow(quim)
ggplot(quim, aes(x = 1:n, y = Promedio)) +
   geom_point() +
    labs(title = "Dispersión de Promedio de Química", subtitle =  paste("Varianza = ", round(var(quim$Promedio),2), ", DesvStd = ", round(sd(quim$Promedio),2), ", C.V. = ",  round(sd(quim$Promedio) / mean(quim$Promedio) *  100, 2 )))

13. SISTEMAS

n = nrow(sis)
ggplot(sis, aes(x = 1:n, y = Promedio)) +
   geom_point() +
    labs(title = "Dispersión de Promedio de Sistemas", subtitle =  paste("Varianza = ", round(var(sis$Promedio),2), ", DesvStd = ", round(sd(sis$Promedio),2), ", C.V. = ",  round(sd(sis$Promedio) / mean(sis$Promedio) *  100, 2 )))

14. TICs

n = nrow(tics)
ggplot(tics, aes(x = 1:n, y = Promedio)) +
   geom_point() +
    labs(title = "Dispersión de Promedio de TICs", subtitle =  paste("Varianza = ", round(var(tics$Promedio),2), ", DesvStd = ", round(sd(tics$Promedio),2), ", C.V. = ",  round(sd(tics$Promedio) / mean(tics$Promedio) *  100, 2 )))

PASO 6. Determinar una tabla para todos los parámetros estadísticos solicitados.

Tabla = datos %>%
    group_by (Carrera) %>%
    summarize(n = n(), media = mean(Promedio), mediana = median(Promedio), vari = var(Promedio), desvstd = sd(Promedio), cv = desvstd / media * 100)
## `summarise()` ungrouping output (override with `.groups` argument)
Tabla
## # A tibble: 14 x 7
##    Carrera                 n media mediana  vari desvstd    cv
##    <chr>               <int> <dbl>   <dbl> <dbl>   <dbl> <dbl>
##  1 ADMINISTRACION        497  74.5    88.4 1125.    33.5  45.0
##  2 ARQUITECTURA          675  70.1    85.4 1163.    34.1  48.7
##  3 BIOQUIMICA            441  68.6    82.8 1126.    33.6  48.9
##  4 CIVIL                 648  73.1    83.1  834.    28.9  39.5
##  5 ELECTRICA             280  60.7    81.8 1414.    37.6  61.9
##  6 ELECTRONICA           161  67.3    85.3 1324.    36.4  54.1
##  7 GESTION EMPRESARIAL   585  74.2    86.7 1013.    31.8  42.9
##  8 INDUSTRIAL            707  74.2    83.7  819.    28.6  38.6
##  9 INFORMATICA           101  60.6    83.6 1581.    39.8  65.6
## 10 MECANICA              301  61.7    80.7 1302.    36.1  58.4
## 11 MECATRONICA           432  70.8    83.4  981.    31.3  44.3
## 12 QUIMICA               568  72.6    84.6  996.    31.6  43.5
## 13 SISTEMAS              452  70.9    84.1 1081.    32.9  46.4
## 14 TIC                    81  66.6    81.7 1209.    34.8  52.2

PASO 7. Interpretación del Caso 5

• De acuerdo con nuestra gráfica de cajas del paso 3, la carrera que tiene (en promedio) mejores calificaciones es Administración, con un promedio general de 89.44.

• En la cara opuesta de la moneda, es decir, la carrera que (en promedio) tiene las calificaciones más bajas del Tecnológico es Mecánica, con un promedio general de 82.58

• En la gráfica de cajas podemos observar gráficamente y con mucha claridad que la persona con el promedio más bajo del Tecnológico se encuentra en la carrera de Arquitecura.

• Por otro lado, la persona con el promedio más alto de todo el Tecnológico se encuentra en la carrera de Industrial, y varias de las personas con los promedios más altos están también en Industrial.

• De acuerdo con las medidas de tendencia central que calculamos en el paso 4, el promedio general de toda la carrera de Ingenería en Sistemas es 95.904

• El histograma de la carrera de química nos indica que la media de Química es 86.05, y su mediana es 85.67.

• En la tabla del paso 6 contamos con 7 datos, de los cuales uno es la carrera que estamos evaluando, y los otros 6 son la información que conseguimos de ellos. Calculamos:

1. Número de alumnos en la carrera

2. Media de la carrera

3. Mediana de la carrera

4. Varianza de la carrera

5. Desviación estándar de la carrera

6. Coeficiente de variación de la carrera.

• Con la tabla del paso 6 podemos ver claramente que la carrera de administración, además de ser la que tiene más alumnos, es la que tiene la media más alta y la mediana más alta.

• Informática es la carrera que tiene la media más baja de todas las carreras, con un resultado de 60.6, seguida muy de cerca por eléctrica, que tiene una media de 60.7.