Objetivo

*Identificar medidas de dispersión y visualizar datos de alumnos inscritos de una institución de educación superior.

Paso 1. Cargar librerias

library(readr)
library(dplyr)    
library(ggplot2)

Paso 2. Cargar los datos de la dirección citada. read.csv()

datos <- read.csv("https://raw.githubusercontent.com/rpizarrog/probabilidad-y-estad-stica/master/datos/promedios%20alumnos/datos%20alumnos%20promedios%20SEP%202020.csv", encoding = "UTF-8")

Identificar los primeros seis registros Identificar los últios seis registros

head(datos)
##   No..Control Alumno Semestre Cr..Apr. Carga Promedio  Carrera
## 1    20190001      1       11      198    19    80.21 SISTEMAS
## 2    20190002      2       11      235    10    84.33 SISTEMAS
## 3    20190003      3        9      235    10    95.25 SISTEMAS
## 4    20190004      4        9      226    19    95.00 SISTEMAS
## 5    20190005      5       10      231    14    82.32 SISTEMAS
## 6    20190006      6        9      212    23    95.02 SISTEMAS
tail(datos)
##      No..Control Alumno Semestre Cr..Apr. Carga Promedio        Carrera
## 5924    20195924   5924        2       27    28    92.83 ADMINISTRACION
## 5925    20195925   5925        7       94    13    80.95 ADMINISTRACION
## 5926    20195926   5926        5      103    32    92.68 ADMINISTRACION
## 5927    20195927   5927        4       79    34    86.18 ADMINISTRACION
## 5928    20195928   5928        5      108    32    90.48 ADMINISTRACION
## 5929    20195929   5929        7      169    32    92.33 ADMINISTRACION

Paso 3. Genera gráfica de caja de promedios de alumnos en función de las carreras para identificar cuartiles (1 gráfica)

*Se requiere library(dplyr) para utilizar las funciones filter() y select()

ggplot(filter(datos, Promedio > 0), aes(x = Carrera, y = Promedio, color= Carrera ) ) +
    geom_boxplot() +
  labs(title = "Promedios de Administración")

Paso 4. 4. Identificar medidas de tendencia central con histograma y líneas de sus media y mediana de cada carrera en función de los promedios (14 gráficas)

Carrera de ADMINISTRACION Variables de interés es Carrera y Promedio *Se utiliza la función filter() de la librería dplyr para filtrar registros u observaciones de un conjunto de datos

administracion <- filter (datos, Promedio > 0 & Carrera == "ADMINISTRACION") 

mean(administracion$Promedio)
## [1] 89.44312
median(administracion$Promedio)
## [1] 89.605
ggplot(administracion, aes(Promedio)) +
  geom_histogram(bins = 30) +
  geom_vline(aes(xintercept = median(Promedio),
                  color = "mediana"),
              linetype = "solid",
              size = 2) +
    geom_vline(aes(xintercept = mean(Promedio),
                  color = "media"),
              linetype = "solid",
              size = 2) +
  labs(title = "Histograma de Promedio de Administración",subtitle =  paste("Media = ", round(mean(administracion$Promedio),2), ", Mediana = ", round(median(administracion$Promedio),2))) 

Arquitectura

ARQUITECTURA=filter(datos, Promedio>0&Carrera=="ARQUITECTURA")
mean(ARQUITECTURA$Promedio)
## [1] 86.46481
median(ARQUITECTURA$Promedio)
## [1] 86.58
ggplot(ARQUITECTURA, aes(Promedio))+
  geom_histogram(bins = 30)+
  geom_vline(aes(xintercept=median(Promedio),
                 color="media"),
             linetype="solid",
             size=2)+
  geom_vline(aes(xintercept=mean(Promedio),
                 color="mediana"),
             linetype="solid",
             size=2)+
  labs(title = "Histograma de Promedio de Arquitectura", subtitle = paste("Media= ", round(mean(ARQUITECTURA$Promedio),2),"Mediana= ", round(median(ARQUITECTURA$Promedio),2)))

Bioquimica

BIOQUIMICA=filter(datos, Promedio>0&Carrera=="BIOQUIMICA")
mean(BIOQUIMICA$Promedio)
## [1] 84.68143
median(BIOQUIMICA$Promedio)
## [1] 84.06
ggplot(BIOQUIMICA, aes(Promedio))+
  geom_histogram(bins = 30)+
  geom_vline(aes(xintercept=median(Promedio),
                 color="media"),
             linetype="solid",
             size=2)+
  geom_vline(aes(xintercept=mean(Promedio),
                 color="mediana"),
             linetype="solid",
             size=2)+
  labs(title = "Histograma de Promedio de Bioquimica", subtitle = paste("Media= ", round(mean(BIOQUIMICA$Promedio),2),"Mediana= ", round(median(BIOQUIMICA$Promedio),2)))

Civil

CIVIL=filter(datos, Promedio>0&Carrera=="CIVIL")
mean(CIVIL$Promedio)
## [1] 84.281
median(CIVIL$Promedio)
## [1] 83.915
ggplot(CIVIL, aes(Promedio))+
  geom_histogram(bins = 30)+
  geom_vline(aes(xintercept=median(Promedio),
                 color="media"),
             linetype="solid",
             size=2)+
  geom_vline(aes(xintercept=mean(Promedio),
                 color="mediana"),
             linetype="solid",
             size=2)+
  labs(title = "Histograma de Promedio de Civil", subtitle = paste("Media= ", round(mean(CIVIL$Promedio),2),"Mediana= ", round(median(CIVIL$Promedio),2)))

Electrica

ELECTRICA=filter(datos, Promedio>0&Carrera=="ELECTRICA")
mean(ELECTRICA$Promedio)
## [1] 83.77305
median(ELECTRICA$Promedio)
## [1] 83.24
ggplot(ELECTRICA, aes(Promedio))+
  geom_histogram(bins = 30)+
  geom_vline(aes(xintercept=median(Promedio),
                 color="media"),
             linetype="solid",
             size=2)+
  geom_vline(aes(xintercept=mean(Promedio),
                 color="mediana"),
             linetype="solid",
             size=2)+
  labs(title = "Histograma de Promedio de Electrica", subtitle = paste("Media= ", round(mean(ELECTRICA$Promedio),2),"Mediana= ", round(median(ELECTRICA$Promedio),2)))

Electronica

ELECTRONICA=filter(datos, Promedio>0&Carrera=="ELECTRONICA")
mean(ELECTRONICA$Promedio)
## [1] 86.6572
median(ELECTRONICA$Promedio)
## [1] 86.67
ggplot(ELECTRONICA, aes(Promedio))+
  geom_histogram(bins = 30)+
  geom_vline(aes(xintercept=median(Promedio),
                 color="media"),
             linetype="solid",
             size=2)+
  geom_vline(aes(xintercept=mean(Promedio),
                 color="mediana"),
             linetype="solid",
             size=2)+
  labs(title = "Histograma de Promedio de Electronica", subtitle = paste("Media= ", round(mean(ELECTRONICA$Promedio),2),"Mediana= ", round(median(ELECTRONICA$Promedio),2)))

Gestion Empresarial

GESTION=filter(datos, Promedio>0&Carrera=="GESTION EMPRESARIAL")
mean(GESTION$Promedio)
## [1] 87.66966
median(GESTION$Promedio)
## [1] 87.59
ggplot(GESTION, aes(Promedio))+
  geom_histogram(bins = 30)+
  geom_vline(aes(xintercept=median(Promedio),
                 color="media"),
             linetype="solid",
             size=2)+
  geom_vline(aes(xintercept=mean(Promedio),
                 color="mediana"),
             linetype="solid",
             size=2)+
  labs(title = "Histograma de Promedio de Gestion Empresarial", subtitle = paste("Media= ", round(mean(GESTION$Promedio),2),"Mediana= ", round(median(GESTION$Promedio),2)))

Industrial

INDUSTRIAL=filter(datos, Promedio>0&Carrera=="INDUSTRIAL")
mean(INDUSTRIAL$Promedio)
## [1] 85.01737
median(INDUSTRIAL$Promedio)
## [1] 84.64
ggplot(INDUSTRIAL, aes(Promedio))+
  geom_histogram(bins = 30)+
  geom_vline(aes(xintercept=median(Promedio),
                 color="media"),
             linetype="solid",
             size=2)+
  geom_vline(aes(xintercept=mean(Promedio),
                 color="mediana"),
             linetype="solid",
             size=2)+
  labs(title = "Histograma de Promedio de Industrial", subtitle = paste("Media= ", round(mean(INDUSTRIAL$Promedio),2),"Mediana= ", round(median(INDUSTRIAL$Promedio),2)))

Informatica

INFORMATICA=filter(datos, Promedio>0&Carrera=="INFORMATICA")
mean(INFORMATICA$Promedio)
## [1] 86.26577
median(INFORMATICA$Promedio)
## [1] 86.64
ggplot(INFORMATICA, aes(Promedio))+
  geom_histogram(bins = 30)+
  geom_vline(aes(xintercept=median(Promedio),
                 color="media"),
             linetype="solid",
             size=2)+
  geom_vline(aes(xintercept=mean(Promedio),
                 color="mediana"),
             linetype="solid",
             size=2)+
  labs(title = "Histograma de Promedio de Informatica", subtitle = paste("Media= ", round(mean(INFORMATICA$Promedio),2),"Mediana= ", round(median(INFORMATICA$Promedio),2)))

Mecanica

MECANICA=filter(datos, Promedio>0&Carrera=="MECANICA")
mean(MECANICA$Promedio)
## [1] 82.58467
median(MECANICA$Promedio)
## [1] 82.02
ggplot(MECANICA, aes(Promedio))+
  geom_histogram(bins = 30)+
  geom_vline(aes(xintercept=median(Promedio),
                 color="media"),
             linetype="solid",
             size=2)+
  geom_vline(aes(xintercept=mean(Promedio),
                 color="mediana"),
             linetype="solid",
             size=2)+
  labs(title = "Histograma de Promedio de Mecanica", subtitle = paste("Media= ", round(mean(MECANICA$Promedio),2),"Mediana= ", round(median(MECANICA$Promedio),2)))

Mecatronica

MECATRONICA=filter(datos, Promedio>0&Carrera=="MECATRONICA")
mean(MECATRONICA$Promedio)
## [1] 84.45948
median(MECATRONICA$Promedio)
## [1] 84.085
ggplot(MECATRONICA, aes(Promedio))+
  geom_histogram(bins = 30)+
  geom_vline(aes(xintercept=median(Promedio),
                 color="media"),
             linetype="solid",
             size=2)+
  geom_vline(aes(xintercept=mean(Promedio),
                 color="mediana"),
             linetype="solid",
             size=2)+
  labs(title = "Histograma de Promedio de Mecatronica", subtitle = paste("Media= ", round(mean(MECATRONICA$Promedio),2),"Mediana= ", round(median(MECATRONICA$Promedio),2)))

Quimica

QUIMICA=filter(datos, Promedio>0&Carrera=="QUIMICA")
mean(QUIMICA$Promedio)
## [1] 86.05215
median(QUIMICA$Promedio)
## [1] 85.67
ggplot(QUIMICA, aes(Promedio))+
  geom_histogram(bins = 30)+
  geom_vline(aes(xintercept=median(Promedio),
                 color="media"),
             linetype="solid",
             size=2)+
  geom_vline(aes(xintercept=mean(Promedio),
                 color="mediana"),
             linetype="solid",
             size=2)+
  labs(title = "Histograma de Promedio de Quimica", subtitle = paste("Media= ", round(mean(QUIMICA$Promedio),2),"Mediana= ", round(median(QUIMICA$Promedio),2)))

Sistemas

SISTEMAS=filter(datos, Promedio>0&Carrera=="SISTEMAS")
mean(SISTEMAS$Promedio)
## [1] 85.90464
median(SISTEMAS$Promedio)
## [1] 85.34
ggplot(SISTEMAS, aes(Promedio))+
  geom_histogram(bins = 30)+
  geom_vline(aes(xintercept=median(Promedio),
                 color="media"),
             linetype="solid",
             size=2)+
  geom_vline(aes(xintercept=mean(Promedio),
                 color="mediana"),
             linetype="solid",
             size=2)+
  labs(title = "Histograma de Promedio de Sistemas", subtitle = paste("Media= ", round(mean(SISTEMAS$Promedio),2),"Mediana= ", round(median(SISTEMAS$Promedio),2)))

TIC´S

TIC=filter(datos, Promedio>0&Carrera=="TIC")
mean(TIC$Promedio)
## [1] 84.31719
median(TIC$Promedio)
## [1] 83.24
ggplot(TIC, aes(Promedio))+
  geom_histogram(bins = 30)+
  geom_vline(aes(xintercept=median(Promedio),
                 color="media"),
             linetype="solid",
             size=2)+
  geom_vline(aes(xintercept=mean(Promedio),
                 color="mediana"),
             linetype="solid",
             size=2)+
  labs(title = "Histograma de Promedio de TIC´S", subtitle = paste("Media= ", round(mean(TIC$Promedio),2),"Mediana= ", round(median(TIC$Promedio),2)))

Paso 5. Identificar varianza y desviación estándar en una gráfica de dispersión de los promedios de cada carrera (14 gráficas)

n <- nrow(administracion)
ggplot(administracion, aes(x = 1:n, y = Promedio)) +
   geom_point() +
    labs(title = "Dispersión de Promedio de Administración", subtitle =  paste("Varianza = ", round(var(administracion$Promedio),2), ", DesvStd = ", round(sd(administracion$Promedio),2), ", C.V. = ",  round(sd(administracion$Promedio) / mean(administracion$Promedio) *  100, 2 )))

####Arquitectura

n=nrow(ARQUITECTURA)
ggplot(ARQUITECTURA, aes(x=1:n, y=Promedio))+
  geom_point()+
  labs(title = "Dispersion de promedio de Aquitectura", subtitle = paste("Varianza= ", round(var(ARQUITECTURA$Promedio),2),", DesvStd= ", round(sd(ARQUITECTURA$Promedio),2),".C.V.= ", round(sd(ARQUITECTURA$Promedio)/mean(ARQUITECTURA$Promedio)*100,2)))

Bioquimica

n=nrow(BIOQUIMICA)
ggplot(BIOQUIMICA, aes(x=1:n, y=Promedio))+
  geom_point()+
  labs(title = "Dispersion de promedio de Bioquimica", subtitle = paste("Varianza= ", round(var(BIOQUIMICA$Promedio),2),", DesvStd= ", round(sd(BIOQUIMICA$Promedio),2),".C.V.= ", round(sd(BIOQUIMICA$Promedio)/mean(BIOQUIMICA$Promedio)*100,2)))

Civil

n=nrow(CIVIL)
ggplot(CIVIL, aes(x=1:n, y=Promedio))+
  geom_point()+
  labs(title = "Dispersion de promedio de Civil", subtitle = paste("Varianza= ", round(var(CIVIL$Promedio),2),", DesvStd= ", round(sd(CIVIL$Promedio),2),".C.V.= ", round(sd(CIVIL$Promedio)/mean(CIVIL$Promedio)*100,2)))

Electrica

n=nrow(ELECTRICA)
ggplot(ELECTRICA, aes(x=1:n, y=Promedio))+
  geom_point()+
  labs(title = "Dispersion de promedio de Electrica", subtitle = paste("Varianza= ", round(var(ELECTRICA$Promedio),2),", DesvStd= ", round(sd(ELECTRICA$Promedio),2),".C.V.= ", round(sd(ELECTRICA$Promedio)/mean(ELECTRICA$Promedio)*100,2)))

Electronica

n=nrow(ELECTRONICA)
ggplot(ELECTRONICA, aes(x=1:n, y=Promedio))+
  geom_point()+
  labs(title = "Dispersion de promedio de Electronica", subtitle = paste("Varianza= ", round(var(ELECTRONICA$Promedio),2),", DesvStd= ", round(sd(ELECTRONICA$Promedio),2),".C.V.= ", round(sd(ELECTRONICA$Promedio)/mean(ELECTRONICA$Promedio)*100,2)))

Gestion Empresarial

n=nrow(GESTION)
ggplot(GESTION, aes(x=1:n, y=Promedio))+
  geom_point()+
  labs(title = "Dispersion de promedio de Gestion Empresarial", subtitle = paste("Varianza= ", round(var(GESTION$Promedio),2),", DesvStd= ", round(sd(GESTION$Promedio),2),".C.V.= ", round(sd(GESTION$Promedio)/mean(GESTION$Promedio)*100,2)))

Industrial

n=nrow(INDUSTRIAL)
ggplot(INDUSTRIAL, aes(x=1:n, y=Promedio))+
  geom_point()+
  labs(title = "Dispersion de promedio de Industrial", subtitle = paste("Varianza= ", round(var(INDUSTRIAL$Promedio),2),", DesvStd= ", round(sd(INDUSTRIAL$Promedio),2),".C.V.= ", round(sd(INDUSTRIAL$Promedio)/mean(INDUSTRIAL$Promedio)*100,2)))

Informatica

n=nrow(INFORMATICA)
ggplot(INFORMATICA, aes(x=1:n, y=Promedio))+
  geom_point()+
  labs(title = "Dispersion de promedio de Informatica", subtitle = paste("Varianza= ", round(var(INFORMATICA$Promedio),2),", DesvStd= ", round(sd(INFORMATICA$Promedio),2),".C.V.= ", round(sd(INFORMATICA$Promedio)/mean(INFORMATICA$Promedio)*100,2)))

Mecanica

n=nrow(MECANICA)
ggplot(MECANICA, aes(x=1:n, y=Promedio))+
  geom_point()+
  labs(title = "Dispersion de promedio de Mecanica", subtitle = paste("Varianza= ", round(var(MECANICA$Promedio),2),", DesvStd= ", round(sd(MECANICA$Promedio),2),".C.V.= ", round(sd(MECANICA$Promedio)/mean(MECANICA$Promedio)*100,2)))

Mecatronica

n=nrow(MECATRONICA)
ggplot(MECATRONICA, aes(x=1:n, y=Promedio))+
  geom_point()+
  labs(title = "Dispersion de promedio de Mecatronica", subtitle = paste("Varianza= ", round(var(MECATRONICA$Promedio),2),", DesvStd= ", round(sd(MECATRONICA$Promedio),2),".C.V.= ", round(sd(MECATRONICA$Promedio)/mean(MECATRONICA$Promedio)*100,2)))

Quimica

n=nrow(QUIMICA)
ggplot(QUIMICA, aes(x=1:n, y=Promedio))+
  geom_point()+
  labs(title = "Dispersion de promedio de Quimica", subtitle = paste("Varianza= ", round(var(QUIMICA$Promedio),2),", DesvStd= ", round(sd(QUIMICA$Promedio),2),".C.V.= ", round(sd(QUIMICA$Promedio)/mean(QUIMICA$Promedio)*100,2)))

Sistemas

n=nrow(SISTEMAS)
ggplot(SISTEMAS, aes(x=1:n, y=Promedio))+
  geom_point()+
  labs(title = "Dispersion de promedio de Sistemas", subtitle = paste("Varianza= ", round(var(SISTEMAS$Promedio),2),", DesvStd= ", round(sd(SISTEMAS$Promedio),2),".C.V.= ", round(sd(SISTEMAS$Promedio)/mean(SISTEMAS$Promedio)*100,2)))

TIC´S

n=nrow(TIC)
ggplot(TIC, aes(x=1:n, y=Promedio))+
  geom_point()+
  labs(title = "Dispersion de promedio de TIC", subtitle = paste("Varianza= ", round(var(TIC$Promedio),2),", DesvStd= ", round(sd(TIC$Promedio),2),".C.V.= ", round(sd(TIC$Promedio)/mean(TIC$Promedio)*100,2)))

Paso 6. Determinar una tabla para todos los parámetros estadísticos solicitados

tabla <- datos %>%
    group_by (Carrera) %>%
    summarize(n = n(), media = mean(Promedio), mediana = median(Promedio), vari = var(Promedio), 
              desvstd = sd(Promedio), cv = desvstd / media * 100)
## `summarise()` ungrouping output (override with `.groups` argument)
tabla
## # A tibble: 14 x 7
##    Carrera                 n media mediana  vari desvstd    cv
##    <chr>               <int> <dbl>   <dbl> <dbl>   <dbl> <dbl>
##  1 ADMINISTRACION        497  74.5    88.4 1125.    33.5  45.0
##  2 ARQUITECTURA          675  70.1    85.4 1163.    34.1  48.7
##  3 BIOQUIMICA            441  68.6    82.8 1126.    33.6  48.9
##  4 CIVIL                 648  73.1    83.1  834.    28.9  39.5
##  5 ELECTRICA             280  60.7    81.8 1414.    37.6  61.9
##  6 ELECTRONICA           161  67.3    85.3 1324.    36.4  54.1
##  7 GESTION EMPRESARIAL   585  74.2    86.7 1013.    31.8  42.9
##  8 INDUSTRIAL            707  74.2    83.7  819.    28.6  38.6
##  9 INFORMATICA           101  60.6    83.6 1581.    39.8  65.6
## 10 MECANICA              301  61.7    80.7 1302.    36.1  58.4
## 11 MECATRONICA           432  70.8    83.4  981.    31.3  44.3
## 12 QUIMICA               568  72.6    84.6  996.    31.6  43.5
## 13 SISTEMAS              452  70.9    84.1 1081.    32.9  46.4
## 14 TIC                    81  66.6    81.7 1209.    34.8  52.2

Paso 7. Interpretacion

** El caso 5 trata sobre identificar medidas de dispersión y visualizar datos de alumnos inscritos de una institución de educación superior. * Primeramente nos daremos cuenta que nos muestra la identificación de los primero 6 y los últimos 6 datos de los datos de los alumnos. * En el siguiente paso sacaremos lo que es el promedio de administración de estos mismos datos de cada carrera y nos daremos cuenta que el más alto es el de la carrera de administración y el más bajo es el de mecánica * Identificaremos la varianza y la desviación estándar en una gráfica de dispersión de los promedios de cada carrera utilizando nrow para tomar los datos de cada carrera y ggplot para hacer la gráfica. * Finalmente identificaremos los parametros estadisticos de todas las carreras en esta tabla tendremos las media, mediana, la vari, la desvstd y la cv, tambien aqui podremos que el mayor sera industrial y la menor sera informatica. * En conclusion, los alumnos establecieron un buen promedio y que gracias a los histogramas nos podemos dar cuenta de una forma un poco mas precisa donde esta ubicado la media y mediana de los promedios de las diferentes carreras.