1.- Cargar librerias

library(readr)
library(dplyr)    
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
library(ggplot2)

2.- Cargar los datos de la direccion citada

datos=read.csv("https://raw.githubusercontent.com/rpizarrog/probabilidad-y-estad-stica/master/datos/promedios%20alumnos/datos%20alumnos%20promedios%20SEP%202020.csv", encoding = "UTF-8")
head(datos)
##   No..Control Alumno Semestre Cr..Apr. Carga Promedio  Carrera
## 1    20190001      1       11      198    19    80.21 SISTEMAS
## 2    20190002      2       11      235    10    84.33 SISTEMAS
## 3    20190003      3        9      235    10    95.25 SISTEMAS
## 4    20190004      4        9      226    19    95.00 SISTEMAS
## 5    20190005      5       10      231    14    82.32 SISTEMAS
## 6    20190006      6        9      212    23    95.02 SISTEMAS
tail(datos)
##      No..Control Alumno Semestre Cr..Apr. Carga Promedio        Carrera
## 5924    20195924   5924        2       27    28    92.83 ADMINISTRACION
## 5925    20195925   5925        7       94    13    80.95 ADMINISTRACION
## 5926    20195926   5926        5      103    32    92.68 ADMINISTRACION
## 5927    20195927   5927        4       79    34    86.18 ADMINISTRACION
## 5928    20195928   5928        5      108    32    90.48 ADMINISTRACION
## 5929    20195929   5929        7      169    32    92.33 ADMINISTRACION

3.- Genera gráfica de caja de promedios de alumnos en función de las carreras para identificar cuartiles

ggplot(filter(datos, Promedio>0), aes(x=Carrera, y= Promedio, color=Carrera))+
  geom_boxplot()+
  labs(title = "Promedios de Administracion")

4.- Identificar medidas de tendencia central con histograma y líneas de sus media y mediana de cada carrera en función de los promedios

administracion=filter(datos, Promedio>0&Carrera=="ADMINISTRACION")
mean(administracion$Promedio)
## [1] 89.44312
median(administracion$Promedio)
## [1] 89.605

Administracion

ggplot(administracion, aes(Promedio))+
  geom_histogram(bins = 30)+
  geom_vline(aes(xintercept=median(Promedio),
                 color="media"),
             linetype="solid",
             size=2)+
  geom_vline(aes(xintercept=mean(Promedio),
                 color="mediana"),
             linetype="solid",
             size=2)+
  labs(title = "Histograma de Promedio de Administración", subtitle = paste("Media= ", round(mean(administracion$Promedio),2),"Mediana= ", round(median(administracion$Promedio),2)))

Arquitectura

ARQUITECTURA=filter(datos, Promedio>0&Carrera=="ARQUITECTURA")
mean(ARQUITECTURA$Promedio)
## [1] 86.46481
median(ARQUITECTURA$Promedio)
## [1] 86.58
ggplot(ARQUITECTURA, aes(Promedio))+
  geom_histogram(bins = 30)+
  geom_vline(aes(xintercept=median(Promedio),
                 color="media"),
             linetype="solid",
             size=2)+
  geom_vline(aes(xintercept=mean(Promedio),
                 color="mediana"),
             linetype="solid",
             size=2)+
  labs(title = "Histograma de Promedio de Arquitectura", subtitle = paste("Media= ", round(mean(ARQUITECTURA$Promedio),2),"Mediana= ", round(median(ARQUITECTURA$Promedio),2)))

Bioquimica

BIOQUIMICA=filter(datos, Promedio>0&Carrera=="BIOQUIMICA")
mean(BIOQUIMICA$Promedio)
## [1] 84.68143
median(BIOQUIMICA$Promedio)
## [1] 84.06
ggplot(BIOQUIMICA, aes(Promedio))+
  geom_histogram(bins = 30)+
  geom_vline(aes(xintercept=median(Promedio),
                 color="media"),
             linetype="solid",
             size=2)+
  geom_vline(aes(xintercept=mean(Promedio),
                 color="mediana"),
             linetype="solid",
             size=2)+
  labs(title = "Histograma de Promedio de Bioquimica", subtitle = paste("Media= ", round(mean(BIOQUIMICA$Promedio),2),"Mediana= ", round(median(BIOQUIMICA$Promedio),2)))

Civil

CIVIL=filter(datos, Promedio>0&Carrera=="CIVIL")
mean(CIVIL$Promedio)
## [1] 84.281
median(CIVIL$Promedio)
## [1] 83.915
ggplot(CIVIL, aes(Promedio))+
  geom_histogram(bins = 30)+
  geom_vline(aes(xintercept=median(Promedio),
                 color="media"),
             linetype="solid",
             size=2)+
  geom_vline(aes(xintercept=mean(Promedio),
                 color="mediana"),
             linetype="solid",
             size=2)+
  labs(title = "Histograma de Promedio de Civil", subtitle = paste("Media= ", round(mean(CIVIL$Promedio),2),"Mediana= ", round(median(CIVIL$Promedio),2)))

Electrica

ELECTRICA=filter(datos, Promedio>0&Carrera=="ELECTRICA")
mean(ELECTRICA$Promedio)
## [1] 83.77305
median(ELECTRICA$Promedio)
## [1] 83.24
ggplot(ELECTRICA, aes(Promedio))+
  geom_histogram(bins = 30)+
  geom_vline(aes(xintercept=median(Promedio),
                 color="media"),
             linetype="solid",
             size=2)+
  geom_vline(aes(xintercept=mean(Promedio),
                 color="mediana"),
             linetype="solid",
             size=2)+
  labs(title = "Histograma de Promedio de Electrica", subtitle = paste("Media= ", round(mean(ELECTRICA$Promedio),2),"Mediana= ", round(median(ELECTRICA$Promedio),2)))

Electronica

ELECTRONICA=filter(datos, Promedio>0&Carrera=="ELECTRONICA")
mean(ELECTRONICA$Promedio)
## [1] 86.6572
median(ELECTRONICA$Promedio)
## [1] 86.67
ggplot(ELECTRONICA, aes(Promedio))+
  geom_histogram(bins = 30)+
  geom_vline(aes(xintercept=median(Promedio),
                 color="media"),
             linetype="solid",
             size=2)+
  geom_vline(aes(xintercept=mean(Promedio),
                 color="mediana"),
             linetype="solid",
             size=2)+
  labs(title = "Histograma de Promedio de Electronica", subtitle = paste("Media= ", round(mean(ELECTRONICA$Promedio),2),"Mediana= ", round(median(ELECTRONICA$Promedio),2)))

Gestion Empresarial

GESTION=filter(datos, Promedio>0&Carrera=="GESTION EMPRESARIAL")
mean(GESTION$Promedio)
## [1] 87.66966
median(GESTION$Promedio)
## [1] 87.59
ggplot(GESTION, aes(Promedio))+
  geom_histogram(bins = 30)+
  geom_vline(aes(xintercept=median(Promedio),
                 color="media"),
             linetype="solid",
             size=2)+
  geom_vline(aes(xintercept=mean(Promedio),
                 color="mediana"),
             linetype="solid",
             size=2)+
  labs(title = "Histograma de Promedio de Gestion Empresarial", subtitle = paste("Media= ", round(mean(GESTION$Promedio),2),"Mediana= ", round(median(GESTION$Promedio),2)))

Industrial

INDUSTRIAL=filter(datos, Promedio>0&Carrera=="INDUSTRIAL")
mean(INDUSTRIAL$Promedio)
## [1] 85.01737
median(INDUSTRIAL$Promedio)
## [1] 84.64
ggplot(INDUSTRIAL, aes(Promedio))+
  geom_histogram(bins = 30)+
  geom_vline(aes(xintercept=median(Promedio),
                 color="media"),
             linetype="solid",
             size=2)+
  geom_vline(aes(xintercept=mean(Promedio),
                 color="mediana"),
             linetype="solid",
             size=2)+
  labs(title = "Histograma de Promedio de Industrial", subtitle = paste("Media= ", round(mean(INDUSTRIAL$Promedio),2),"Mediana= ", round(median(INDUSTRIAL$Promedio),2)))

Informatica

INFORMATICA=filter(datos, Promedio>0&Carrera=="INFORMATICA")
mean(INFORMATICA$Promedio)
## [1] 86.26577
median(INFORMATICA$Promedio)
## [1] 86.64
ggplot(INFORMATICA, aes(Promedio))+
  geom_histogram(bins = 30)+
  geom_vline(aes(xintercept=median(Promedio),
                 color="media"),
             linetype="solid",
             size=2)+
  geom_vline(aes(xintercept=mean(Promedio),
                 color="mediana"),
             linetype="solid",
             size=2)+
  labs(title = "Histograma de Promedio de Informatica", subtitle = paste("Media= ", round(mean(INFORMATICA$Promedio),2),"Mediana= ", round(median(INFORMATICA$Promedio),2)))

Mecanica

MECANICA=filter(datos, Promedio>0&Carrera=="MECANICA")
mean(MECANICA$Promedio)
## [1] 82.58467
median(MECANICA$Promedio)
## [1] 82.02
ggplot(MECANICA, aes(Promedio))+
  geom_histogram(bins = 30)+
  geom_vline(aes(xintercept=median(Promedio),
                 color="media"),
             linetype="solid",
             size=2)+
  geom_vline(aes(xintercept=mean(Promedio),
                 color="mediana"),
             linetype="solid",
             size=2)+
  labs(title = "Histograma de Promedio de Mecanica", subtitle = paste("Media= ", round(mean(MECANICA$Promedio),2),"Mediana= ", round(median(MECANICA$Promedio),2)))

Mecatronica

MECATRONICA=filter(datos, Promedio>0&Carrera=="MECATRONICA")
mean(MECATRONICA$Promedio)
## [1] 84.45948
median(MECATRONICA$Promedio)
## [1] 84.085
ggplot(MECATRONICA, aes(Promedio))+
  geom_histogram(bins = 30)+
  geom_vline(aes(xintercept=median(Promedio),
                 color="media"),
             linetype="solid",
             size=2)+
  geom_vline(aes(xintercept=mean(Promedio),
                 color="mediana"),
             linetype="solid",
             size=2)+
  labs(title = "Histograma de Promedio de Mecatronica", subtitle = paste("Media= ", round(mean(MECATRONICA$Promedio),2),"Mediana= ", round(median(MECATRONICA$Promedio),2)))

Quimica

QUIMICA=filter(datos, Promedio>0&Carrera=="QUIMICA")
mean(QUIMICA$Promedio)
## [1] 86.05215
median(QUIMICA$Promedio)
## [1] 85.67
ggplot(QUIMICA, aes(Promedio))+
  geom_histogram(bins = 30)+
  geom_vline(aes(xintercept=median(Promedio),
                 color="media"),
             linetype="solid",
             size=2)+
  geom_vline(aes(xintercept=mean(Promedio),
                 color="mediana"),
             linetype="solid",
             size=2)+
  labs(title = "Histograma de Promedio de Quimica", subtitle = paste("Media= ", round(mean(QUIMICA$Promedio),2),"Mediana= ", round(median(QUIMICA$Promedio),2)))

Sistemas

SISTEMAS=filter(datos, Promedio>0&Carrera=="SISTEMAS")
mean(SISTEMAS$Promedio)
## [1] 85.90464
median(SISTEMAS$Promedio)
## [1] 85.34
ggplot(SISTEMAS, aes(Promedio))+
  geom_histogram(bins = 30)+
  geom_vline(aes(xintercept=median(Promedio),
                 color="media"),
             linetype="solid",
             size=2)+
  geom_vline(aes(xintercept=mean(Promedio),
                 color="mediana"),
             linetype="solid",
             size=2)+
  labs(title = "Histograma de Promedio de Sistemas", subtitle = paste("Media= ", round(mean(SISTEMAS$Promedio),2),"Mediana= ", round(median(SISTEMAS$Promedio),2)))

TIC´S

TIC=filter(datos, Promedio>0&Carrera=="TIC")
mean(TIC$Promedio)
## [1] 84.31719
median(TIC$Promedio)
## [1] 83.24
ggplot(TIC, aes(Promedio))+
  geom_histogram(bins = 30)+
  geom_vline(aes(xintercept=median(Promedio),
                 color="media"),
             linetype="solid",
             size=2)+
  geom_vline(aes(xintercept=mean(Promedio),
                 color="mediana"),
             linetype="solid",
             size=2)+
  labs(title = "Histograma de Promedio de TIC´S", subtitle = paste("Media= ", round(mean(TIC$Promedio),2),"Mediana= ", round(median(TIC$Promedio),2)))

5.- Identificar varianza y desviación estándar en una gráfica de dispersión de los promedios de cada carrera

Administracion

n=nrow(administracion)
ggplot(administracion, aes(x=1:n, y=Promedio))+
  geom_point()+
  labs(title = "Dispersion de promedio de Administracion", subtitle = paste("Varianza= ", round(var(administracion$Promedio),2),", DesvStd= ", round(sd(administracion$Promedio),2),".C.V.= ", round(sd(administracion$Promedio)/mean(administracion$Promedio)*100,2)))

Arquitectura

n=nrow(ARQUITECTURA)
ggplot(ARQUITECTURA, aes(x=1:n, y=Promedio))+
  geom_point()+
  labs(title = "Dispersion de promedio de Aquitectura", subtitle = paste("Varianza= ", round(var(ARQUITECTURA$Promedio),2),", DesvStd= ", round(sd(ARQUITECTURA$Promedio),2),".C.V.= ", round(sd(ARQUITECTURA$Promedio)/mean(ARQUITECTURA$Promedio)*100,2)))

Bioquimica

n=nrow(BIOQUIMICA)
ggplot(BIOQUIMICA, aes(x=1:n, y=Promedio))+
  geom_point()+
  labs(title = "Dispersion de promedio de Bioquimica", subtitle = paste("Varianza= ", round(var(BIOQUIMICA$Promedio),2),", DesvStd= ", round(sd(BIOQUIMICA$Promedio),2),".C.V.= ", round(sd(BIOQUIMICA$Promedio)/mean(BIOQUIMICA$Promedio)*100,2)))

Civil

n=nrow(CIVIL)
ggplot(CIVIL, aes(x=1:n, y=Promedio))+
  geom_point()+
  labs(title = "Dispersion de promedio de Civil", subtitle = paste("Varianza= ", round(var(CIVIL$Promedio),2),", DesvStd= ", round(sd(CIVIL$Promedio),2),".C.V.= ", round(sd(CIVIL$Promedio)/mean(CIVIL$Promedio)*100,2)))

Electrica

n=nrow(ELECTRICA)
ggplot(ELECTRICA, aes(x=1:n, y=Promedio))+
  geom_point()+
  labs(title = "Dispersion de promedio de Electrica", subtitle = paste("Varianza= ", round(var(ELECTRICA$Promedio),2),", DesvStd= ", round(sd(ELECTRICA$Promedio),2),".C.V.= ", round(sd(ELECTRICA$Promedio)/mean(ELECTRICA$Promedio)*100,2)))

Electronica

n=nrow(ELECTRONICA)
ggplot(ELECTRONICA, aes(x=1:n, y=Promedio))+
  geom_point()+
  labs(title = "Dispersion de promedio de Electronica", subtitle = paste("Varianza= ", round(var(ELECTRONICA$Promedio),2),", DesvStd= ", round(sd(ELECTRONICA$Promedio),2),".C.V.= ", round(sd(ELECTRONICA$Promedio)/mean(ELECTRONICA$Promedio)*100,2)))

Gestion Empresarial

n=nrow(GESTION)
ggplot(GESTION, aes(x=1:n, y=Promedio))+
  geom_point()+
  labs(title = "Dispersion de promedio de Gestion Empresarial", subtitle = paste("Varianza= ", round(var(GESTION$Promedio),2),", DesvStd= ", round(sd(GESTION$Promedio),2),".C.V.= ", round(sd(GESTION$Promedio)/mean(GESTION$Promedio)*100,2)))

Industrial

n=nrow(INDUSTRIAL)
ggplot(INDUSTRIAL, aes(x=1:n, y=Promedio))+
  geom_point()+
  labs(title = "Dispersion de promedio de Industrial", subtitle = paste("Varianza= ", round(var(INDUSTRIAL$Promedio),2),", DesvStd= ", round(sd(INDUSTRIAL$Promedio),2),".C.V.= ", round(sd(INDUSTRIAL$Promedio)/mean(INDUSTRIAL$Promedio)*100,2)))

Informatica

n=nrow(INFORMATICA)
ggplot(INFORMATICA, aes(x=1:n, y=Promedio))+
  geom_point()+
  labs(title = "Dispersion de promedio de Informatica", subtitle = paste("Varianza= ", round(var(INFORMATICA$Promedio),2),", DesvStd= ", round(sd(INFORMATICA$Promedio),2),".C.V.= ", round(sd(INFORMATICA$Promedio)/mean(INFORMATICA$Promedio)*100,2)))

Mecanica

n=nrow(MECANICA)
ggplot(MECANICA, aes(x=1:n, y=Promedio))+
  geom_point()+
  labs(title = "Dispersion de promedio de Mecanica", subtitle = paste("Varianza= ", round(var(MECANICA$Promedio),2),", DesvStd= ", round(sd(MECANICA$Promedio),2),".C.V.= ", round(sd(MECANICA$Promedio)/mean(MECANICA$Promedio)*100,2)))

Mecatronica

n=nrow(MECATRONICA)
ggplot(MECATRONICA, aes(x=1:n, y=Promedio))+
  geom_point()+
  labs(title = "Dispersion de promedio de Mecatronica", subtitle = paste("Varianza= ", round(var(MECATRONICA$Promedio),2),", DesvStd= ", round(sd(MECATRONICA$Promedio),2),".C.V.= ", round(sd(MECATRONICA$Promedio)/mean(MECATRONICA$Promedio)*100,2)))

Quimica

n=nrow(QUIMICA)
ggplot(QUIMICA, aes(x=1:n, y=Promedio))+
  geom_point()+
  labs(title = "Dispersion de promedio de Quimica", subtitle = paste("Varianza= ", round(var(QUIMICA$Promedio),2),", DesvStd= ", round(sd(QUIMICA$Promedio),2),".C.V.= ", round(sd(QUIMICA$Promedio)/mean(QUIMICA$Promedio)*100,2)))

Sistemas

n=nrow(SISTEMAS)
ggplot(SISTEMAS, aes(x=1:n, y=Promedio))+
  geom_point()+
  labs(title = "Dispersion de promedio de Sistemas", subtitle = paste("Varianza= ", round(var(SISTEMAS$Promedio),2),", DesvStd= ", round(sd(SISTEMAS$Promedio),2),".C.V.= ", round(sd(SISTEMAS$Promedio)/mean(SISTEMAS$Promedio)*100,2)))

TIC´S

n=nrow(TIC)
ggplot(TIC, aes(x=1:n, y=Promedio))+
  geom_point()+
  labs(title = "Dispersion de promedio de TIC", subtitle = paste("Varianza= ", round(var(TIC$Promedio),2),", DesvStd= ", round(sd(TIC$Promedio),2),".C.V.= ", round(sd(TIC$Promedio)/mean(TIC$Promedio)*100,2)))

6.- Determinar una tabla para todos los parámetros estadísticos solicitados

tabla=datos %>%
  group_by(Carrera) %>%
  summarize(n=n(), media=mean(Promedio), mediana= median(Promedio), vari= var(Promedio), desvstd= sd(Promedio), cv= desvstd/media*100)
## `summarise()` ungrouping output (override with `.groups` argument)
tabla
## # A tibble: 14 x 7
##    Carrera                 n media mediana  vari desvstd    cv
##    <chr>               <int> <dbl>   <dbl> <dbl>   <dbl> <dbl>
##  1 ADMINISTRACION        497  74.5    88.4 1125.    33.5  45.0
##  2 ARQUITECTURA          675  70.1    85.4 1163.    34.1  48.7
##  3 BIOQUIMICA            441  68.6    82.8 1126.    33.6  48.9
##  4 CIVIL                 648  73.1    83.1  834.    28.9  39.5
##  5 ELECTRICA             280  60.7    81.8 1414.    37.6  61.9
##  6 ELECTRONICA           161  67.3    85.3 1324.    36.4  54.1
##  7 GESTION EMPRESARIAL   585  74.2    86.7 1013.    31.8  42.9
##  8 INDUSTRIAL            707  74.2    83.7  819.    28.6  38.6
##  9 INFORMATICA           101  60.6    83.6 1581.    39.8  65.6
## 10 MECANICA              301  61.7    80.7 1302.    36.1  58.4
## 11 MECATRONICA           432  70.8    83.4  981.    31.3  44.3
## 12 QUIMICA               568  72.6    84.6  996.    31.6  43.5
## 13 SISTEMAS              452  70.9    84.1 1081.    32.9  46.4
## 14 TIC                    81  66.6    81.7 1209.    34.8  52.2

7.- Interpretacion

Primero cargamos los datos de la direccion, despues usamos la funcion head y tail para organizar los datos.

Luego usamos los datos para hacer una hacer una tabla con la funcion ggplot para Genera una gráfica de caja de los promedios de alumnos en función de las carreras para identificar cuartiles, luego identificamos medidad de tendencia central con histogramas y líneas de sus media y mediana de cada carrera en función de los promedios utilizando la funcion filter para poder separar los datos y luego hacer graficas de cada una de las carreras.

Luego identificamos la varianza y la desviacion estanda en una gráfica de dispersión de los promedios de cada carrera utilizando nrow para tomar los datos de cada carrera y ggplot para hacer la grafica.

Por ultimo determinamos una tabla para todos los parámetros estadísticos solicitados.