1.- Cargar librerias
library(readr)
library(dplyr)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
library(ggplot2)
2.- Cargar los datos de la direccion citada
datos=read.csv("https://raw.githubusercontent.com/rpizarrog/probabilidad-y-estad-stica/master/datos/promedios%20alumnos/datos%20alumnos%20promedios%20SEP%202020.csv", encoding = "UTF-8")
head(datos)
## No..Control Alumno Semestre Cr..Apr. Carga Promedio Carrera
## 1 20190001 1 11 198 19 80.21 SISTEMAS
## 2 20190002 2 11 235 10 84.33 SISTEMAS
## 3 20190003 3 9 235 10 95.25 SISTEMAS
## 4 20190004 4 9 226 19 95.00 SISTEMAS
## 5 20190005 5 10 231 14 82.32 SISTEMAS
## 6 20190006 6 9 212 23 95.02 SISTEMAS
tail(datos)
## No..Control Alumno Semestre Cr..Apr. Carga Promedio Carrera
## 5924 20195924 5924 2 27 28 92.83 ADMINISTRACION
## 5925 20195925 5925 7 94 13 80.95 ADMINISTRACION
## 5926 20195926 5926 5 103 32 92.68 ADMINISTRACION
## 5927 20195927 5927 4 79 34 86.18 ADMINISTRACION
## 5928 20195928 5928 5 108 32 90.48 ADMINISTRACION
## 5929 20195929 5929 7 169 32 92.33 ADMINISTRACION
3.- Genera gráfica de caja de promedios de alumnos en función de las carreras para identificar cuartiles
ggplot(filter(datos, Promedio>0), aes(x=Carrera, y= Promedio, color=Carrera))+
geom_boxplot()+
labs(title = "Promedios de Administracion")

Administracion
ggplot(administracion, aes(Promedio))+
geom_histogram(bins = 30)+
geom_vline(aes(xintercept=median(Promedio),
color="media"),
linetype="solid",
size=2)+
geom_vline(aes(xintercept=mean(Promedio),
color="mediana"),
linetype="solid",
size=2)+
labs(title = "Histograma de Promedio de Administración", subtitle = paste("Media= ", round(mean(administracion$Promedio),2),"Mediana= ", round(median(administracion$Promedio),2)))

Arquitectura
ARQUITECTURA=filter(datos, Promedio>0&Carrera=="ARQUITECTURA")
mean(ARQUITECTURA$Promedio)
## [1] 86.46481
median(ARQUITECTURA$Promedio)
## [1] 86.58
ggplot(ARQUITECTURA, aes(Promedio))+
geom_histogram(bins = 30)+
geom_vline(aes(xintercept=median(Promedio),
color="media"),
linetype="solid",
size=2)+
geom_vline(aes(xintercept=mean(Promedio),
color="mediana"),
linetype="solid",
size=2)+
labs(title = "Histograma de Promedio de Arquitectura", subtitle = paste("Media= ", round(mean(ARQUITECTURA$Promedio),2),"Mediana= ", round(median(ARQUITECTURA$Promedio),2)))

Bioquimica
BIOQUIMICA=filter(datos, Promedio>0&Carrera=="BIOQUIMICA")
mean(BIOQUIMICA$Promedio)
## [1] 84.68143
median(BIOQUIMICA$Promedio)
## [1] 84.06
ggplot(BIOQUIMICA, aes(Promedio))+
geom_histogram(bins = 30)+
geom_vline(aes(xintercept=median(Promedio),
color="media"),
linetype="solid",
size=2)+
geom_vline(aes(xintercept=mean(Promedio),
color="mediana"),
linetype="solid",
size=2)+
labs(title = "Histograma de Promedio de Bioquimica", subtitle = paste("Media= ", round(mean(BIOQUIMICA$Promedio),2),"Mediana= ", round(median(BIOQUIMICA$Promedio),2)))

Civil
CIVIL=filter(datos, Promedio>0&Carrera=="CIVIL")
mean(CIVIL$Promedio)
## [1] 84.281
median(CIVIL$Promedio)
## [1] 83.915
ggplot(CIVIL, aes(Promedio))+
geom_histogram(bins = 30)+
geom_vline(aes(xintercept=median(Promedio),
color="media"),
linetype="solid",
size=2)+
geom_vline(aes(xintercept=mean(Promedio),
color="mediana"),
linetype="solid",
size=2)+
labs(title = "Histograma de Promedio de Civil", subtitle = paste("Media= ", round(mean(CIVIL$Promedio),2),"Mediana= ", round(median(CIVIL$Promedio),2)))

Electrica
ELECTRICA=filter(datos, Promedio>0&Carrera=="ELECTRICA")
mean(ELECTRICA$Promedio)
## [1] 83.77305
median(ELECTRICA$Promedio)
## [1] 83.24
ggplot(ELECTRICA, aes(Promedio))+
geom_histogram(bins = 30)+
geom_vline(aes(xintercept=median(Promedio),
color="media"),
linetype="solid",
size=2)+
geom_vline(aes(xintercept=mean(Promedio),
color="mediana"),
linetype="solid",
size=2)+
labs(title = "Histograma de Promedio de Electrica", subtitle = paste("Media= ", round(mean(ELECTRICA$Promedio),2),"Mediana= ", round(median(ELECTRICA$Promedio),2)))

Electronica
ELECTRONICA=filter(datos, Promedio>0&Carrera=="ELECTRONICA")
mean(ELECTRONICA$Promedio)
## [1] 86.6572
median(ELECTRONICA$Promedio)
## [1] 86.67
ggplot(ELECTRONICA, aes(Promedio))+
geom_histogram(bins = 30)+
geom_vline(aes(xintercept=median(Promedio),
color="media"),
linetype="solid",
size=2)+
geom_vline(aes(xintercept=mean(Promedio),
color="mediana"),
linetype="solid",
size=2)+
labs(title = "Histograma de Promedio de Electronica", subtitle = paste("Media= ", round(mean(ELECTRONICA$Promedio),2),"Mediana= ", round(median(ELECTRONICA$Promedio),2)))

Gestion Empresarial
GESTION=filter(datos, Promedio>0&Carrera=="GESTION EMPRESARIAL")
mean(GESTION$Promedio)
## [1] 87.66966
median(GESTION$Promedio)
## [1] 87.59
ggplot(GESTION, aes(Promedio))+
geom_histogram(bins = 30)+
geom_vline(aes(xintercept=median(Promedio),
color="media"),
linetype="solid",
size=2)+
geom_vline(aes(xintercept=mean(Promedio),
color="mediana"),
linetype="solid",
size=2)+
labs(title = "Histograma de Promedio de Gestion Empresarial", subtitle = paste("Media= ", round(mean(GESTION$Promedio),2),"Mediana= ", round(median(GESTION$Promedio),2)))

Industrial
INDUSTRIAL=filter(datos, Promedio>0&Carrera=="INDUSTRIAL")
mean(INDUSTRIAL$Promedio)
## [1] 85.01737
median(INDUSTRIAL$Promedio)
## [1] 84.64
ggplot(INDUSTRIAL, aes(Promedio))+
geom_histogram(bins = 30)+
geom_vline(aes(xintercept=median(Promedio),
color="media"),
linetype="solid",
size=2)+
geom_vline(aes(xintercept=mean(Promedio),
color="mediana"),
linetype="solid",
size=2)+
labs(title = "Histograma de Promedio de Industrial", subtitle = paste("Media= ", round(mean(INDUSTRIAL$Promedio),2),"Mediana= ", round(median(INDUSTRIAL$Promedio),2)))

Mecanica
MECANICA=filter(datos, Promedio>0&Carrera=="MECANICA")
mean(MECANICA$Promedio)
## [1] 82.58467
median(MECANICA$Promedio)
## [1] 82.02
ggplot(MECANICA, aes(Promedio))+
geom_histogram(bins = 30)+
geom_vline(aes(xintercept=median(Promedio),
color="media"),
linetype="solid",
size=2)+
geom_vline(aes(xintercept=mean(Promedio),
color="mediana"),
linetype="solid",
size=2)+
labs(title = "Histograma de Promedio de Mecanica", subtitle = paste("Media= ", round(mean(MECANICA$Promedio),2),"Mediana= ", round(median(MECANICA$Promedio),2)))

Mecatronica
MECATRONICA=filter(datos, Promedio>0&Carrera=="MECATRONICA")
mean(MECATRONICA$Promedio)
## [1] 84.45948
median(MECATRONICA$Promedio)
## [1] 84.085
ggplot(MECATRONICA, aes(Promedio))+
geom_histogram(bins = 30)+
geom_vline(aes(xintercept=median(Promedio),
color="media"),
linetype="solid",
size=2)+
geom_vline(aes(xintercept=mean(Promedio),
color="mediana"),
linetype="solid",
size=2)+
labs(title = "Histograma de Promedio de Mecatronica", subtitle = paste("Media= ", round(mean(MECATRONICA$Promedio),2),"Mediana= ", round(median(MECATRONICA$Promedio),2)))

Quimica
QUIMICA=filter(datos, Promedio>0&Carrera=="QUIMICA")
mean(QUIMICA$Promedio)
## [1] 86.05215
median(QUIMICA$Promedio)
## [1] 85.67
ggplot(QUIMICA, aes(Promedio))+
geom_histogram(bins = 30)+
geom_vline(aes(xintercept=median(Promedio),
color="media"),
linetype="solid",
size=2)+
geom_vline(aes(xintercept=mean(Promedio),
color="mediana"),
linetype="solid",
size=2)+
labs(title = "Histograma de Promedio de Quimica", subtitle = paste("Media= ", round(mean(QUIMICA$Promedio),2),"Mediana= ", round(median(QUIMICA$Promedio),2)))

Sistemas
SISTEMAS=filter(datos, Promedio>0&Carrera=="SISTEMAS")
mean(SISTEMAS$Promedio)
## [1] 85.90464
median(SISTEMAS$Promedio)
## [1] 85.34
ggplot(SISTEMAS, aes(Promedio))+
geom_histogram(bins = 30)+
geom_vline(aes(xintercept=median(Promedio),
color="media"),
linetype="solid",
size=2)+
geom_vline(aes(xintercept=mean(Promedio),
color="mediana"),
linetype="solid",
size=2)+
labs(title = "Histograma de Promedio de Sistemas", subtitle = paste("Media= ", round(mean(SISTEMAS$Promedio),2),"Mediana= ", round(median(SISTEMAS$Promedio),2)))

TIC´S
TIC=filter(datos, Promedio>0&Carrera=="TIC")
mean(TIC$Promedio)
## [1] 84.31719
median(TIC$Promedio)
## [1] 83.24
ggplot(TIC, aes(Promedio))+
geom_histogram(bins = 30)+
geom_vline(aes(xintercept=median(Promedio),
color="media"),
linetype="solid",
size=2)+
geom_vline(aes(xintercept=mean(Promedio),
color="mediana"),
linetype="solid",
size=2)+
labs(title = "Histograma de Promedio de TIC´S", subtitle = paste("Media= ", round(mean(TIC$Promedio),2),"Mediana= ", round(median(TIC$Promedio),2)))

5.- Identificar varianza y desviación estándar en una gráfica de dispersión de los promedios de cada carrera
Administracion
n=nrow(administracion)
ggplot(administracion, aes(x=1:n, y=Promedio))+
geom_point()+
labs(title = "Dispersion de promedio de Administracion", subtitle = paste("Varianza= ", round(var(administracion$Promedio),2),", DesvStd= ", round(sd(administracion$Promedio),2),".C.V.= ", round(sd(administracion$Promedio)/mean(administracion$Promedio)*100,2)))

Arquitectura
n=nrow(ARQUITECTURA)
ggplot(ARQUITECTURA, aes(x=1:n, y=Promedio))+
geom_point()+
labs(title = "Dispersion de promedio de Aquitectura", subtitle = paste("Varianza= ", round(var(ARQUITECTURA$Promedio),2),", DesvStd= ", round(sd(ARQUITECTURA$Promedio),2),".C.V.= ", round(sd(ARQUITECTURA$Promedio)/mean(ARQUITECTURA$Promedio)*100,2)))

Bioquimica
n=nrow(BIOQUIMICA)
ggplot(BIOQUIMICA, aes(x=1:n, y=Promedio))+
geom_point()+
labs(title = "Dispersion de promedio de Bioquimica", subtitle = paste("Varianza= ", round(var(BIOQUIMICA$Promedio),2),", DesvStd= ", round(sd(BIOQUIMICA$Promedio),2),".C.V.= ", round(sd(BIOQUIMICA$Promedio)/mean(BIOQUIMICA$Promedio)*100,2)))

Civil
n=nrow(CIVIL)
ggplot(CIVIL, aes(x=1:n, y=Promedio))+
geom_point()+
labs(title = "Dispersion de promedio de Civil", subtitle = paste("Varianza= ", round(var(CIVIL$Promedio),2),", DesvStd= ", round(sd(CIVIL$Promedio),2),".C.V.= ", round(sd(CIVIL$Promedio)/mean(CIVIL$Promedio)*100,2)))

Electrica
n=nrow(ELECTRICA)
ggplot(ELECTRICA, aes(x=1:n, y=Promedio))+
geom_point()+
labs(title = "Dispersion de promedio de Electrica", subtitle = paste("Varianza= ", round(var(ELECTRICA$Promedio),2),", DesvStd= ", round(sd(ELECTRICA$Promedio),2),".C.V.= ", round(sd(ELECTRICA$Promedio)/mean(ELECTRICA$Promedio)*100,2)))

Electronica
n=nrow(ELECTRONICA)
ggplot(ELECTRONICA, aes(x=1:n, y=Promedio))+
geom_point()+
labs(title = "Dispersion de promedio de Electronica", subtitle = paste("Varianza= ", round(var(ELECTRONICA$Promedio),2),", DesvStd= ", round(sd(ELECTRONICA$Promedio),2),".C.V.= ", round(sd(ELECTRONICA$Promedio)/mean(ELECTRONICA$Promedio)*100,2)))

Gestion Empresarial
n=nrow(GESTION)
ggplot(GESTION, aes(x=1:n, y=Promedio))+
geom_point()+
labs(title = "Dispersion de promedio de Gestion Empresarial", subtitle = paste("Varianza= ", round(var(GESTION$Promedio),2),", DesvStd= ", round(sd(GESTION$Promedio),2),".C.V.= ", round(sd(GESTION$Promedio)/mean(GESTION$Promedio)*100,2)))

Industrial
n=nrow(INDUSTRIAL)
ggplot(INDUSTRIAL, aes(x=1:n, y=Promedio))+
geom_point()+
labs(title = "Dispersion de promedio de Industrial", subtitle = paste("Varianza= ", round(var(INDUSTRIAL$Promedio),2),", DesvStd= ", round(sd(INDUSTRIAL$Promedio),2),".C.V.= ", round(sd(INDUSTRIAL$Promedio)/mean(INDUSTRIAL$Promedio)*100,2)))

Mecanica
n=nrow(MECANICA)
ggplot(MECANICA, aes(x=1:n, y=Promedio))+
geom_point()+
labs(title = "Dispersion de promedio de Mecanica", subtitle = paste("Varianza= ", round(var(MECANICA$Promedio),2),", DesvStd= ", round(sd(MECANICA$Promedio),2),".C.V.= ", round(sd(MECANICA$Promedio)/mean(MECANICA$Promedio)*100,2)))

Mecatronica
n=nrow(MECATRONICA)
ggplot(MECATRONICA, aes(x=1:n, y=Promedio))+
geom_point()+
labs(title = "Dispersion de promedio de Mecatronica", subtitle = paste("Varianza= ", round(var(MECATRONICA$Promedio),2),", DesvStd= ", round(sd(MECATRONICA$Promedio),2),".C.V.= ", round(sd(MECATRONICA$Promedio)/mean(MECATRONICA$Promedio)*100,2)))

Quimica
n=nrow(QUIMICA)
ggplot(QUIMICA, aes(x=1:n, y=Promedio))+
geom_point()+
labs(title = "Dispersion de promedio de Quimica", subtitle = paste("Varianza= ", round(var(QUIMICA$Promedio),2),", DesvStd= ", round(sd(QUIMICA$Promedio),2),".C.V.= ", round(sd(QUIMICA$Promedio)/mean(QUIMICA$Promedio)*100,2)))

Sistemas
n=nrow(SISTEMAS)
ggplot(SISTEMAS, aes(x=1:n, y=Promedio))+
geom_point()+
labs(title = "Dispersion de promedio de Sistemas", subtitle = paste("Varianza= ", round(var(SISTEMAS$Promedio),2),", DesvStd= ", round(sd(SISTEMAS$Promedio),2),".C.V.= ", round(sd(SISTEMAS$Promedio)/mean(SISTEMAS$Promedio)*100,2)))

TIC´S
n=nrow(TIC)
ggplot(TIC, aes(x=1:n, y=Promedio))+
geom_point()+
labs(title = "Dispersion de promedio de TIC", subtitle = paste("Varianza= ", round(var(TIC$Promedio),2),", DesvStd= ", round(sd(TIC$Promedio),2),".C.V.= ", round(sd(TIC$Promedio)/mean(TIC$Promedio)*100,2)))

6.- Determinar una tabla para todos los parámetros estadísticos solicitados
tabla=datos %>%
group_by(Carrera) %>%
summarize(n=n(), media=mean(Promedio), mediana= median(Promedio), vari= var(Promedio), desvstd= sd(Promedio), cv= desvstd/media*100)
## `summarise()` ungrouping output (override with `.groups` argument)
tabla
## # A tibble: 14 x 7
## Carrera n media mediana vari desvstd cv
## <chr> <int> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 ADMINISTRACION 497 74.5 88.4 1125. 33.5 45.0
## 2 ARQUITECTURA 675 70.1 85.4 1163. 34.1 48.7
## 3 BIOQUIMICA 441 68.6 82.8 1126. 33.6 48.9
## 4 CIVIL 648 73.1 83.1 834. 28.9 39.5
## 5 ELECTRICA 280 60.7 81.8 1414. 37.6 61.9
## 6 ELECTRONICA 161 67.3 85.3 1324. 36.4 54.1
## 7 GESTION EMPRESARIAL 585 74.2 86.7 1013. 31.8 42.9
## 8 INDUSTRIAL 707 74.2 83.7 819. 28.6 38.6
## 9 INFORMATICA 101 60.6 83.6 1581. 39.8 65.6
## 10 MECANICA 301 61.7 80.7 1302. 36.1 58.4
## 11 MECATRONICA 432 70.8 83.4 981. 31.3 44.3
## 12 QUIMICA 568 72.6 84.6 996. 31.6 43.5
## 13 SISTEMAS 452 70.9 84.1 1081. 32.9 46.4
## 14 TIC 81 66.6 81.7 1209. 34.8 52.2
7.- Interpretacion
Primero cargamos los datos de la direccion, despues usamos la funcion head y tail para organizar los datos.
Luego usamos los datos para hacer una hacer una tabla con la funcion ggplot para Genera una gráfica de caja de los promedios de alumnos en función de las carreras para identificar cuartiles, luego identificamos medidad de tendencia central con histogramas y líneas de sus media y mediana de cada carrera en función de los promedios utilizando la funcion filter para poder separar los datos y luego hacer graficas de cada una de las carreras.
Luego identificamos la varianza y la desviacion estanda en una gráfica de dispersión de los promedios de cada carrera utilizando nrow para tomar los datos de cada carrera y ggplot para hacer la grafica.
Por ultimo determinamos una tabla para todos los parámetros estadísticos solicitados.