*Identificar medidas de dispersión y visualizar datos de alumnos inscritos de una institución de educación superior.
library(readr)
library(dplyr)
library(ggplot2)
datos <- read.csv("https://raw.githubusercontent.com/rpizarrog/probabilidad-y-estad-stica/master/datos/promedios%20alumnos/datos%20alumnos%20promedios%20SEP%202020.csv", encoding = "UTF-8")
Identificar los primeros seis registros Identificar los últios seis registros
head(datos)
## No..Control Alumno Semestre Cr..Apr. Carga Promedio Carrera
## 1 20190001 1 11 198 19 80.21 SISTEMAS
## 2 20190002 2 11 235 10 84.33 SISTEMAS
## 3 20190003 3 9 235 10 95.25 SISTEMAS
## 4 20190004 4 9 226 19 95.00 SISTEMAS
## 5 20190005 5 10 231 14 82.32 SISTEMAS
## 6 20190006 6 9 212 23 95.02 SISTEMAS
tail(datos)
## No..Control Alumno Semestre Cr..Apr. Carga Promedio Carrera
## 5924 20195924 5924 2 27 28 92.83 ADMINISTRACION
## 5925 20195925 5925 7 94 13 80.95 ADMINISTRACION
## 5926 20195926 5926 5 103 32 92.68 ADMINISTRACION
## 5927 20195927 5927 4 79 34 86.18 ADMINISTRACION
## 5928 20195928 5928 5 108 32 90.48 ADMINISTRACION
## 5929 20195929 5929 7 169 32 92.33 ADMINISTRACION
*Se requiere library(dplyr) para utilizar las funciones filter() y select()
ggplot(filter(datos, Promedio > 0), aes(x = Carrera, y = Promedio, color= Carrera ) ) +
geom_boxplot() +
labs(title = "Promedios de Administración")
Carrera de ADMINISTRACION Variables de interés es Carrera y Promedio *Se utiliza la función filter() de la librería dplyr para filtrar registros u observaciones de un conjunto de datos
administracion <- filter (datos, Promedio > 0 & Carrera == "ADMINISTRACION")
mean(administracion$Promedio)
## [1] 89.44312
median(administracion$Promedio)
## [1] 89.605
ggplot(administracion, aes(Promedio)) +
geom_histogram(bins = 30) +
geom_vline(aes(xintercept = median(Promedio),
color = "mediana"),
linetype = "solid",
size = 2) +
geom_vline(aes(xintercept = mean(Promedio),
color = "media"),
linetype = "solid",
size = 2) +
labs(title = "Histograma de Promedio de Administración",subtitle = paste("Media = ", round(mean(administracion$Promedio),2), ", Mediana = ", round(median(administracion$Promedio),2)))
ARQUITECTURA=filter(datos, Promedio>0&Carrera=="ARQUITECTURA")
mean(ARQUITECTURA$Promedio)
## [1] 86.46481
median(ARQUITECTURA$Promedio)
## [1] 86.58
ggplot(ARQUITECTURA, aes(Promedio))+
geom_histogram(bins = 30)+
geom_vline(aes(xintercept=median(Promedio),
color="media"),
linetype="solid",
size=2)+
geom_vline(aes(xintercept=mean(Promedio),
color="mediana"),
linetype="solid",
size=2)+
labs(title = "Histograma de Promedio de Arquitectura", subtitle = paste("Media= ", round(mean(ARQUITECTURA$Promedio),2),"Mediana= ", round(median(ARQUITECTURA$Promedio),2)))
BIOQUIMICA=filter(datos, Promedio>0&Carrera=="BIOQUIMICA")
mean(BIOQUIMICA$Promedio)
## [1] 84.68143
median(BIOQUIMICA$Promedio)
## [1] 84.06
ggplot(BIOQUIMICA, aes(Promedio))+
geom_histogram(bins = 30)+
geom_vline(aes(xintercept=median(Promedio),
color="media"),
linetype="solid",
size=2)+
geom_vline(aes(xintercept=mean(Promedio),
color="mediana"),
linetype="solid",
size=2)+
labs(title = "Histograma de Promedio de Bioquimica", subtitle = paste("Media= ", round(mean(BIOQUIMICA$Promedio),2),"Mediana= ", round(median(BIOQUIMICA$Promedio),2)))
CIVIL=filter(datos, Promedio>0&Carrera=="CIVIL")
mean(CIVIL$Promedio)
## [1] 84.281
median(CIVIL$Promedio)
## [1] 83.915
ggplot(CIVIL, aes(Promedio))+
geom_histogram(bins = 30)+
geom_vline(aes(xintercept=median(Promedio),
color="media"),
linetype="solid",
size=2)+
geom_vline(aes(xintercept=mean(Promedio),
color="mediana"),
linetype="solid",
size=2)+
labs(title = "Histograma de Promedio de Civil", subtitle = paste("Media= ", round(mean(CIVIL$Promedio),2),"Mediana= ", round(median(CIVIL$Promedio),2)))
ELECTRICA=filter(datos, Promedio>0&Carrera=="ELECTRICA")
mean(ELECTRICA$Promedio)
## [1] 83.77305
median(ELECTRICA$Promedio)
## [1] 83.24
ggplot(ELECTRICA, aes(Promedio))+
geom_histogram(bins = 30)+
geom_vline(aes(xintercept=median(Promedio),
color="media"),
linetype="solid",
size=2)+
geom_vline(aes(xintercept=mean(Promedio),
color="mediana"),
linetype="solid",
size=2)+
labs(title = "Histograma de Promedio de Electrica", subtitle = paste("Media= ", round(mean(ELECTRICA$Promedio),2),"Mediana= ", round(median(ELECTRICA$Promedio),2)))
ELECTRONICA=filter(datos, Promedio>0&Carrera=="ELECTRONICA")
mean(ELECTRONICA$Promedio)
## [1] 86.6572
median(ELECTRONICA$Promedio)
## [1] 86.67
ggplot(ELECTRONICA, aes(Promedio))+
geom_histogram(bins = 30)+
geom_vline(aes(xintercept=median(Promedio),
color="media"),
linetype="solid",
size=2)+
geom_vline(aes(xintercept=mean(Promedio),
color="mediana"),
linetype="solid",
size=2)+
labs(title = "Histograma de Promedio de Electronica", subtitle = paste("Media= ", round(mean(ELECTRONICA$Promedio),2),"Mediana= ", round(median(ELECTRONICA$Promedio),2)))
GESTION=filter(datos, Promedio>0&Carrera=="GESTION EMPRESARIAL")
mean(GESTION$Promedio)
## [1] 87.66966
median(GESTION$Promedio)
## [1] 87.59
ggplot(GESTION, aes(Promedio))+
geom_histogram(bins = 30)+
geom_vline(aes(xintercept=median(Promedio),
color="media"),
linetype="solid",
size=2)+
geom_vline(aes(xintercept=mean(Promedio),
color="mediana"),
linetype="solid",
size=2)+
labs(title = "Histograma de Promedio de Gestion Empresarial", subtitle = paste("Media= ", round(mean(GESTION$Promedio),2),"Mediana= ", round(median(GESTION$Promedio),2)))
INDUSTRIAL=filter(datos, Promedio>0&Carrera=="INDUSTRIAL")
mean(INDUSTRIAL$Promedio)
## [1] 85.01737
median(INDUSTRIAL$Promedio)
## [1] 84.64
ggplot(INDUSTRIAL, aes(Promedio))+
geom_histogram(bins = 30)+
geom_vline(aes(xintercept=median(Promedio),
color="media"),
linetype="solid",
size=2)+
geom_vline(aes(xintercept=mean(Promedio),
color="mediana"),
linetype="solid",
size=2)+
labs(title = "Histograma de Promedio de Industrial", subtitle = paste("Media= ", round(mean(INDUSTRIAL$Promedio),2),"Mediana= ", round(median(INDUSTRIAL$Promedio),2)))
INFORMATICA=filter(datos, Promedio>0&Carrera=="INFORMATICA")
mean(INFORMATICA$Promedio)
## [1] 86.26577
median(INFORMATICA$Promedio)
## [1] 86.64
ggplot(INFORMATICA, aes(Promedio))+
geom_histogram(bins = 30)+
geom_vline(aes(xintercept=median(Promedio),
color="media"),
linetype="solid",
size=2)+
geom_vline(aes(xintercept=mean(Promedio),
color="mediana"),
linetype="solid",
size=2)+
labs(title = "Histograma de Promedio de Informatica", subtitle = paste("Media= ", round(mean(INFORMATICA$Promedio),2),"Mediana= ", round(median(INFORMATICA$Promedio),2)))
MECANICA=filter(datos, Promedio>0&Carrera=="MECANICA")
mean(MECANICA$Promedio)
## [1] 82.58467
median(MECANICA$Promedio)
## [1] 82.02
ggplot(MECANICA, aes(Promedio))+
geom_histogram(bins = 30)+
geom_vline(aes(xintercept=median(Promedio),
color="media"),
linetype="solid",
size=2)+
geom_vline(aes(xintercept=mean(Promedio),
color="mediana"),
linetype="solid",
size=2)+
labs(title = "Histograma de Promedio de Mecanica", subtitle = paste("Media= ", round(mean(MECANICA$Promedio),2),"Mediana= ", round(median(MECANICA$Promedio),2)))
MECATRONICA=filter(datos, Promedio>0&Carrera=="MECATRONICA")
mean(MECATRONICA$Promedio)
## [1] 84.45948
median(MECATRONICA$Promedio)
## [1] 84.085
ggplot(MECATRONICA, aes(Promedio))+
geom_histogram(bins = 30)+
geom_vline(aes(xintercept=median(Promedio),
color="media"),
linetype="solid",
size=2)+
geom_vline(aes(xintercept=mean(Promedio),
color="mediana"),
linetype="solid",
size=2)+
labs(title = "Histograma de Promedio de Mecatronica", subtitle = paste("Media= ", round(mean(MECATRONICA$Promedio),2),"Mediana= ", round(median(MECATRONICA$Promedio),2)))
QUIMICA=filter(datos, Promedio>0&Carrera=="QUIMICA")
mean(QUIMICA$Promedio)
## [1] 86.05215
median(QUIMICA$Promedio)
## [1] 85.67
ggplot(QUIMICA, aes(Promedio))+
geom_histogram(bins = 30)+
geom_vline(aes(xintercept=median(Promedio),
color="media"),
linetype="solid",
size=2)+
geom_vline(aes(xintercept=mean(Promedio),
color="mediana"),
linetype="solid",
size=2)+
labs(title = "Histograma de Promedio de Quimica", subtitle = paste("Media= ", round(mean(QUIMICA$Promedio),2),"Mediana= ", round(median(QUIMICA$Promedio),2)))
SISTEMAS=filter(datos, Promedio>0&Carrera=="SISTEMAS")
mean(SISTEMAS$Promedio)
## [1] 85.90464
median(SISTEMAS$Promedio)
## [1] 85.34
ggplot(SISTEMAS, aes(Promedio))+
geom_histogram(bins = 30)+
geom_vline(aes(xintercept=median(Promedio),
color="media"),
linetype="solid",
size=2)+
geom_vline(aes(xintercept=mean(Promedio),
color="mediana"),
linetype="solid",
size=2)+
labs(title = "Histograma de Promedio de Sistemas", subtitle = paste("Media= ", round(mean(SISTEMAS$Promedio),2),"Mediana= ", round(median(SISTEMAS$Promedio),2)))
TIC=filter(datos, Promedio>0&Carrera=="TIC")
mean(TIC$Promedio)
## [1] 84.31719
median(TIC$Promedio)
## [1] 83.24
ggplot(TIC, aes(Promedio))+
geom_histogram(bins = 30)+
geom_vline(aes(xintercept=median(Promedio),
color="media"),
linetype="solid",
size=2)+
geom_vline(aes(xintercept=mean(Promedio),
color="mediana"),
linetype="solid",
size=2)+
labs(title = "Histograma de Promedio de TIC´S", subtitle = paste("Media= ", round(mean(TIC$Promedio),2),"Mediana= ", round(median(TIC$Promedio),2)))
n <- nrow(administracion)
ggplot(administracion, aes(x = 1:n, y = Promedio)) +
geom_point() +
labs(title = "Dispersión de Promedio de Administración", subtitle = paste("Varianza = ", round(var(administracion$Promedio),2), ", DesvStd = ", round(sd(administracion$Promedio),2), ", C.V. = ", round(sd(administracion$Promedio) / mean(administracion$Promedio) * 100, 2 )))
####Arquitectura
n=nrow(ARQUITECTURA)
ggplot(ARQUITECTURA, aes(x=1:n, y=Promedio))+
geom_point()+
labs(title = "Dispersion de promedio de Aquitectura", subtitle = paste("Varianza= ", round(var(ARQUITECTURA$Promedio),2),", DesvStd= ", round(sd(ARQUITECTURA$Promedio),2),".C.V.= ", round(sd(ARQUITECTURA$Promedio)/mean(ARQUITECTURA$Promedio)*100,2)))
n=nrow(BIOQUIMICA)
ggplot(BIOQUIMICA, aes(x=1:n, y=Promedio))+
geom_point()+
labs(title = "Dispersion de promedio de Bioquimica", subtitle = paste("Varianza= ", round(var(BIOQUIMICA$Promedio),2),", DesvStd= ", round(sd(BIOQUIMICA$Promedio),2),".C.V.= ", round(sd(BIOQUIMICA$Promedio)/mean(BIOQUIMICA$Promedio)*100,2)))
n=nrow(CIVIL)
ggplot(CIVIL, aes(x=1:n, y=Promedio))+
geom_point()+
labs(title = "Dispersion de promedio de Civil", subtitle = paste("Varianza= ", round(var(CIVIL$Promedio),2),", DesvStd= ", round(sd(CIVIL$Promedio),2),".C.V.= ", round(sd(CIVIL$Promedio)/mean(CIVIL$Promedio)*100,2)))
n=nrow(ELECTRICA)
ggplot(ELECTRICA, aes(x=1:n, y=Promedio))+
geom_point()+
labs(title = "Dispersion de promedio de Electrica", subtitle = paste("Varianza= ", round(var(ELECTRICA$Promedio),2),", DesvStd= ", round(sd(ELECTRICA$Promedio),2),".C.V.= ", round(sd(ELECTRICA$Promedio)/mean(ELECTRICA$Promedio)*100,2)))
n=nrow(ELECTRONICA)
ggplot(ELECTRONICA, aes(x=1:n, y=Promedio))+
geom_point()+
labs(title = "Dispersion de promedio de Electronica", subtitle = paste("Varianza= ", round(var(ELECTRONICA$Promedio),2),", DesvStd= ", round(sd(ELECTRONICA$Promedio),2),".C.V.= ", round(sd(ELECTRONICA$Promedio)/mean(ELECTRONICA$Promedio)*100,2)))
n=nrow(GESTION)
ggplot(GESTION, aes(x=1:n, y=Promedio))+
geom_point()+
labs(title = "Dispersion de promedio de Gestion Empresarial", subtitle = paste("Varianza= ", round(var(GESTION$Promedio),2),", DesvStd= ", round(sd(GESTION$Promedio),2),".C.V.= ", round(sd(GESTION$Promedio)/mean(GESTION$Promedio)*100,2)))
n=nrow(INDUSTRIAL)
ggplot(INDUSTRIAL, aes(x=1:n, y=Promedio))+
geom_point()+
labs(title = "Dispersion de promedio de Industrial", subtitle = paste("Varianza= ", round(var(INDUSTRIAL$Promedio),2),", DesvStd= ", round(sd(INDUSTRIAL$Promedio),2),".C.V.= ", round(sd(INDUSTRIAL$Promedio)/mean(INDUSTRIAL$Promedio)*100,2)))
n=nrow(INFORMATICA)
ggplot(INFORMATICA, aes(x=1:n, y=Promedio))+
geom_point()+
labs(title = "Dispersion de promedio de Informatica", subtitle = paste("Varianza= ", round(var(INFORMATICA$Promedio),2),", DesvStd= ", round(sd(INFORMATICA$Promedio),2),".C.V.= ", round(sd(INFORMATICA$Promedio)/mean(INFORMATICA$Promedio)*100,2)))
n=nrow(MECANICA)
ggplot(MECANICA, aes(x=1:n, y=Promedio))+
geom_point()+
labs(title = "Dispersion de promedio de Mecanica", subtitle = paste("Varianza= ", round(var(MECANICA$Promedio),2),", DesvStd= ", round(sd(MECANICA$Promedio),2),".C.V.= ", round(sd(MECANICA$Promedio)/mean(MECANICA$Promedio)*100,2)))
n=nrow(MECATRONICA)
ggplot(MECATRONICA, aes(x=1:n, y=Promedio))+
geom_point()+
labs(title = "Dispersion de promedio de Mecatronica", subtitle = paste("Varianza= ", round(var(MECATRONICA$Promedio),2),", DesvStd= ", round(sd(MECATRONICA$Promedio),2),".C.V.= ", round(sd(MECATRONICA$Promedio)/mean(MECATRONICA$Promedio)*100,2)))
n=nrow(QUIMICA)
ggplot(QUIMICA, aes(x=1:n, y=Promedio))+
geom_point()+
labs(title = "Dispersion de promedio de Quimica", subtitle = paste("Varianza= ", round(var(QUIMICA$Promedio),2),", DesvStd= ", round(sd(QUIMICA$Promedio),2),".C.V.= ", round(sd(QUIMICA$Promedio)/mean(QUIMICA$Promedio)*100,2)))
n=nrow(SISTEMAS)
ggplot(SISTEMAS, aes(x=1:n, y=Promedio))+
geom_point()+
labs(title = "Dispersion de promedio de Sistemas", subtitle = paste("Varianza= ", round(var(SISTEMAS$Promedio),2),", DesvStd= ", round(sd(SISTEMAS$Promedio),2),".C.V.= ", round(sd(SISTEMAS$Promedio)/mean(SISTEMAS$Promedio)*100,2)))
n=nrow(TIC)
ggplot(TIC, aes(x=1:n, y=Promedio))+
geom_point()+
labs(title = "Dispersion de promedio de TIC", subtitle = paste("Varianza= ", round(var(TIC$Promedio),2),", DesvStd= ", round(sd(TIC$Promedio),2),".C.V.= ", round(sd(TIC$Promedio)/mean(TIC$Promedio)*100,2)))
tabla <- datos %>%
group_by (Carrera) %>%
summarize(n = n(), media = mean(Promedio), mediana = median(Promedio), vari = var(Promedio),
desvstd = sd(Promedio), cv = desvstd / media * 100)
## `summarise()` ungrouping output (override with `.groups` argument)
tabla
## # A tibble: 14 x 7
## Carrera n media mediana vari desvstd cv
## <chr> <int> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 ADMINISTRACION 497 74.5 88.4 1125. 33.5 45.0
## 2 ARQUITECTURA 675 70.1 85.4 1163. 34.1 48.7
## 3 BIOQUIMICA 441 68.6 82.8 1126. 33.6 48.9
## 4 CIVIL 648 73.1 83.1 834. 28.9 39.5
## 5 ELECTRICA 280 60.7 81.8 1414. 37.6 61.9
## 6 ELECTRONICA 161 67.3 85.3 1324. 36.4 54.1
## 7 GESTION EMPRESARIAL 585 74.2 86.7 1013. 31.8 42.9
## 8 INDUSTRIAL 707 74.2 83.7 819. 28.6 38.6
## 9 INFORMATICA 101 60.6 83.6 1581. 39.8 65.6
## 10 MECANICA 301 61.7 80.7 1302. 36.1 58.4
## 11 MECATRONICA 432 70.8 83.4 981. 31.3 44.3
## 12 QUIMICA 568 72.6 84.6 996. 31.6 43.5
## 13 SISTEMAS 452 70.9 84.1 1081. 32.9 46.4
## 14 TIC 81 66.6 81.7 1209. 34.8 52.2
** El caso 5 trata sobre identificar medidas de dispersión y visualizar datos de alumnos inscritos de una institución de educación superior. * Primeramente nos daremos cuenta que nos muestra la identificación de los primero 6 y los últimos 6 datos de los datos de los alumnos. * En el siguiente paso sacaremos lo que es el promedio de administración de estos mismos datos de cada carrera y nos daremos cuenta que el más alto es el de la carrera de administración y el más bajo es el de mecánica * Identificaremos la varianza y la desviación estándar en una gráfica de dispersión de los promedios de cada carrera utilizando nrow para tomar los datos de cada carrera y ggplot para hacer la gráfica. * Finalmente identificaremos los parametros estadisticos de todas las carreras en esta tabla tendremos las media, mediana, la vari, la desvstd y la cv, tambien aqui podremos que el mayor sera industrial y la menor sera informatica. * En conclusion, los alumnos establecieron un buen promedio y que gracias a los histogramas nos podemos dar cuenta de una forma un poco mas precisa donde esta ubicado la media y mediana de los promedios de las diferentes carreras.