library(readr)
library(ggplot2)
library(dplyr)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
datos <- read.csv("https://raw.githubusercontent.com/rpizarrog/probabilidad-y-estad-stica/master/datos/promedios%20alumnos/datos%20alumnos%20promedios%20SEP%202020.csv")
head(datos)
## No..Control Alumno Semestre Cr..Apr. Carga Promedio Carrera
## 1 20190001 1 11 198 19 80.21 SISTEMAS
## 2 20190002 2 11 235 10 84.33 SISTEMAS
## 3 20190003 3 9 235 10 95.25 SISTEMAS
## 4 20190004 4 9 226 19 95.00 SISTEMAS
## 5 20190005 5 10 231 14 82.32 SISTEMAS
## 6 20190006 6 9 212 23 95.02 SISTEMAS
tail(datos)
## No..Control Alumno Semestre Cr..Apr. Carga Promedio Carrera
## 5924 20195924 5924 2 27 28 92.83 ADMINISTRACION
## 5925 20195925 5925 7 94 13 80.95 ADMINISTRACION
## 5926 20195926 5926 5 103 32 92.68 ADMINISTRACION
## 5927 20195927 5927 4 79 34 86.18 ADMINISTRACION
## 5928 20195928 5928 5 108 32 90.48 ADMINISTRACION
## 5929 20195929 5929 7 169 32 92.33 ADMINISTRACION
ggplot(filter(datos, Promedio > 0), aes(x = Carrera, y = Promedio, color= Carrera ) ) +
geom_boxplot() +
labs(title = "Promedios de Administración")
administracion <- filter (datos, Promedio > 0 & Carrera == "ADMINISTRACION")
mean(administracion$Promedio)
## [1] 89.44312
median(administracion$Promedio)
## [1] 89.605
ggplot(administracion, aes(Promedio)) +
geom_histogram(bins = 30) +
geom_vline(aes(xintercept = median(Promedio),
color = "mediana"),
linetype = "solid",
size = 2) +
geom_vline(aes(xintercept = mean(Promedio),
color = "media"),
linetype = "solid",
size = 2) +
labs(title = "Histograma de Promedio de Administración",subtitle = paste("Media = ", round(mean(administracion$Promedio),2), ", Mediana = ", round(median(administracion$Promedio),2)))
arquitectura <- filter (datos, Promedio > 0 & Carrera == "ARQUITECTURA")
mean(arquitectura$Promedio)
## [1] 86.46481
median(arquitectura$Promedio)
## [1] 86.58
ggplot(arquitectura, aes(Promedio)) +
geom_histogram(bins = 30) +
geom_vline(aes(xintercept = median(Promedio),
color = "mediana"),
linetype = "solid",
size = 2) +
geom_vline(aes(xintercept = mean(Promedio),
color = "media"),
linetype = "solid",
size = 2) +
labs(title = "Histograma de Promedio de Arquitectura",subtitle = paste("Media = ", round(mean(arquitectura$Promedio),2), ", Mediana = ", round(median(arquitectura$Promedio),2)))
bioquimica <- filter (datos, Promedio > 0 & Carrera == "BIOQUIMICA")
mean(bioquimica$Promedio)
## [1] 84.68143
median(bioquimica$Promedio)
## [1] 84.06
ggplot(bioquimica, aes(Promedio)) +
geom_histogram(bins = 30) +
geom_vline(aes(xintercept = median(Promedio),
color = "mediana"),
linetype = "solid",
size = 2) +
geom_vline(aes(xintercept = mean(Promedio),
color = "media"),
linetype = "solid",
size = 2) +
labs(title = "Histograma de Promedio de bioquimica",subtitle = paste("Media = ", round(mean(bioquimica$Promedio),2), ", Mediana = ", round(median(bioquimica$Promedio),2)))
civil <- filter (datos, Promedio > 0 & Carrera == "CIVIL")
mean(civil$Promedio)
## [1] 84.281
median(civil$Promedio)
## [1] 83.915
ggplot(civil, aes(Promedio)) +
geom_histogram(bins = 30) +
geom_vline(aes(xintercept = median(Promedio),
color = "mediana"),
linetype = "solid",
size = 2) +
geom_vline(aes(xintercept = mean(Promedio),
color = "media"),
linetype = "solid",
size = 2) +
labs(title = "Histograma de Promedio de civil",subtitle = paste("Media = ", round(mean(civil$Promedio),2), ", Mediana = ", round(median(civil$Promedio),2)))
Electrica <- filter (datos, Promedio > 0 & Carrera == "ELECTRICA")
mean(Electrica$Promedio)
## [1] 83.77305
median(Electrica$Promedio)
## [1] 83.24
ggplot(Electrica, aes(Promedio)) +
geom_histogram(bins = 30) +
geom_vline(aes(xintercept = median(Promedio),
color = "mediana"),
linetype = "solid",
size = 2) +
geom_vline(aes(xintercept = mean(Promedio),
color = "media"),
linetype = "solid",
size = 2) +
labs(title = "Histograma de Promedio de Electrica",subtitle = paste("Media = ", round(mean(Electrica$Promedio),2), ", Mediana = ", round(median(Electrica$Promedio),2)))
Electronica <- filter (datos, Promedio > 0 & Carrera == "ELECTRONICA")
mean(Electronica$Promedio)
## [1] 86.6572
median(Electronica$Promedio)
## [1] 86.67
ggplot(Electronica, aes(Promedio)) +
geom_histogram(bins = 30) +
geom_vline(aes(xintercept = median(Promedio),
color = "mediana"),
linetype = "solid",
size = 2) +
geom_vline(aes(xintercept = mean(Promedio),
color = "media"),
linetype = "solid",
size = 2) +
labs(title = "Histograma de Promedio de Electronica",subtitle = paste("Media = ", round(mean(Electronica$Promedio),2), ", Mediana = ", round(median(Electronica$Promedio),2)))
Gestion_Empresarial <- filter (datos, Promedio > 0 & Carrera == "GESTION EMPRESARIAL")
mean(Gestion_Empresarial$Promedio)
## [1] 87.66966
median(Gestion_Empresarial$Promedio)
## [1] 87.59
ggplot(Gestion_Empresarial, aes(Promedio)) +
geom_histogram(bins = 30) +
geom_vline(aes(xintercept = median(Promedio),
color = "mediana"),
linetype = "solid",
size = 2) +
geom_vline(aes(xintercept = mean(Promedio),
color = "media"),
linetype = "solid",
size = 2) +
labs(title = "Histograma de Promedio de Gestion_Empresarial",subtitle = paste("Media = ", round(mean(Gestion_Empresarial$Promedio),2), ", Mediana = ", round(median(Gestion_Empresarial$Promedio),2)))
industrial <- filter (datos, Promedio > 0 & Carrera == "INDUSTRIAL")
mean(industrial$Promedio)
## [1] 85.01737
median(industrial$Promedio)
## [1] 84.64
ggplot(industrial, aes(Promedio)) +
geom_histogram(bins = 30) +
geom_vline(aes(xintercept = median(Promedio),
color = "mediana"),
linetype = "solid",
size = 2) +
geom_vline(aes(xintercept = mean(Promedio),
color = "media"),
linetype = "solid",
size = 2) +
labs(title = "Histograma de Promedio de industrial",subtitle = paste("Media = ", round(mean(industrial$Promedio),2), ", Mediana = ", round(median(industrial$Promedio),2)))
informatica <- filter (datos, Promedio > 0 & Carrera == "INFORMATICA")
mean(informatica$Promedio)
## [1] 86.26577
median(informatica$Promedio)
## [1] 86.64
ggplot(informatica, aes(Promedio)) +
geom_histogram(bins = 30) +
geom_vline(aes(xintercept = median(Promedio),
color = "mediana"),
linetype = "solid",
size = 2) +
geom_vline(aes(xintercept = mean(Promedio),
color = "media"),
linetype = "solid",
size = 2) +
labs(title = "Histograma de Promedio de informatica",subtitle = paste("Media = ", round(mean(informatica$Promedio),2), ", Mediana = ", round(median(informatica$Promedio),2)))
mecanica <- filter (datos, Promedio > 0 & Carrera == "MECANICA")
mean(mecanica$Promedio)
## [1] 82.58467
median(mecanica$Promedio)
## [1] 82.02
ggplot(mecanica, aes(Promedio)) +
geom_histogram(bins = 30) +
geom_vline(aes(xintercept = median(Promedio),
color = "mediana"),
linetype = "solid",
size = 2) +
geom_vline(aes(xintercept = mean(Promedio),
color = "media"),
linetype = "solid",
size = 2) +
labs(title = "Histograma de Promedio de mecanica",subtitle = paste("Media = ", round(mean(mecanica$Promedio),2), ", Mediana = ", round(median(mecanica$Promedio),2)))
Mecatronica <- filter (datos, Promedio > 0 & Carrera == "MECATRONICA")
mean(Mecatronica$Promedio)
## [1] 84.45948
median(Mecatronica$Promedio)
## [1] 84.085
ggplot(Mecatronica, aes(Promedio)) +
geom_histogram(bins = 30) +
geom_vline(aes(xintercept = median(Promedio),
color = "mediana"),
linetype = "solid",
size = 2) +
geom_vline(aes(xintercept = mean(Promedio),
color = "media"),
linetype = "solid",
size = 2) +
labs(title = "Histograma de Promedio de Mecatronica",subtitle = paste("Media = ", round(mean(Mecatronica$Promedio),2), ", Mediana = ", round(median(Mecatronica$Promedio),2)))
Quimica <- filter (datos, Promedio > 0 & Carrera == "QUIMICA")
mean(Quimica$Promedio)
## [1] 86.05215
median(Quimica$Promedio)
## [1] 85.67
ggplot(Quimica, aes(Promedio)) +
geom_histogram(bins = 30) +
geom_vline(aes(xintercept = median(Promedio),
color = "mediana"),
linetype = "solid",
size = 2) +
geom_vline(aes(xintercept = mean(Promedio),
color = "media"),
linetype = "solid",
size = 2) +
labs(title = "Histograma de Promedio de Quimica",subtitle = paste("Media = ", round(mean(Quimica$Promedio),2), ", Mediana = ", round(median(Quimica$Promedio),2)))
Sistemas <- filter (datos, Promedio > 0 & Carrera == "SISTEMAS")
mean(Sistemas$Promedio)
## [1] 85.90464
median(Sistemas$Promedio)
## [1] 85.34
ggplot(Sistemas, aes(Promedio)) +
geom_histogram(bins = 30) +
geom_vline(aes(xintercept = median(Promedio),
color = "mediana"),
linetype = "solid",
size = 2) +
geom_vline(aes(xintercept = mean(Promedio),
color = "media"),
linetype = "solid",
size = 2) +
labs(title = "Histograma de Promedio de Sistemas",subtitle = paste("Media = ", round(mean(Sistemas$Promedio),2), ", Mediana = ", round(median(Sistemas$Promedio),2)))
TIC <- filter (datos, Promedio > 0 & Carrera == "TIC")
mean(TIC$Promedio)
## [1] 84.31719
median(TIC$Promedio)
## [1] 83.24
ggplot(TIC, aes(Promedio)) +
geom_histogram(bins = 30) +
geom_vline(aes(xintercept = median(Promedio),
color = "mediana"),
linetype = "solid",
size = 2) +
geom_vline(aes(xintercept = mean(Promedio),
color = "media"),
linetype = "solid",
size = 2) +
labs(title = "Histograma de Promedio de TIC",subtitle = paste("Media = ", round(mean(TIC$Promedio),2), ", Mediana = ", round(median(TIC$Promedio),2)))
n <- nrow(administracion)
ggplot(administracion, aes(x = 1:n, y = Promedio)) +
geom_point() +
labs(title = "Dispersión de Promedio de Administración", subtitle = paste("Varianza = ", round(var(administracion$Promedio),2), ", DesvStd = ", round(sd(administracion$Promedio),2), ", C.V. = ", round(sd(administracion$Promedio) / mean(administracion$Promedio) * 100, 2 )))
n <- nrow(arquitectura)
ggplot(arquitectura, aes(x = 1:n, y = Promedio)) +
geom_point() +
labs(title = "Dispersión de Promedio de Arquitectura", subtitle = paste("Varianza = ", round(var(arquitectura$Promedio),2), ", DesvStd = ", round(sd(arquitectura$Promedio),2), ", C.V. = ", round(sd(arquitectura$Promedio) / mean(arquitectura$Promedio) * 100, 2 )))
n <- nrow(bioquimica)
ggplot(bioquimica, aes(x = 1:n, y = Promedio)) +
geom_point() +
labs(title = "Dispersión de Promedio de bioquimica", subtitle = paste("Varianza = ", round(var(bioquimica$Promedio),2), ", DesvStd = ", round(sd(bioquimica$Promedio),2), ", C.V. = ", round(sd(bioquimica$Promedio) / mean(bioquimica$Promedio) * 100, 2 )))
n <- nrow(civil)
ggplot(civil, aes(x = 1:n, y = Promedio)) +
geom_point() +
labs(title = "Dispersión de Promedio de civil", subtitle = paste("Varianza = ", round(var(civil$Promedio),2), ", DesvStd = ", round(sd(civil$Promedio),2), ", C.V. = ", round(sd(civil$Promedio) / mean(civil$Promedio) * 100, 2 )))
n <- nrow(Electrica)
ggplot(Electrica, aes(x = 1:n, y = Promedio)) +
geom_point() +
labs(title = "Dispersión de Promedio de Electrica", subtitle = paste("Varianza = ", round(var(Electrica$Promedio),2), ", DesvStd = ", round(sd(Electrica$Promedio),2), ", C.V. = ", round(sd(Electrica$Promedio) / mean(Electrica$Promedio) * 100, 2 )))
n <- nrow(Electronica)
ggplot(Electronica, aes(x = 1:n, y = Promedio)) +
geom_point() +
labs(title = "Dispersión de Promedio de Electronica", subtitle = paste("Varianza = ", round(var(Electronica$Promedio),2), ", DesvStd = ", round(sd(Electronica$Promedio),2), ", C.V. = ", round(sd(Electronica$Promedio) / mean(Electronica$Promedio) * 100, 2 )))
n <- nrow(Gestion_Empresarial)
ggplot(Gestion_Empresarial, aes(x = 1:n, y = Promedio)) +
geom_point() +
labs(title = "Dispersión de Promedio de Gestion_Empresarial", subtitle = paste("Varianza = ", round(var(Gestion_Empresarial$Promedio),2), ", DesvStd = ", round(sd(Gestion_Empresarial$Promedio),2), ", C.V. = ", round(sd(Gestion_Empresarial$Promedio) / mean(Gestion_Empresarial$Promedio) * 100, 2 )))
n <- nrow(industrial)
ggplot(industrial, aes(x = 1:n, y = Promedio)) +
geom_point() +
labs(title = "Dispersión de Promedio de industrial", subtitle = paste("Varianza = ", round(var(industrial$Promedio),2), ", DesvStd = ", round(sd(industrial$Promedio),2), ", C.V. = ", round(sd(industrial$Promedio) / mean(industrial$Promedio) * 100, 2 )))
n <- nrow(informatica)
ggplot(informatica, aes(x = 1:n, y = Promedio)) +
geom_point() +
labs(title = "Dispersión de Promedio de informatica", subtitle = paste("Varianza = ", round(var(informatica$Promedio),2), ", DesvStd = ", round(sd(informatica$Promedio),2), ", C.V. = ", round(sd(informatica$Promedio) / mean(informatica$Promedio) * 100, 2 )))
n <- nrow(mecanica)
ggplot(mecanica, aes(x = 1:n, y = Promedio)) +
geom_point() +
labs(title = "Dispersión de Promedio de mecanica", subtitle = paste("Varianza = ", round(var(mecanica$Promedio),2), ", DesvStd = ", round(sd(mecanica$Promedio),2), ", C.V. = ", round(sd(mecanica$Promedio) / mean(mecanica$Promedio) * 100, 2 )))
n <- nrow(Mecatronica)
ggplot(Mecatronica, aes(x = 1:n, y = Promedio)) +
geom_point() +
labs(title = "Dispersión de Promedio de Mecatronica", subtitle = paste("Varianza = ", round(var(Mecatronica$Promedio),2), ", DesvStd = ", round(sd(Mecatronica$Promedio),2), ", C.V. = ", round(sd(Mecatronica$Promedio) / mean(Mecatronica$Promedio) * 100, 2 )))
n <- nrow(Quimica)
ggplot(Quimica, aes(x = 1:n, y = Promedio)) +
geom_point() +
labs(title = "Dispersión de Promedio de Quimica", subtitle = paste("Varianza = ", round(var(Quimica$Promedio),2), ", DesvStd = ", round(sd(Quimica$Promedio),2), ", C.V. = ", round(sd(Quimica$Promedio) / mean(Quimica$Promedio) * 100, 2 )))
n <- nrow(Sistemas)
ggplot(Sistemas, aes(x = 1:n, y = Promedio)) +
geom_point() +
labs(title = "Dispersión de Promedio de Sistemas", subtitle = paste("Varianza = ", round(var(Sistemas$Promedio),2), ", DesvStd = ", round(sd(Sistemas$Promedio),2), ", C.V. = ", round(sd(Sistemas$Promedio) / mean(Sistemas$Promedio) * 100, 2 )))
n <- nrow(TIC)
ggplot(TIC, aes(x = 1:n, y = Promedio)) +
geom_point() +
labs(title = "Dispersión de Promedio de TIC", subtitle = paste("Varianza = ", round(var(TIC$Promedio),2), ", DesvStd = ", round(sd(TIC$Promedio),2), ", C.V. = ", round(sd(TIC$Promedio) / mean(TIC$Promedio) * 100, 2 )))
tabla <- datos %>%
group_by (Carrera) %>%
summarize(n = n(), media = mean(Promedio), mediana = median(Promedio), vari = var(Promedio), desvstd = sd(Promedio), cv = desvstd / media * 100)
## `summarise()` ungrouping output (override with `.groups` argument)
tabla
## # A tibble: 14 x 7
## Carrera n media mediana vari desvstd cv
## <chr> <int> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 ADMINISTRACION 497 74.5 88.4 1125. 33.5 45.0
## 2 ARQUITECTURA 675 70.1 85.4 1163. 34.1 48.7
## 3 BIOQUIMICA 441 68.6 82.8 1126. 33.6 48.9
## 4 CIVIL 648 73.1 83.1 834. 28.9 39.5
## 5 ELECTRICA 280 60.7 81.8 1414. 37.6 61.9
## 6 ELECTRONICA 161 67.3 85.3 1324. 36.4 54.1
## 7 GESTION EMPRESARIAL 585 74.2 86.7 1013. 31.8 42.9
## 8 INDUSTRIAL 707 74.2 83.7 819. 28.6 38.6
## 9 INFORMATICA 101 60.6 83.6 1581. 39.8 65.6
## 10 MECANICA 301 61.7 80.7 1302. 36.1 58.4
## 11 MECATRONICA 432 70.8 83.4 981. 31.3 44.3
## 12 QUIMICA 568 72.6 84.6 996. 31.6 43.5
## 13 SISTEMAS 452 70.9 84.1 1081. 32.9 46.4
## 14 TIC 81 66.6 81.7 1209. 34.8 52.2
Generar una descripción del caso de manera descriptiva (texto libre) de entre 180 y 200 palabras con ideas claras, ordenadas y con una descripción que explique los resultados, las gráficas mencionando cual de las carreras tiene menor dispersión (menor coeficiente de variación).
Damos interpretacion y solucion a que la carrera de administracion es la carrera que mas alumnos tiene y tiene mas demanda en todo el tecno, mientras que la carrera de TIC es de las ultimas en todas las carreras existentes, puede estar en peligro de que la remuevan del tecno y agragar otra de mas demanda. Gestion empresaral es la media de todas las carreras y va sobresaliendo entre los años ya que es la lider en todas las ingenierias existentes hasta hoy.
Mediante graficas de dispersion podemos ver cuales carreras son mas demandadas que otras mucho mas facilmente ya que es grafico y es mas facil manejar datos ya graficados, a datos numericos.
Tambien generamos graficas en barras para que contiene ademas la media y mediana de cada carrera espesificamente, con su diverso color para generar ese importancia y mejor vista, para hacerle la vida mas facil al lector y entienda facilmente.
Tambien tenemos otra grafica mas complicada que serial la primera la bicolores, que nos muestra el promedio de cada carrera con lineas, ademas tambien la media y la mediana, en foma de un rectangulo para cada una de ellas.
Son datos reales recopilados reales del instituto tecnologico de Durango. por lo que identificamos que nuestra carrera le falta un poco mas de mercadotecnia para sobrasalir mas por ensima de las carreras y no este en peligro de que la terminen sacando, auque esta carrera de sistemas computacionales es muy importante para la generacion actual y la generaciones siguiente ya que lleva mucha aplucacion en las tecnologias y en la vida cotidiana del día a día.