Este documento carga un conjunto de datos preudoreales de alumnos para conocer realizar análisis descriptivo de las variables promedio y carrera
library(readr)
library(dplyr)
library(ggplot2)
datos <- read.csv("https://raw.githubusercontent.com/rpizarrog/diplomado-cd-iot-2021/main/datos/datos.alumnosEJ2021.csv", stringsAsFactors = TRUE)
datos <- select(datos, Alumno, Carrera, Promedio)
str(datos)
## 'data.frame': 5535 obs. of 3 variables:
## $ Alumno : int 1 2 3 4 5 6 7 8 9 10 ...
## $ Carrera : Factor w/ 14 levels "ADMINISTRACION",..: 13 13 13 13 13 13 13 13 13 13 ...
## $ Promedio: num 79.8 82.5 95.2 79.3 92.7 ...
summary(datos)
## Alumno Carrera Promedio
## Min. : 1.0 INDUSTRIAL : 653 Min. : 70.00
## 1st Qu.:106.0 ARQUITECTURA : 633 1st Qu.: 83.25
## Median :239.0 CIVIL : 594 Median : 86.36
## Mean :262.2 GESTION : 518 Mean : 86.60
## 3rd Qu.:388.0 QUIMICA : 515 3rd Qu.: 89.83
## Max. :755.0 ADMINISTRACION: 458 Max. :100.00
## (Other) :2164
¿Cuál es la probabilidad de elegir a un alumno y que sea de la carrera de CIVIL?
Total de datos y frecuencias por carrera
n <- nrow(datos)
frecuencia <- table(datos$Carrera)
frecuencia <- data.frame(frecuencia)
frecuencia
## Var1 Freq
## 1 ADMINISTRACION 458
## 2 ARQUITECTURA 633
## 3 BIOQUIMICA 400
## 4 CIVIL 594
## 5 ELECTRICA 390
## 6 ELECTRONICA 158
## 7 GESTION 518
## 8 INDUSTRIAL 653
## 9 INFORMATICA 95
## 10 MECANICA 257
## 11 MECATRONICA 402
## 12 QUIMICA 515
## 13 SISTEMAS 386
## 14 TIC 76
Probabilidades por carrera
prob <- frecuencia$Freq / n
prob
## [1] 0.08274616 0.11436314 0.07226739 0.10731707 0.07046070 0.02854562
## [7] 0.09358627 0.11797651 0.01716350 0.04643180 0.07262873 0.09304426
## [13] 0.06973803 0.01373080
frecuencia <- mutate(frecuencia, probs = prob)
frecuencia
## Var1 Freq probs
## 1 ADMINISTRACION 458 0.08274616
## 2 ARQUITECTURA 633 0.11436314
## 3 BIOQUIMICA 400 0.07226739
## 4 CIVIL 594 0.10731707
## 5 ELECTRICA 390 0.07046070
## 6 ELECTRONICA 158 0.02854562
## 7 GESTION 518 0.09358627
## 8 INDUSTRIAL 653 0.11797651
## 9 INFORMATICA 95 0.01716350
## 10 MECANICA 257 0.04643180
## 11 MECATRONICA 402 0.07262873
## 12 QUIMICA 515 0.09304426
## 13 SISTEMAS 386 0.06973803
## 14 TIC 76 0.01373080
grafica <- ggplot(data = datos, mapping = aes(x = Alumno, y = Promedio, color = Carrera)) +
geom_point() +
facet_wrap(~ Carrera, nrow = 5)
grafica
ggplot(data = frecuencia, mapping = aes(x = substr(Var1, 1,5), y = Freq)) +
geom_bar(stat="identity")