Este documento carga un conjunto de datos preudoreales de alumnos para conocer realizar análisis descriptivo de las variables promedio y carrera

1 Cargar librerías

library(readr)
library(dplyr)
library(ggplot2)

2 Cargar datos

datos <- read.csv("https://raw.githubusercontent.com/rpizarrog/diplomado-cd-iot-2021/main/datos/datos.alumnosEJ2021.csv", stringsAsFactors = TRUE)

datos <- select(datos, Alumno, Carrera, Promedio)

3 Describir datos

str(datos)
## 'data.frame':    5535 obs. of  3 variables:
##  $ Alumno  : int  1 2 3 4 5 6 7 8 9 10 ...
##  $ Carrera : Factor w/ 14 levels "ADMINISTRACION",..: 13 13 13 13 13 13 13 13 13 13 ...
##  $ Promedio: num  79.8 82.5 95.2 79.3 92.7 ...
summary(datos)
##      Alumno                Carrera        Promedio     
##  Min.   :  1.0   INDUSTRIAL    : 653   Min.   : 70.00  
##  1st Qu.:106.0   ARQUITECTURA  : 633   1st Qu.: 83.25  
##  Median :239.0   CIVIL         : 594   Median : 86.36  
##  Mean   :262.2   GESTION       : 518   Mean   : 86.60  
##  3rd Qu.:388.0   QUIMICA       : 515   3rd Qu.: 89.83  
##  Max.   :755.0   ADMINISTRACION: 458   Max.   :100.00  
##                  (Other)       :2164

3.1 Simular probabilidades

¿Cuál es la probabilidad de elegir a un alumno y que sea de la carrera de CIVIL?

Total de datos y frecuencias por carrera

n <- nrow(datos)
frecuencia <- table(datos$Carrera)
frecuencia <- data.frame(frecuencia)
frecuencia
##              Var1 Freq
## 1  ADMINISTRACION  458
## 2    ARQUITECTURA  633
## 3      BIOQUIMICA  400
## 4           CIVIL  594
## 5       ELECTRICA  390
## 6     ELECTRONICA  158
## 7         GESTION  518
## 8      INDUSTRIAL  653
## 9     INFORMATICA   95
## 10       MECANICA  257
## 11    MECATRONICA  402
## 12        QUIMICA  515
## 13       SISTEMAS  386
## 14            TIC   76

Probabilidades por carrera

prob <- frecuencia$Freq / n
prob
##  [1] 0.08274616 0.11436314 0.07226739 0.10731707 0.07046070 0.02854562
##  [7] 0.09358627 0.11797651 0.01716350 0.04643180 0.07262873 0.09304426
## [13] 0.06973803 0.01373080
frecuencia <- mutate(frecuencia, probs = prob)

frecuencia
##              Var1 Freq      probs
## 1  ADMINISTRACION  458 0.08274616
## 2    ARQUITECTURA  633 0.11436314
## 3      BIOQUIMICA  400 0.07226739
## 4           CIVIL  594 0.10731707
## 5       ELECTRICA  390 0.07046070
## 6     ELECTRONICA  158 0.02854562
## 7         GESTION  518 0.09358627
## 8      INDUSTRIAL  653 0.11797651
## 9     INFORMATICA   95 0.01716350
## 10       MECANICA  257 0.04643180
## 11    MECATRONICA  402 0.07262873
## 12        QUIMICA  515 0.09304426
## 13       SISTEMAS  386 0.06973803
## 14            TIC   76 0.01373080

3.2 Gráficos con ggplot()

grafica <- ggplot(data = datos, mapping = aes(x = Alumno, y = Promedio, color = Carrera)) +
         geom_point() +
         facet_wrap(~ Carrera, nrow = 5) 

grafica

3.3 Gráfica de barra por Carrera

ggplot(data = frecuencia, mapping = aes(x = substr(Var1, 1,5), y = Freq)) +
  geom_bar(stat="identity")