Nombre: Alumnos inscritos en periodo Septiembre 2020- Enero 2021 en escuela de educación superior.

Objetivo: Analizar un conjunto de datos académicos de alumnos para determinar valores estadísticos que permitan interpretar acontecimientos de la vida escolar de estudiantes de una Institución de educación superior.

Cargar librerías

library(readr)
library(fdth)
## 
## Attaching package: 'fdth'
## The following objects are masked from 'package:stats':
## 
##     sd, var
library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union

Cargar los datos

alumnos <- read.csv("https://raw.githubusercontent.com/rpizarrog/probabilidad-y-estad-stica/master/datos/promedios%20alumnos/datos%20alumnos%20promedios%20SEP%202020.csv")

head(alumnos)
##   No..Control Alumno Semestre Cr..Apr. Carga Promedio  Carrera
## 1    20190001      1       11      198    19    80.21 SISTEMAS
## 2    20190002      2       11      235    10    84.33 SISTEMAS
## 3    20190003      3        9      235    10    95.25 SISTEMAS
## 4    20190004      4        9      226    19    95.00 SISTEMAS
## 5    20190005      5       10      231    14    82.32 SISTEMAS
## 6    20190006      6        9      212    23    95.02 SISTEMAS
tail(alumnos)
##      No..Control Alumno Semestre Cr..Apr. Carga Promedio        Carrera
## 5924    20195924   5924        2       27    28    92.83 ADMINISTRACION
## 5925    20195925   5925        7       94    13    80.95 ADMINISTRACION
## 5926    20195926   5926        5      103    32    92.68 ADMINISTRACION
## 5927    20195927   5927        4       79    34    86.18 ADMINISTRACION
## 5928    20195928   5928        5      108    32    90.48 ADMINISTRACION
## 5929    20195929   5929        7      169    32    92.33 ADMINISTRACION

De los alumnos de primer semestre: Determinar lo siguiente:

primerSemestre <- filter(alumnos, Semestre == 1)
freq.primero.carreras <- fdt_cat(primerSemestre$Carrera)

dataPrimero <- data.frame("Carrera" = freq.primero.carreras$Category, "Alumnos" = freq.primero.carreras$f)

dataPrimero
##                Carrera Alumnos
## 1         ARQUITECTURA     128
## 2  GESTION EMPRESARIAL      89
## 3              QUIMICA      89
## 4           INDUSTRIAL      88
## 5                CIVIL      86
## 6           BIOQUIMICA      84
## 7       ADMINISTRACION      83
## 8             SISTEMAS      78
## 9            ELECTRICA      77
## 10            MECANICA      76
## 11         MECATRONICA      70
## 12         ELECTRONICA      36
## 13         INFORMATICA      30
## 14                 TIC      17
cat("La suma total de alumnos inscritos en primer semestre es ",sum(dataPrimero$Alumnos))
## La suma total de alumnos inscritos en primer semestre es  1031
par(mar=c(11,4,4,2))
barplot(height = dataPrimero$Alumnos, 
        names.arg = dataPrimero$Carrera,
        main = "Alumnos inscritos en primer semestre",
        las = 2)

De todos los semestres y todas las carreras

freq.todos.carreras <- fdt_cat(alumnos$Carrera)

dataTodos <- data.frame("Carrera" = freq.todos.carreras$Category, "Alumnos" = freq.todos.carreras$f)

dataTodos
##                Carrera Alumnos
## 1           INDUSTRIAL     707
## 2         ARQUITECTURA     675
## 3                CIVIL     648
## 4  GESTION EMPRESARIAL     585
## 5              QUIMICA     568
## 6       ADMINISTRACION     497
## 7             SISTEMAS     452
## 8           BIOQUIMICA     441
## 9          MECATRONICA     432
## 10            MECANICA     301
## 11           ELECTRICA     280
## 12         ELECTRONICA     161
## 13         INFORMATICA     101
## 14                 TIC      81
cat("La suma total de alumnos inscritos es ",sum(dataTodos$Alumnos))
## La suma total de alumnos inscritos es  5929
par(mar=c(11,4,4,2))
barplot(height = dataTodos$Alumnos, 
        names.arg = dataTodos$Carrera,
        main = "Alumnos inscritos",
        las = 2)

De los promedios de alumnos

promedio.carreras <- subset(alumnos, Semestre > 1) %>%
    group_by(Carrera) %>%
    summarize(Promedio = mean(Promedio))
## `summarise()` ungrouping output (override with `.groups` argument)
promedio.carreras <- data.frame("Carrera" = promedio.carreras$Carrera, "Promedio" = promedio.carreras$Promedio)
                                
promedio.carreras
##                Carrera Promedio
## 1       ADMINISTRACION 89.44312
## 2         ARQUITECTURA 86.46481
## 3           BIOQUIMICA 84.68143
## 4                CIVIL 84.28100
## 5            ELECTRICA 83.77305
## 6          ELECTRONICA 86.65720
## 7  GESTION EMPRESARIAL 87.49290
## 8           INDUSTRIAL 84.74268
## 9          INFORMATICA 86.26577
## 10            MECANICA 82.58467
## 11         MECATRONICA 84.45948
## 12             QUIMICA 86.05215
## 13            SISTEMAS 85.67495
## 14                 TIC 84.31719
cat("El promedio general de todas las carreras es ", mean(promedio.carreras$Promedio))
## El promedio general de todas las carreras es  85.49217
par(mar=c(11,4,4,2))
boxplot(Promedio ~ Carrera, subset(alumnos, Semestre > 1) ,las = 3)

De los promedio de alumnos por semestre de cada carrera

promedio.carreras <- subset(alumnos, Semestre > 1) %>%
    group_by(Carrera, Semestre) %>%
    summarize(Promedio = mean(Promedio))
## `summarise()` regrouping output by 'Carrera' (override with `.groups` argument)

Administración

dataADMINISTRACION <- filter(promedio.carreras, Carrera == "ADMINISTRACION")
dataADMINISTRACION <- data.frame("Semestre" = dataADMINISTRACION$Semestre, "Promedio" = dataADMINISTRACION$Promedio)

dataADMINISTRACION
##    Semestre Promedio
## 1         2 90.46486
## 2         3 91.03355
## 3         4 88.55074
## 4         5 90.16712
## 5         6 88.33806
## 6         7 88.67369
## 7         8 88.46714
## 8         9 90.19174
## 9        10 88.48800
## 10       11 87.36417
## 11       12 83.65000
cat("El promedio total de la carrera de ADMINISTRACION es ",mean(dataADMINISTRACION$Promedio))
## El promedio total de la carrera de ADMINISTRACION es  88.67173

Arquitectura

dataARQUITECTURA <- filter(promedio.carreras, Carrera == "ARQUITECTURA")
dataARQUITECTURA <- data.frame("Semestre" = dataARQUITECTURA$Semestre, "Promedio" = dataARQUITECTURA$Promedio)

dataARQUITECTURA
##    Semestre Promedio
## 1         2 85.89126
## 2         3 87.53758
## 3         4 87.10419
## 4         5 88.17828
## 5         6 86.95047
## 6         7 85.93038
## 7         8 85.50350
## 8         9 87.24149
## 9        10 83.76613
## 10       11 83.31250
## 11       12 83.49818
cat("El promedio total de la carrera de ARQUITECTURA es ",mean(dataARQUITECTURA$Promedio))
## El promedio total de la carrera de ARQUITECTURA es  85.90127

Bioquimica

dataBIOQUIMICA <- filter(promedio.carreras, Carrera == "BIOQUIMICA")
dataBIOQUIMICA <- data.frame("Semestre" = dataBIOQUIMICA$Semestre, "Promedio" = dataBIOQUIMICA$Promedio)

dataBIOQUIMICA
##    Semestre Promedio
## 1         2 87.03235
## 2         3 86.51385
## 3         4 83.66500
## 4         5 84.54766
## 5         6 83.74833
## 6         7 84.64236
## 7         8 81.83824
## 8         9 85.36368
## 9        10 82.16800
## 10       11 80.12091
## 11       12 79.35333
## 12       13 82.02000
cat("El promedio total de la carrera de BIOQUIMICA es ",mean(dataBIOQUIMICA$Promedio))
## El promedio total de la carrera de BIOQUIMICA es  83.41781

Civil

dataCIVIL <- filter(promedio.carreras, Carrera == "CIVIL")
dataCIVIL <- data.frame("Semestre" = dataCIVIL$Semestre, "Promedio" = dataCIVIL$Promedio)

dataCIVIL
##    Semestre Promedio
## 1         2 87.26649
## 2         3 85.64424
## 3         4 83.32561
## 4         5 85.27732
## 5         6 83.75000
## 6         7 84.54276
## 7         8 83.67842
## 8         9 83.51045
## 9        10 80.51033
## 10       11 80.86375
## 11       12 79.01200
## 12       15 76.49000
cat("El promedio total de la carrera de CIVIL es ",mean(dataCIVIL$Promedio))
## El promedio total de la carrera de CIVIL es  82.82261

Electrica

dataELECTRICA <- filter(promedio.carreras, Carrera == "ELECTRICA")
dataELECTRICA <- data.frame("Semestre" = dataELECTRICA$Semestre, "Promedio" = dataELECTRICA$Promedio)

dataELECTRICA
##    Semestre Promedio
## 1         2 87.17000
## 2         3 84.17952
## 3         5 84.29556
## 4         6 82.05500
## 5         7 84.37370
## 6         8 84.07500
## 7         9 84.39714
## 8        10 82.55750
## 9        11 83.68933
## 10       12 80.41500
## 11       13 81.96000
## 12       14 80.70000
## 13       15 79.90333
cat("El promedio total de la carrera de ELECTRICA es ",mean(dataELECTRICA$Promedio))
## El promedio total de la carrera de ELECTRICA es  83.05931

Electronica

dataELECTRONICA <- filter(promedio.carreras, Carrera == "ELECTRONICA")
dataELECTRONICA <- data.frame("Semestre" = dataELECTRONICA$Semestre, "Promedio" = dataELECTRONICA$Promedio)

dataELECTRONICA
##   Semestre Promedio
## 1        3 88.69469
## 2        5 87.73692
## 3        6 81.65000
## 4        7 88.21667
## 5        8 86.33333
## 6        9 85.50591
## 7       10 80.62600
## 8       11 82.70500
cat("El promedio total de la carrera de ELECTRONICA es ",mean(dataELECTRONICA$Promedio))
## El promedio total de la carrera de ELECTRONICA es  85.18356

Gestion

dataGESTION <- filter(promedio.carreras, Carrera == "GESTION EMPRESARIAL")
dataGESTION <- data.frame("Semestre" = dataGESTION$Semestre, "Promedio" = dataGESTION$Promedio)

dataGESTION
##    Semestre Promedio
## 1         2 89.59659
## 2         3 87.94932
## 3         4 85.48450
## 4         5 88.83075
## 5         6 86.37296
## 6         7 86.33448
## 7         8 87.84984
## 8         9 89.33187
## 9        10 85.33379
## 10       11 85.18188
## 11       12 85.91333
## 12       13 84.60000
cat("El promedio total de la carrera de GESTION es ",mean(dataGESTION$Promedio))
## El promedio total de la carrera de GESTION es  86.89828

Industrial

dataINDUSTRIAL <- filter(promedio.carreras, Carrera == "INDUSTRIAL")
dataINDUSTRIAL <- data.frame("Semestre" = dataINDUSTRIAL$Semestre, "Promedio" = dataINDUSTRIAL$Promedio)

dataINDUSTRIAL
##    Semestre Promedio
## 1         2 86.37120
## 2         3 87.78000
## 3         4 83.03333
## 4         5 84.00878
## 5         6 83.18500
## 6         7 86.34286
## 7         8 83.60377
## 8         9 85.63237
## 9        10 81.20375
## 10       11 80.56125
## 11       12 83.10000
## 12       13 78.79000
## 13       14 80.30000
cat("El promedio total de la carrera de INDUSTRIAL es ",mean(dataINDUSTRIAL$Promedio))
## El promedio total de la carrera de INDUSTRIAL es  83.37787

Informatica

dataINFORMATICA <- filter(promedio.carreras, Carrera == "INFORMATICA")
dataINFORMATICA <- data.frame("Semestre" = dataINFORMATICA$Semestre, "Promedio" = dataINFORMATICA$Promedio)

dataINFORMATICA
##   Semestre Promedio
## 1        3 88.19261
## 2        4 89.56000
## 3        5 86.66357
## 4        7 84.97357
## 5        9 85.40077
## 6       11 82.80200
## 7       13 79.74000
cat("El promedio total de la carrera de INFORMATICA es ",mean(dataINFORMATICA$Promedio))
## El promedio total de la carrera de INFORMATICA es  85.33322

Mecanica

dataMECANICA <- filter(promedio.carreras, Carrera == "MECANICA")
dataMECANICA <- data.frame("Semestre" = dataMECANICA$Semestre, "Promedio" = dataMECANICA$Promedio)

dataMECANICA
##    Semestre Promedio
## 1         3 83.43034
## 2         4 82.09500
## 3         5 82.09767
## 4         6 80.21667
## 5         7 83.28390
## 6         8 82.43929
## 7         9 84.68833
## 8        10 81.64182
## 9        11 81.19500
## 10       12 78.56000
cat("El promedio total de la carrera de MECANICA es ",mean(dataMECANICA$Promedio))
## El promedio total de la carrera de MECANICA es  81.9648

Mecatronica

dataMECATRONICA <- filter(promedio.carreras, Carrera == "MECATRONICA")
dataMECATRONICA <- data.frame("Semestre" = dataMECATRONICA$Semestre, "Promedio" = dataMECATRONICA$Promedio)

dataMECATRONICA
##    Semestre Promedio
## 1         2 84.82154
## 2         3 83.50672
## 3         4 84.74044
## 4         5 86.18594
## 5         6 84.06304
## 6         7 84.74018
## 7         8 82.37594
## 8         9 86.52357
## 9        10 82.12438
## 10       11 81.94750
## 11       12 79.56000
cat("El promedio total de la carrera de MECATRONICA es ",mean(dataMECATRONICA$Promedio))
## El promedio total de la carrera de MECATRONICA es  83.68993

Quimica

dataQUIMICA <- filter(promedio.carreras, Carrera == "QUIMICA")
dataQUIMICA <- data.frame("Semestre" = dataQUIMICA$Semestre, "Promedio" = dataQUIMICA$Promedio)

dataQUIMICA
##    Semestre Promedio
## 1         2 88.84215
## 2         3 89.57727
## 3         4 82.30615
## 4         5 85.83877
## 5         6 83.26531
## 6         7 88.51397
## 7         8 83.11037
## 8         9 85.10316
## 9        10 82.12737
## 10       11 82.65250
## 11       12 79.89250
## 12       13 78.98000
cat("El promedio total de la carrera de QUIMICA es ",mean(dataQUIMICA$Promedio))
## El promedio total de la carrera de QUIMICA es  84.18413

Sistemas

dataSISTEMAS <- filter(promedio.carreras, Carrera == "SISTEMAS")
dataSISTEMAS <- data.frame("Semestre" = dataSISTEMAS$Semestre, "Promedio" = dataSISTEMAS$Promedio)

dataSISTEMAS
##    Semestre Promedio
## 1         2 82.65759
## 2         3 86.22266
## 3         4 84.42184
## 4         5 86.54863
## 5         6 85.75429
## 6         7 86.45397
## 7         8 85.21304
## 8         9 90.19143
## 9        10 82.57133
## 10       11 82.64200
## 11       12 81.41000
## 12       13 81.97400
cat("El promedio total de la carrera de SISTEMAS es ",mean(dataSISTEMAS$Promedio))
## El promedio total de la carrera de SISTEMAS es  84.67173

TIC

dataTIC <- filter(promedio.carreras, Carrera == "TIC")
dataTIC <- data.frame("Semestre" = dataTIC$Semestre, "Promedio" = dataTIC$Promedio)

dataTIC
##   Semestre Promedio
## 1        3 84.17056
## 2        5 85.01500
## 3        7 82.29438
## 4        9 87.69000
## 5       11 83.79333
cat("El promedio total de la carrera de TIC es ",mean(dataTIC$Promedio))
## El promedio total de la carrera de TIC es  84.59265
  • Realizar un diagrama boxplot() (diagrama de caja) (14 boxplots) de los promedios de cada alumno en función de su carrera y de su semestre.

Administracion

boxplot(Promedio ~ Semestre, 
        subset(alumnos, Semestre > 1 & Carrera == "ADMINISTRACION"), 
        main = "Alumnos de ADMINISTRACION",
        xlab = "Semestres",
        ylim = c(70,100))

Arquitectura

boxplot(Promedio ~ Semestre, 
        subset(alumnos, Semestre > 1 & Carrera == "ARQUITECTURA"), 
        main = "Alumnos de ARQUITECTURA",
        xlab = "Semestres",
        ylim = c(70,100))

Bioquimica

boxplot(Promedio ~ Semestre, 
        subset(alumnos, Semestre > 1 & Carrera == "BIOQUIMICA"), 
        main = "Alumnos de BIOQUIMICA",
        xlab = "Semestres",
        ylim = c(70,100))

Civil

boxplot(Promedio ~ Semestre, 
        subset(alumnos, Semestre > 1 & Carrera == "CIVIL"), 
        main = "Alumnos de CIVIL",
        xlab = "Semestres",
        ylim = c(70,100))

Electrica

boxplot(Promedio ~ Semestre, 
        subset(alumnos, Semestre > 1 & Carrera == "ELECTRICA"), 
        main = "Alumnos de ELECTRICA",
        xlab = "Semestres",
        ylim = c(70,100))

Electronica

boxplot(Promedio ~ Semestre, 
        subset(alumnos, Semestre > 1 & Carrera == "ELECTRONICA"), 
        main = "Alumnos de ELECTRONICA",
        xlab = "Semestres",
        ylim = c(70,100))

Gestion

boxplot(Promedio ~ Semestre, 
        subset(alumnos, Semestre > 1 & Carrera == "GESTION EMPRESARIAL"), 
        main = "Alumnos de GESTION",
        xlab = "Semestres",
        ylim = c(70,100))

Industrial

boxplot(Promedio ~ Semestre, 
        subset(alumnos, Semestre > 1 & Carrera == "INDUSTRIAL"), 
        main = "Alumnos de INDUSTRIAL",
        xlab = "Semestres",
        ylim = c(70,100))

Informatica

boxplot(Promedio ~ Semestre, 
        subset(alumnos, Semestre > 1 & Carrera == "INFORMATICA"), 
        main = "Alumnos de INFORMATICA",
        xlab = "Semestres",
        ylim = c(70,100))

Mecanica

boxplot(Promedio ~ Semestre, 
        subset(alumnos, Semestre > 1 & Carrera == "MECANICA"), 
        main = "Alumnos de MECANICA",
        xlab = "Semestres",
        ylim = c(70,100))

Mecatronica

boxplot(Promedio ~ Semestre, 
        subset(alumnos, Semestre > 1 & Carrera == "MECATRONICA"), 
        main = "Alumnos de MECATRONICA",
        xlab = "Semestres",
        ylim = c(70,100))

Quimica

boxplot(Promedio ~ Semestre, 
        subset(alumnos, Semestre > 1 & Carrera == "QUIMICA"), 
        main = "Alumnos de QUIMICA",
        xlab = "Semestres",
        ylim = c(70,100))

Sistemas

boxplot(Promedio ~ Semestre, 
        subset(alumnos, Semestre > 1 & Carrera == "SISTEMAS"), 
        main = "Alumnos de SISTEMAS",
        xlab = "Semestres",
        ylim = c(70,100))

TIC

boxplot(Promedio ~ Semestre, 
        subset(alumnos, Semestre > 1 & Carrera == "TIC"), 
        main = "Alumnos de TIC",
        xlab = "Semestres",
        ylim = c(70,100))

Interpretación

Este es un conjunto de datos que contiene variables como No control, alumno, semestre, creditos aprobados, carga, promedio y carrera, pero en esta ocasión lo unico que importa son las variables de semestre, promedio y carrera y haciendo un análisis de datos se llegarón a las siguientes conclusiones. En este semestre Septiembre 2020 - Enero 2021 podemos ver que de las 14 carreras las carrera que tiene más demanda es Industrial con un total de 707 alumnos y la que tiene menos es la de TIC con un total de 81 alumnos. La carrera que tuvo un mayor número de aspirantes aceptados para este semestre fue la carrera de Arquitectura con 128 alumnos y la carrera que tuvo menos demanda fue TIC con 17 alumnos.

De todas las carreras la que tiene un mayor rendimiento academico por parte de los estudiantes que cursan apartir del 2do semestre o superior es la carrera de Administración con un promedio de 89, enseguida están la carrera de Arquitectura, Electronica, Informatica y Quimica con un promedio de 86 Y la carrera que tiene un menor aprovechamiento es la carrera de Mecanica con un promedio de 82 dejando a la institución entre todas las carreras con un promedio general de 85.

Cabe mencionar que el desempeño por semestre por parte de los alumnos independientenemete de su carrera siempre es superior al 75 y talvez cabe mencionar que el desempeño por semestre talvez se ve afectado por la generación ya que como vemos los alumnos que se encuentran en un semestre igual o superior al decimo (los mayores de todos) disminuye su promedio e igualmemte también podemos ver que la cantidad de alumnos disminuye en algunos casos en esos semestres.