Nombre: Alumnos inscritos en periodo Septiembre 2020- Enero 2021 en escuela de educación superior.

Objetivo: Analizar un conjunto de datos académicos de alumnos para determinar valores estadísticos que permitan interpretar acontecimientos de la vida escolar de estudiantes de una Institución de educación superior.

Cargar Librerias

library(readr)

Cargar Datos

alumnos = read.csv("https://raw.githubusercontent.com/rpizarrog/probabilidad-y-estad-stica/master/datos/promedios%20alumnos/datos%20alumnos%20promedios%20SEP%202020.csv")

De los alumnos de primer semestre: Determinar lo siguiente:

  • Cuántos alumnos están en primer semestre por cada carrera. De todas las carreras hacer un resumen (una tabla) con las siguientes columnas con solo alumnos de primer semestre.

  • Crear variables por cada carrera para almacenar el numero de alumnos de primer semestre.

Q.ADMINISTRACION = nrow(subset(alumnos,Carrera =="ADMINISTRACION" & Semestre==1))

Q.ARQUITECTURA = nrow(subset(alumnos,Carrera =="ARQUITECTURA" & Semestre==1))

Q.BIOQUIMICA = nrow(subset(alumnos,Carrera =="BIOQUIMICA" & Semestre==1))

Q.CIVIL = nrow(subset(alumnos,Carrera =="CIVIL" & Semestre==1))

Q.ELECTRICA = nrow(subset(alumnos,Carrera =="ELECTRICA" & Semestre==1))

Q.ELECTRONICA = nrow(subset(alumnos,Carrera =="ELECTRONICA" & Semestre==1))

Q.GESTION = nrow(subset(alumnos,Carrera =="GESTION EMPRESARIAL" & Semestre==1))

Q.INDUSTRIAL = nrow(subset(alumnos,Carrera =="INDUSTRIAL" & Semestre==1))

Q.INFORMATICA = nrow(subset(alumnos,Carrera =="INFORMATICA" & Semestre==1))

Q.MECANICA = nrow(subset(alumnos,Carrera =="MECANICA" & Semestre==1))

Q.MECATRONICA = nrow(subset(alumnos,Carrera =="MECATRONICA" & Semestre==1))

Q.SISTEMAS = nrow(subset(alumnos,Carrera =="SISTEMAS" & Semestre==1))

Q.TIC = nrow(subset(alumnos,Carrera =="TIC" & Semestre==1))

Q.QUIMICA = nrow(subset(alumnos,Carrera =="QUIMICA" & Semestre==1))

carreras = c("ADMINISTRACION","ARQUITECTURA","BIOQUIMICA","CIVIL","ELECTRICA","ELECTRONICA","GESTION EMPRESARIAL","INDUSTRIAL", "INFORMATICA","MECANICA","MECATRONICA","SISTEMAS", "TIC", "QUIMICA")

tablaPrimerSemestre = data.frame("Carreras" = carreras, "Inscritos" = c(Q.ADMINISTRACION, Q.ARQUITECTURA, Q.BIOQUIMICA, Q.CIVIL, Q.ELECTRICA, Q.ELECTRONICA, Q.GESTION, Q.INDUSTRIAL, Q.INFORMATICA, Q.MECANICA, Q.MECATRONICA, Q.SISTEMAS, Q.TIC, Q.QUIMICA))

names(tablaPrimerSemestre) = c("Carreras", "Inscritos")
tablaPrimerSemestre
##               Carreras Inscritos
## 1       ADMINISTRACION        83
## 2         ARQUITECTURA       128
## 3           BIOQUIMICA        84
## 4                CIVIL        86
## 5            ELECTRICA        77
## 6          ELECTRONICA        36
## 7  GESTION EMPRESARIAL        89
## 8           INDUSTRIAL        88
## 9          INFORMATICA        30
## 10            MECANICA        76
## 11         MECATRONICA        70
## 12            SISTEMAS        78
## 13                 TIC        17
## 14             QUIMICA        89
  • Generar una grafica de barra de las carreras en función de la cantidad de alumnos de primer semestre para visualizar quien tiene MÁS o MENOS alumnos.
barplot(main = "Alumno de primer semestre",xlab = "Carreras", ylab="Cantidad", height = tablaPrimerSemestre$Inscritos, names.arg = tablaPrimerSemestre$Carreras, las=2)

De todos los semestres y todas las carreras

  • Realizar una tabla que muestre el número de alumnos por carrera
QT.ADMINISTRACION = nrow(subset(alumnos,Carrera =="ADMINISTRACION"))

QT.ARQUITECTURA = nrow(subset(alumnos,Carrera =="ARQUITECTURA"))

QT.BIOQUIMICA = nrow(subset(alumnos,Carrera =="BIOQUIMICA"))

QT.CIVIL = nrow(subset(alumnos,Carrera =="CIVIL"))

QT.ELECTRICA = nrow(subset(alumnos,Carrera =="ELECTRICA"))

QT.ELECTRONICA = nrow(subset(alumnos,Carrera =="ELECTRONICA"))

QT.GESTION = nrow(subset(alumnos,Carrera =="GESTION EMPRESARIAL"))

QT.INDUSTRIAL = nrow(subset(alumnos,Carrera =="INDUSTRIAL"))

QT.INFORMATICA = nrow(subset(alumnos,Carrera =="INFORMATICA"))

QT.MECANICA = nrow(subset(alumnos,Carrera =="MECANICA"))

QT.MECATRONICA = nrow(subset(alumnos,Carrera =="MECATRONICA"))

QT.SISTEMAS = nrow(subset(alumnos,Carrera =="SISTEMAS"))

QT.TIC = nrow(subset(alumnos,Carrera =="TIC"))

QT.QUIMICA = nrow(subset(alumnos,Carrera =="QUIMICA"))
                    
tablaCarreras = data.frame("Carreras" = carreras, "Inscritos" = c(QT.ADMINISTRACION, QT.ARQUITECTURA, QT.BIOQUIMICA, QT.CIVIL, QT.ELECTRICA, QT.ELECTRONICA, QT.GESTION, QT.INDUSTRIAL, QT.INFORMATICA, QT.MECANICA, QT.MECATRONICA, QT.SISTEMAS, QT.TIC, QT.QUIMICA))     

names(tablaCarreras) = c("Carreras", "Inscritos")
tablaCarreras
##               Carreras Inscritos
## 1       ADMINISTRACION       497
## 2         ARQUITECTURA       675
## 3           BIOQUIMICA       441
## 4                CIVIL       648
## 5            ELECTRICA       280
## 6          ELECTRONICA       161
## 7  GESTION EMPRESARIAL       585
## 8           INDUSTRIAL       707
## 9          INFORMATICA       101
## 10            MECANICA       301
## 11         MECATRONICA       432
## 12            SISTEMAS       452
## 13                 TIC        81
## 14             QUIMICA       568
  • Realizar un gráfico de barra de las carreras en función de la cantidad de alumnos de primer semestre para visualizar quien tiene MÁS o MENOS alumnos.
barplot(main = "Alumno Inscritos",xlab = "Carreras", ylab="Cantidad", height = tablaCarreras$Inscritos, names.arg = tablaCarreras$Carreras, las=2)

De los promedios de alumnos

  • Determinar los promedios de los alumnos de todas las carreras únicamente de los estudiantes que SI tienen historia, es decir de los que están inscritos a partir del segundo semestre en adelante.
ADMINISTRACION = subset(alumnos,Carrera =="ADMINISTRACION" & Semestre>1)

ARQUITECTURA = subset(alumnos,Carrera =="ARQUITECTURA" & Semestre>1)

BIOQUIMICA = subset(alumnos,Carrera =="BIOQUIMICA" & Semestre>1)

CIVIL = subset(alumnos,Carrera =="CIVIL" & Semestre>1)

ELECTRICA = subset(alumnos,Carrera =="ELECTRICA" & Semestre>1)

ELECTRONICA = subset(alumnos,Carrera =="ELECTRONICA" & Semestre>1)

GESTION = subset(alumnos,Carrera =="GESTION EMPRESARIAL" & Semestre>1)

INDUSTRIAL = subset(alumnos,Carrera =="INDUSTRIAL" & Semestre>1)

INFORMATICA = subset(alumnos,Carrera =="INFORMATICA" & Semestre>1)

MECANICA = subset(alumnos,Carrera =="MECANICA" & Semestre>1)

MECATRONICA = subset(alumnos,Carrera =="MECATRONICA" & Semestre>1)

SISTEMAS = subset(alumnos,Carrera =="SISTEMAS" & Semestre>1)

TIC = subset(alumnos,Carrera =="TIC" & Semestre>1)

QUIMICA = subset(alumnos,Carrera =="QUIMICA" & Semestre>1)

prom.ADMINISTRACION = mean(ADMINISTRACION$Promedio)

prom.ARQUITECTURA = mean(ARQUITECTURA$Promedio)

prom.BIOQUIMICA = mean(BIOQUIMICA$Promedio)

prom.CIVIL = mean(CIVIL$Promedio)

prom.ELECTRICA = mean(ELECTRICA$Promedio)

prom.ELECTRONICA = mean(ELECTRONICA$Promedio)

prom.GESTION = mean(GESTION$Promedio)

prom.INDUSTRIAL = mean(INDUSTRIAL$Promedio)

prom.INFORMATICA = mean(INFORMATICA$Promedio)

prom.MECANICA = mean(MECANICA$Promedio)

prom.MECATRONICA = mean(MECATRONICA$Promedio)

prom.SISTEMAS = mean(SISTEMAS$Promedio)

prom.TIC = mean(TIC$Promedio)

prom.QUIMICA = mean(QUIMICA$Promedio)

prom.ADMINISTRACION ; prom.ARQUITECTURA ; prom.BIOQUIMICA ; prom.CIVIL ; prom.ELECTRICA ; prom.ELECTRONICA ; prom.GESTION ; prom.INDUSTRIAL ; prom.INFORMATICA ; prom.MECANICA ; prom.MECATRONICA ; prom.SISTEMAS ; prom.TIC ; prom.QUIMICA
## [1] 89.44312
## [1] 86.46481
## [1] 84.68143
## [1] 84.281
## [1] 83.77305
## [1] 86.6572
## [1] 87.4929
## [1] 84.74268
## [1] 86.26577
## [1] 82.58467
## [1] 84.45948
## [1] 85.67495
## [1] 84.31719
## [1] 86.05215
carreras = c("ADMINISTRACION","ARQUITECTURA","BIOQUIMICA","CIVIL","ELECTRICA","ELECTRONICA","GESTION EMPRESARIAL","INDUSTRIAL", "INFORMATICA","MECANICA","MECATRONICA","SISTEMAS", "TIC", "QUIMICA")

tablaPromedio = data.frame("Carreras" = carreras, "Promedios" = c(prom.ADMINISTRACION, prom.ARQUITECTURA, prom.BIOQUIMICA,prom.CIVIL,prom.ELECTRICA,prom.ELECTRONICA,prom.GESTION,prom.INDUSTRIAL,prom.INFORMATICA,prom.MECANICA,prom.MECATRONICA,prom.SISTEMAS,prom.TIC,prom.QUIMICA)) 

tablaPromedio
##               Carreras Promedios
## 1       ADMINISTRACION  89.44312
## 2         ARQUITECTURA  86.46481
## 3           BIOQUIMICA  84.68143
## 4                CIVIL  84.28100
## 5            ELECTRICA  83.77305
## 6          ELECTRONICA  86.65720
## 7  GESTION EMPRESARIAL  87.49290
## 8           INDUSTRIAL  84.74268
## 9          INFORMATICA  86.26577
## 10            MECANICA  82.58467
## 11         MECATRONICA  84.45948
## 12            SISTEMAS  85.67495
## 13                 TIC  84.31719
## 14             QUIMICA  86.05215
  • Realizar un diagrama boxplot() (diagrama de caja) de los promedios de cada alumno en función de su carrera.
boxplot(Promedios ~ Carreras, tablaPromedio, las=2)

  • Todos los promedios de todos los alumnos
boxplot(Promedio ~ Carrera, subset(alumnos,Semestre>1),las=2)

De los promedio de alumnos por semestre de cada carrera

  • Realizar una tabla por cada carrera (ARQUITECTURA, BIOQUIMICA,CIVIL,QUIMICA, INFORMATICA, TIC, ADMINISTRACION), (Son 14 carreras = 14 TABLAS) para determinar los promedios de los alumnos por semestre.

  • Realizar un diagrama boxplot() (diagrama de caja) (14 boxplots) de los promedios de cada alumno en función de su carrera y de su semestre.

  • Administracion

Semestres <- sort(unique(alumnos$Semestre))
TablaAdministracion <- data.frame("Semestre"=NULL,"Promedio"=NULL)
for (x in Semestres) {
  if(x > 1){
    ADMINISTRACION <- subset(alumnos, Carrera == "ADMINISTRACION" & Semestre == x)
    prom.ADMINISTRACION <- mean(ADMINISTRACION$Promedio)
    if(!is.nan(prom.ADMINISTRACION)){
      
      TablaAdministracionTemp <- data.frame("Semestre"=x, "Promedio"= prom.ADMINISTRACION)
      TablaAdministracion <- rbind(TablaAdministracion,TablaAdministracionTemp)
    }
  }
}
n <- nrow(TablaAdministracion)
Prom_Total <- sum(TablaAdministracion$Promedio)/n
TablaProm <- data.frame("Semestre"="Promedio Total", "Promedio"=Prom_Total)
TablaAdministracion <- rbind(TablaAdministracion,TablaProm)
TablaAdministracion
##          Semestre Promedio
## 1               2 90.46486
## 2               3 91.03355
## 3               4 88.55074
## 4               5 90.16712
## 5               6 88.33806
## 6               7 88.67369
## 7               8 88.46714
## 8               9 90.19174
## 9              10 88.48800
## 10             11 87.36417
## 11             12 83.65000
## 12 Promedio Total 88.67173
TablaAdministracion <- TablaAdministracion[TablaAdministracion$Semestre != "Promedio Total",]
boxplot(Promedio ~ Semestre, TablaAdministracion, las=2)

  • Arquitectura
Semestres <- sort(unique(alumnos$Semestre))
TablaARQUITECTURA <- data.frame("Semestre"=NULL,"Promedio"=NULL)
for (x in Semestres) {
  if(x > 1){
    ARQUITECTURA <- subset(alumnos, Carrera == "ARQUITECTURA" & Semestre == x)
    prom.ARQUITECTURA <- mean(ARQUITECTURA$Promedio)
    if(!is.nan(prom.ARQUITECTURA)){
      
      TablaARQUITECTURATemp <- data.frame("Semestre"=x, "Promedio"= prom.ARQUITECTURA)
      TablaARQUITECTURA <- rbind(TablaARQUITECTURA,TablaARQUITECTURATemp)
    }
  }
}
n <- nrow(TablaARQUITECTURA)
Prom_Total <- sum(TablaARQUITECTURA$Promedio)/n
TablaProm <- data.frame("Semestre"="Promedio Total", "Promedio"=Prom_Total)
TablaARQUITECTURA <- rbind(TablaARQUITECTURA,TablaProm)
TablaARQUITECTURA
##          Semestre Promedio
## 1               2 85.89126
## 2               3 87.53758
## 3               4 87.10419
## 4               5 88.17828
## 5               6 86.95047
## 6               7 85.93038
## 7               8 85.50350
## 8               9 87.24149
## 9              10 83.76613
## 10             11 83.31250
## 11             12 83.49818
## 12 Promedio Total 85.90127
TablaARQUITECTURA <- TablaARQUITECTURA[TablaARQUITECTURA$Semestre != "Promedio Total",]
boxplot(Promedio ~ Semestre, TablaARQUITECTURA)

  • Bioquimica
Semestres <- sort(unique(alumnos$Semestre))
TablaBIOQUIMICA <- data.frame("Semestre"=NULL,"Promedio"=NULL)
for (x in Semestres) {
  if(x > 1){
    BIOQUIMICA <- subset(alumnos, Carrera == "BIOQUIMICA" & Semestre == x)
    prom.BIOQUIMICA <- mean(BIOQUIMICA$Promedio)
    if(!is.nan(prom.BIOQUIMICA)){
      
      TablaBIOQUIMICATemp <- data.frame("Semestre"=x, "Promedio"= prom.BIOQUIMICA)
      TablaBIOQUIMICA <- rbind(TablaBIOQUIMICA,TablaBIOQUIMICATemp)
    }
  }
}
n <- nrow(TablaBIOQUIMICA)
Prom_Total <- sum(TablaBIOQUIMICA$Promedio)/n
TablaProm <- data.frame("Semestre"="Promedio Total", "Promedio"=Prom_Total)
TablaBIOQUIMICA <- rbind(TablaBIOQUIMICA,TablaProm)
TablaBIOQUIMICA
##          Semestre Promedio
## 1               2 87.03235
## 2               3 86.51385
## 3               4 83.66500
## 4               5 84.54766
## 5               6 83.74833
## 6               7 84.64236
## 7               8 81.83824
## 8               9 85.36368
## 9              10 82.16800
## 10             11 80.12091
## 11             12 79.35333
## 12             13 82.02000
## 13 Promedio Total 83.41781
TablaBIOQUIMICA <- TablaBIOQUIMICA[TablaBIOQUIMICA$Semestre != "Promedio Total",]
boxplot(Promedio ~ Semestre, TablaBIOQUIMICA)

  • Civil
Semestres <- sort(unique(alumnos$Semestre))
TablaCIVIL <- data.frame("Semestre"=NULL,"Promedio"=NULL)
for (x in Semestres) {
  if(x > 1){
    CIVIL <- subset(alumnos, Carrera == "CIVIL" & Semestre == x)
    prom.CIVIL <- mean(CIVIL$Promedio)
    if(!is.nan(prom.CIVIL)){
      
      TablaCIVILTemp <- data.frame("Semestre"=x, "Promedio"= prom.CIVIL)
      TablaCIVIL <- rbind(TablaCIVIL,TablaCIVILTemp)
    }
  }
}
n <- nrow(TablaCIVIL)
Prom_Total <- sum(TablaCIVIL$Promedio)/n
TablaProm <- data.frame("Semestre"="Promedio Total", "Promedio"=Prom_Total)
TablaCIVIL <- rbind(TablaCIVIL,TablaProm)
TablaCIVIL
##          Semestre Promedio
## 1               2 87.26649
## 2               3 85.64424
## 3               4 83.32561
## 4               5 85.27732
## 5               6 83.75000
## 6               7 84.54276
## 7               8 83.67842
## 8               9 83.51045
## 9              10 80.51033
## 10             11 80.86375
## 11             12 79.01200
## 12             15 76.49000
## 13 Promedio Total 82.82261
TablaCIVIL <- TablaCIVIL[TablaCIVIL$Semestre != "Promedio Total",]
boxplot(Promedio ~ Semestre, TablaCIVIL)

  • Electrica
Semestres <- sort(unique(alumnos$Semestre))
TablaELECTRICA <- data.frame("Semestre"=NULL,"Promedio"=NULL)
for (x in Semestres) {
  if(x > 1){
    ELECTRICA <- subset(alumnos, Carrera == "ELECTRICA" & Semestre == x)
    prom.ELECTRICA <- mean(ELECTRICA$Promedio)
    if(!is.nan(prom.ELECTRICA)){
      
      TablaELECTRICATemp <- data.frame("Semestre"=x, "Promedio"= prom.ELECTRICA)
      TablaELECTRICA <- rbind(TablaELECTRICA,TablaELECTRICATemp)
    }
  }
}
n <- nrow(TablaELECTRICA)
Prom_Total <- sum(TablaELECTRICA$Promedio)/n
TablaProm <- data.frame("Semestre"="Promedio Total", "Promedio"=Prom_Total)
TablaELECTRICA <- rbind(TablaELECTRICA,TablaProm)
TablaELECTRICA
##          Semestre Promedio
## 1               2 87.17000
## 2               3 84.17952
## 3               5 84.29556
## 4               6 82.05500
## 5               7 84.37370
## 6               8 84.07500
## 7               9 84.39714
## 8              10 82.55750
## 9              11 83.68933
## 10             12 80.41500
## 11             13 81.96000
## 12             14 80.70000
## 13             15 79.90333
## 14 Promedio Total 83.05931
TablaELECTRICA <- TablaELECTRICA[TablaELECTRICA$Semestre != "Promedio Total",]
boxplot(Promedio ~ Semestre, TablaELECTRICA)

  • Electronica
Semestres <- sort(unique(alumnos$Semestre))
TablaELECTRONICA <- data.frame("Semestre"=NULL,"Promedio"=NULL)
for (x in Semestres) {
  if(x > 1){
    ELECTRONICA <- subset(alumnos, Carrera == "ELECTRONICA" & Semestre == x)
    prom.ELECTRONICA <- mean(ELECTRONICA$Promedio)
    if(!is.nan(prom.ELECTRONICA)){
      
      TablaELECTRONICATemp <- data.frame("Semestre"=x, "Promedio"= prom.ELECTRONICA)
      TablaELECTRONICA <- rbind(TablaELECTRONICA,TablaELECTRONICATemp)
    }
  }
}
n <- nrow(TablaELECTRONICA)
Prom_Total <- sum(TablaELECTRONICA$Promedio)/n
TablaProm <- data.frame("Semestre"="Promedio Total", "Promedio"=Prom_Total)
TablaELECTRONICA <- rbind(TablaELECTRONICA,TablaProm)
TablaELECTRONICA
##         Semestre Promedio
## 1              3 88.69469
## 2              5 87.73692
## 3              6 81.65000
## 4              7 88.21667
## 5              8 86.33333
## 6              9 85.50591
## 7             10 80.62600
## 8             11 82.70500
## 9 Promedio Total 85.18356
TablaELECTRONICA <- TablaELECTRONICA[TablaELECTRONICA$Semestre != "Promedio Total",]
boxplot(Promedio ~ Semestre, TablaELECTRONICA)

  • Gestion
Semestres <- sort(unique(alumnos$Semestre))
TablaGESTION <- data.frame("Semestre"=NULL,"Promedio"=NULL)
for (x in Semestres) {
  if(x > 1){
    GESTION <- subset(alumnos, Carrera == "GESTION EMPRESARIAL" & Semestre == x)
    prom.GESTION <- mean(GESTION$Promedio)
    if(!is.nan(prom.GESTION)){
      
      TablaGESTIONTemp <- data.frame("Semestre"=x, "Promedio"= prom.GESTION)
      TablaGESTION <- rbind(TablaGESTION,TablaGESTIONTemp)
    }
  }
}
n <- nrow(TablaGESTION)
Prom_Total <- sum(TablaGESTION$Promedio)/n
TablaProm <- data.frame("Semestre"="Promedio Total", "Promedio"=Prom_Total)
TablaGESTION <- rbind(TablaGESTION,TablaProm)
TablaGESTION
##          Semestre Promedio
## 1               2 89.59659
## 2               3 87.94932
## 3               4 85.48450
## 4               5 88.83075
## 5               6 86.37296
## 6               7 86.33448
## 7               8 87.84984
## 8               9 89.33187
## 9              10 85.33379
## 10             11 85.18188
## 11             12 85.91333
## 12             13 84.60000
## 13 Promedio Total 86.89828
TablaGESTION <- TablaGESTION[TablaGESTION$Semestre != "Promedio Total",]
boxplot(Promedio ~ Semestre, TablaGESTION)

  • Industrial
Semestres <- sort(unique(alumnos$Semestre))
TablaINDUSTRIAL <- data.frame("Semestre"=NULL,"Promedio"=NULL)
for (x in Semestres) {
  if(x > 1){
    INDUSTRIAL <- subset(alumnos, Carrera == "INDUSTRIAL" & Semestre == x)
    prom.INDUSTRIAL <- mean(INDUSTRIAL$Promedio)
    if(!is.nan(prom.INDUSTRIAL)){
      
      TablaINDUSTRIALTemp <- data.frame("Semestre"=x, "Promedio"= prom.INDUSTRIAL)
      TablaINDUSTRIAL <- rbind(TablaINDUSTRIAL,TablaINDUSTRIALTemp)
    }
  }
}
n <- nrow(TablaINDUSTRIAL)
Prom_Total <- sum(TablaINDUSTRIAL$Promedio)/n
TablaProm <- data.frame("Semestre"="Promedio Total", "Promedio"=Prom_Total)
TablaINDUSTRIAL <- rbind(TablaINDUSTRIAL,TablaProm)
TablaINDUSTRIAL
##          Semestre Promedio
## 1               2 86.37120
## 2               3 87.78000
## 3               4 83.03333
## 4               5 84.00878
## 5               6 83.18500
## 6               7 86.34286
## 7               8 83.60377
## 8               9 85.63237
## 9              10 81.20375
## 10             11 80.56125
## 11             12 83.10000
## 12             13 78.79000
## 13             14 80.30000
## 14 Promedio Total 83.37787
TablaINDUSTRIAL <- TablaINDUSTRIAL[TablaINDUSTRIAL$Semestre != "Promedio Total",]
boxplot(Promedio ~ Semestre, TablaINDUSTRIAL)

  • Informatica
Semestres <- sort(unique(alumnos$Semestre))
TablaINFORMATICA <- data.frame("Semestre"=NULL,"Promedio"=NULL)
for (x in Semestres) {
  if(x > 1){
    INFORMATICA <- subset(alumnos, Carrera == "INFORMATICA" & Semestre == x)
    prom.INFORMATICA <- mean(INFORMATICA$Promedio)
    if(!is.nan(prom.INFORMATICA)){
      
      TablaINFORMATICATemp <- data.frame("Semestre"=x, "Promedio"= prom.INFORMATICA)
      TablaINFORMATICA <- rbind(TablaINFORMATICA,TablaINFORMATICATemp)
    }
  }
}
n <- nrow(TablaINFORMATICA)
Prom_Total <- sum(TablaINFORMATICA$Promedio)/n
TablaProm <- data.frame("Semestre"="Promedio Total", "Promedio"=Prom_Total)
TablaINFORMATICA <- rbind(TablaINFORMATICA,TablaProm)
TablaINFORMATICA
##         Semestre Promedio
## 1              3 88.19261
## 2              4 89.56000
## 3              5 86.66357
## 4              7 84.97357
## 5              9 85.40077
## 6             11 82.80200
## 7             13 79.74000
## 8 Promedio Total 85.33322
TablaINFORMATICA <- TablaINFORMATICA[TablaINFORMATICA$Semestre != "Promedio Total",]
boxplot(Promedio ~ Semestre, TablaINFORMATICA)

  • Mecanica
Semestres <- sort(unique(alumnos$Semestre))
TablaMECANICA <- data.frame("Semestre"=NULL,"Promedio"=NULL)
for (x in Semestres) {
  if(x > 1){
    MECANICA <- subset(alumnos, Carrera == "MECANICA" & Semestre == x)
    prom.MECANICA <- mean(MECANICA$Promedio)
    if(!is.nan(prom.MECANICA)){
      
      TablaMECANICATemp <- data.frame("Semestre"=x, "Promedio"= prom.MECANICA)
      TablaMECANICA <- rbind(TablaMECANICA,TablaMECANICATemp)
    }
  }
}
n <- nrow(TablaMECANICA)
Prom_Total <- sum(TablaMECANICA$Promedio)/n
TablaProm <- data.frame("Semestre"="Promedio Total", "Promedio"=Prom_Total)
TablaMECANICA <- rbind(TablaMECANICA,TablaProm)
TablaMECANICA
##          Semestre Promedio
## 1               3 83.43034
## 2               4 82.09500
## 3               5 82.09767
## 4               6 80.21667
## 5               7 83.28390
## 6               8 82.43929
## 7               9 84.68833
## 8              10 81.64182
## 9              11 81.19500
## 10             12 78.56000
## 11 Promedio Total 81.96480
TablaMECANICA <- TablaMECANICA[TablaMECANICA$Semestre != "Promedio Total",]
boxplot(Promedio ~ Semestre, TablaMECANICA)

  • Mecatronica
Semestres <- sort(unique(alumnos$Semestre))
TablaMECATRONICA <- data.frame("Semestre"=NULL,"Promedio"=NULL)
for (x in Semestres) {
  if(x > 1){
    MECATRONICA <- subset(alumnos, Carrera == "MECATRONICA" & Semestre == x)
    prom.MECATRONICA <- mean(MECATRONICA$Promedio)
    if(!is.nan(prom.MECATRONICA)){
      
      TablaMECATRONICATemp <- data.frame("Semestre"=x, "Promedio"= prom.MECATRONICA)
      TablaMECATRONICA <- rbind(TablaMECATRONICA,TablaMECATRONICATemp)
    }
  }
}
n <- nrow(TablaMECATRONICA)
Prom_Total <- sum(TablaMECATRONICA$Promedio)/n
TablaProm <- data.frame("Semestre"="Promedio Total", "Promedio"=Prom_Total)
TablaMECATRONICA<- rbind(TablaMECATRONICA,TablaProm)
TablaMECATRONICA
##          Semestre Promedio
## 1               2 84.82154
## 2               3 83.50672
## 3               4 84.74044
## 4               5 86.18594
## 5               6 84.06304
## 6               7 84.74018
## 7               8 82.37594
## 8               9 86.52357
## 9              10 82.12438
## 10             11 81.94750
## 11             12 79.56000
## 12 Promedio Total 83.68993
TablaMECATRONICA<- TablaMECATRONICA[TablaMECATRONICA$Semestre != "Promedio Total",]
boxplot(Promedio ~ Semestre, TablaMECATRONICA)

  • Sistemas
Semestres <- sort(unique(alumnos$Semestre))
TablaSISTEMAS <- data.frame("Semestre"=NULL,"Promedio"=NULL)
for (x in Semestres) {
  if(x > 1){
    SISTEMAS <- subset(alumnos, Carrera == "SISTEMAS" & Semestre == x)
    prom.SISTEMAS <- mean(SISTEMAS$Promedio)
    if(!is.nan(prom.SISTEMAS)){
      
      TablaSISTEMASTemp <- data.frame("Semestre"=x, "Promedio"= prom.SISTEMAS)
      TablaSISTEMAS <- rbind(TablaSISTEMAS,TablaSISTEMASTemp)
    }
  }
}
n <- nrow(TablaSISTEMAS)
Prom_Total <- sum(TablaSISTEMAS$Promedio)/n
TablaProm <- data.frame("Semestre"="Promedio Total", "Promedio"=Prom_Total)
TablaSISTEMAS <- rbind(TablaSISTEMAS,TablaProm)
TablaSISTEMAS
##          Semestre Promedio
## 1               2 82.65759
## 2               3 86.22266
## 3               4 84.42184
## 4               5 86.54863
## 5               6 85.75429
## 6               7 86.45397
## 7               8 85.21304
## 8               9 90.19143
## 9              10 82.57133
## 10             11 82.64200
## 11             12 81.41000
## 12             13 81.97400
## 13 Promedio Total 84.67173
TablaSISTEMAS <- TablaSISTEMAS[TablaSISTEMAS$Semestre != "Promedio Total",]
boxplot(Promedio ~ Semestre, TablaSISTEMAS)

  • Tic
Semestres <- sort(unique(alumnos$Semestre))
TablaTIC <- data.frame("Semestre"=NULL,"Promedio"=NULL)
for (x in Semestres) {
  if(x > 1){
    TIC <- subset(alumnos, Carrera == "TIC" & Semestre == x)
    prom.TIC <- mean(TIC$Promedio)
    if(!is.nan(prom.TIC)){
      
      TablaTICTemp <- data.frame("Semestre"=x, "Promedio"= prom.TIC)
      TablaTIC <- rbind(TablaTIC,TablaTICTemp)
    }
  }
}
n <- nrow(TablaTIC)
Prom_Total <- sum(TablaTIC$Promedio)/n
TablaProm <- data.frame("Semestre"="Promedio Total", "Promedio"=Prom_Total)
TablaTIC <- rbind(TablaTIC,TablaProm)
TablaTIC
##         Semestre Promedio
## 1              3 84.17056
## 2              5 85.01500
## 3              7 82.29438
## 4              9 87.69000
## 5             11 83.79333
## 6 Promedio Total 84.59265
TablaTIC <- TablaTIC[TablaTIC$Semestre != "Promedio Total",]
boxplot(Promedio ~ Semestre, TablaTIC)

  • Quimica
Semestres <- sort(unique(alumnos$Semestre))
TablaQUIMICA <- data.frame("Semestre"=NULL,"Promedio"=NULL)
for (x in Semestres) {
  if(x > 1){
    QUIMICA <- subset(alumnos, Carrera == "QUIMICA" & Semestre == x)
    prom.QUIMICA <- mean(QUIMICA$Promedio)
    if(!is.nan(prom.QUIMICA)){
      
      TablaQUIMICATemp <- data.frame("Semestre"=x, "Promedio"= prom.QUIMICA)
      TablaQUIMICA <- rbind(TablaQUIMICA,TablaQUIMICATemp)
    }
  }
}
n <- nrow(TablaQUIMICA)
Prom_Total <- sum(TablaQUIMICA$Promedio)/n
TablaProm <- data.frame("Semestre"="Promedio Total", "Promedio"=Prom_Total)
TablaQUIMICA <- rbind(TablaQUIMICA,TablaProm)
TablaQUIMICA
##          Semestre Promedio
## 1               2 88.84215
## 2               3 89.57727
## 3               4 82.30615
## 4               5 85.83877
## 5               6 83.26531
## 6               7 88.51397
## 7               8 83.11037
## 8               9 85.10316
## 9              10 82.12737
## 10             11 82.65250
## 11             12 79.89250
## 12             13 78.98000
## 13 Promedio Total 84.18413
TablaQUIMICA <- TablaQUIMICA[TablaQUIMICA$Semestre != "Promedio Total",]
boxplot(Promedio ~ Semestre, TablaQUIMICA)

Interpretacion

  • El analisis de datos que hicimos fue con el conjunto de datos de los alumnos inscritos en una escuela de educacion superior, este conjunto contiene 5929 observaciones y 7 variables. De las cuales las variables de interes para nosotros serian las de Carrera, Promedio y Semestre, estas varian dependiendo del analisis y los datos que queremos obtener. Las tablas de agrupacion sirven para agrupar datos y tener un analisis e interpretacion y para sacar las necesidades requeridas mas facil y rapida del conjunto de datos. Las graficas de barras nos sirven para poder comparar datos para ver si hay diferencia o similitudes. En un diagrama boxplot muestra un resumen de una gran cantidad de datos y poder compararlos y saber el como se distribuyen. De los datos que obtuvimos la carrera que tiene mayor poblacion en primer semestre es es Arquitectura y la que tiene menor es TIC. La carrera que tiene mayor poblacion incluyendo todos los semestres es Industrial y la que tiene menor es Tic. La carrera que tiene el promedio mas alto son Administracion y Gestion. El hacer un correcto analisis de los datos como lo vimos en el caso anterior sirve bastante para poder sacar datos que sean relevantes, que sean utiles y saquemos provecho para poder estudiarlos o sacar necesidades que podamos obtener de ellos.