Nombre: Alumnos inscritos en periodo Septiembre 2020- Enero 2021 en nivel de educación superior.

Objetivo: Analizar un conjunto de datos académicos de alumnos para determinar valores estadísticos que permitan interpretar acontecimientos de la vida escolar de estudiantes de una Institución de educación superior.

Cargar librerías

library(readr)
library(fdth)
## 
## Attaching package: 'fdth'
## The following objects are masked from 'package:stats':
## 
##     sd, var
library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union

Cargar los datos

alumnos <- read.csv("https://raw.githubusercontent.com/rpizarrog/probabilidad-y-estad-stica/master/datos/promedios%20alumnos/datos%20alumnos%20promedios%20SEP%202020.csv")

head(alumnos)
##   No..Control Alumno Semestre Cr..Apr. Carga Promedio  Carrera
## 1    20190001      1       11      198    19    80.21 SISTEMAS
## 2    20190002      2       11      235    10    84.33 SISTEMAS
## 3    20190003      3        9      235    10    95.25 SISTEMAS
## 4    20190004      4        9      226    19    95.00 SISTEMAS
## 5    20190005      5       10      231    14    82.32 SISTEMAS
## 6    20190006      6        9      212    23    95.02 SISTEMAS

De los alumnos de primer semestre,determinar lo siguiente: Numero de alumnos en primer semestre por carrera y el total De alumnos. De todas las carreras hacer un resumen (una tabla) y Crear variables por carrera para almacenar el número de alumnos de primer semestre.

Construir una tabla

ListaCarreras <- distinct(alumnos, Carrera)
ListaCarreras
##                Carrera
## 1             SISTEMAS
## 2         ARQUITECTURA
## 3           BIOQUIMICA
## 4                CIVIL
## 5            ELECTRICA
## 6          ELECTRONICA
## 7           INDUSTRIAL
## 8             MECANICA
## 9          MECATRONICA
## 10             QUIMICA
## 11 GESTION EMPRESARIAL
## 12                 TIC
## 13         INFORMATICA
## 14      ADMINISTRACION
Q.SISTEMAS <- nrow(subset(alumnos, Carrera == "SISTEMAS" & Semestre == 1))
Q.SISTEMAS
## [1] 78
Q.INFORMATICA <- nrow(subset(alumnos, Carrera == "INFORMATICA" & Semestre == 1))
Q.INFORMATICA
## [1] 30
Q.TIC <- nrow(subset(alumnos, Carrera == "TIC" & Semestre == 1))
Q.TIC
## [1] 17
Q.INDUSTRIAL <- nrow(subset(alumnos, Carrera == "INDUSTRIAL" & Semestre == 1))
Q.INDUSTRIAL
## [1] 88
Q.ARQUITECTURA <- nrow(subset(alumnos, Carrera == "ARQUITECTURA" & Semestre == 1))
Q.ARQUITECTURA
## [1] 128
Q.BIOQUIMICA <- nrow(subset(alumnos, Carrera == "BIOQUIMICA" & Semestre == 1))
Q.BIOQUIMICA
## [1] 84
Q.CIVIL <- nrow(subset(alumnos, Carrera == "CIVIL" & Semestre == 1))
Q.CIVIL
## [1] 86
Q.ELECTRICA <- nrow(subset(alumnos, Carrera == "ELECTRICA" & Semestre == 1))
Q.ELECTRICA
## [1] 77
Q.ELECTRONICA <- nrow(subset(alumnos, Carrera == "ELECTRONICA" & Semestre == 1))
Q.ELECTRONICA
## [1] 36
Q.MECANICA <- nrow(subset(alumnos, Carrera == "MECANICA" & Semestre == 1))
Q.MECANICA
## [1] 76
Q.MECATRONICA <- nrow(subset(alumnos, Carrera == "MECATRONICA" & Semestre == 1))
Q.MECATRONICA
## [1] 70
Q.QUIMICA <- nrow(subset(alumnos, Carrera == "QUIMICA" & Semestre == 1))
Q.QUIMICA
## [1] 89
Q.GESTION_EMPRESARIAL <- nrow(subset(alumnos, Carrera == "GESTION EMPRESARIAL" & Semestre == 1))
Q.GESTION_EMPRESARIAL
## [1] 89
Q.ADMINISTRACION <- nrow(subset(alumnos, Carrera == "ADMINISTRACION" & Semestre == 1))
Q.ADMINISTRACION
## [1] 83
tabla1 <- data.frame("Carreras" = ListaCarreras, "Inscritos 1er Semestre" = c(Q.SISTEMAS,Q.ARQUITECTURA,Q.BIOQUIMICA,Q.CIVIL,Q.ELECTRICA,Q.ELECTRONICA,Q.INDUSTRIAL,Q.MECANICA,Q.MECATRONICA,Q.QUIMICA,Q.GESTION_EMPRESARIAL,Q.TIC, Q.INFORMATICA,  Q.ADMINISTRACION) )

tabla1
##                Carrera Inscritos.1er.Semestre
## 1             SISTEMAS                     78
## 2         ARQUITECTURA                    128
## 3           BIOQUIMICA                     84
## 4                CIVIL                     86
## 5            ELECTRICA                     77
## 6          ELECTRONICA                     36
## 7           INDUSTRIAL                     88
## 8             MECANICA                     76
## 9          MECATRONICA                     70
## 10             QUIMICA                     89
## 11 GESTION EMPRESARIAL                     89
## 12                 TIC                     17
## 13         INFORMATICA                     30
## 14      ADMINISTRACION                     83
total1 = sum(tabla1$Inscritos.1er.Semestre)
cat("Total De Alumnos De Primer Semeste", total1)
## Total De Alumnos De Primer Semeste 1031

Gráfica De Barras inscritos a primer semestre por carrera

par(mar=c(11,4,4,5))
barplot(height = tabla1$Inscritos, names.arg = tabla1$Carrera,las=2,col='blue')

Realizar una tabla que muestre el número de alumnos por carrera

Q2.SISTEMAS <- nrow(subset(alumnos, Carrera == "SISTEMAS"))
Q2.SISTEMAS
## [1] 452
Q2.INFORMATICA <- nrow(subset(alumnos, Carrera == "INFORMATICA"))
Q2.INFORMATICA
## [1] 101
Q2.TIC <- nrow(subset(alumnos, Carrera == "TIC"))
Q2.TIC
## [1] 81
Q2.INDUSTRIAL <- nrow(subset(alumnos, Carrera == "INDUSTRIAL"))
Q2.INDUSTRIAL
## [1] 707
Q2.ARQUITECTURA <- nrow(subset(alumnos, Carrera == "ARQUITECTURA"))
Q2.ARQUITECTURA
## [1] 675
Q2.BIOQUIMICA <- nrow(subset(alumnos, Carrera == "BIOQUIMICA"))
Q2.BIOQUIMICA
## [1] 441
Q2.CIVIL <- nrow(subset(alumnos, Carrera == "CIVIL"))
Q2.CIVIL
## [1] 648
Q2.ELECTRICA <- nrow(subset(alumnos, Carrera == "ELECTRICA"))
Q2.ELECTRICA
## [1] 280
Q2.ELECTRONICA <- nrow(subset(alumnos, Carrera == "ELECTRONICA"))
Q2.ELECTRONICA
## [1] 161
Q2.MECANICA <- nrow(subset(alumnos, Carrera == "MECANICA"))
Q2.MECANICA
## [1] 301
Q2.MECATRONICA <- nrow(subset(alumnos, Carrera == "MECATRONICA"))
Q2.MECATRONICA
## [1] 432
Q2.QUIMICA <- nrow(subset(alumnos, Carrera == "QUIMICA"))
Q2.QUIMICA
## [1] 568
Q2.GESTION_EMPRESARIAL <- nrow(subset(alumnos, Carrera == "GESTION EMPRESARIAL"))
Q2.GESTION_EMPRESARIAL
## [1] 585
Q2.ADMINISTRACION <- nrow(subset(alumnos, Carrera == "ADMINISTRACION"))
Q2.ADMINISTRACION
## [1] 497
tabla2 <- data.frame("Carreras" = ListaCarreras, "Inscritos Totales" = c(Q2.SISTEMAS,Q2.ARQUITECTURA,Q2.BIOQUIMICA,Q2.CIVIL,Q2.ELECTRICA,Q2.ELECTRONICA,Q2.INDUSTRIAL,Q2.MECANICA,Q2.MECATRONICA,Q2.QUIMICA,Q2.GESTION_EMPRESARIAL,Q2.TIC, Q2.INFORMATICA, Q2.ADMINISTRACION))

total2 = sum(tabla2$Inscritos.Totales)
cat("Total De Alumnos", total2)
## Total De Alumnos 5929
tabla2
##                Carrera Inscritos.Totales
## 1             SISTEMAS               452
## 2         ARQUITECTURA               675
## 3           BIOQUIMICA               441
## 4                CIVIL               648
## 5            ELECTRICA               280
## 6          ELECTRONICA               161
## 7           INDUSTRIAL               707
## 8             MECANICA               301
## 9          MECATRONICA               432
## 10             QUIMICA               568
## 11 GESTION EMPRESARIAL               585
## 12                 TIC                81
## 13         INFORMATICA               101
## 14      ADMINISTRACION               497

Gráfica De Barras del total de inscritos por carrera

par(mar=c(11,4,4,5))
barplot(height = tabla2$Inscritos.Totales, names.arg = tabla2$Carrera,las=2,col='red')

Determinar el promedio de todas las carreras que tenga historial

P.SISTEMAS=subset(alumnos,select = Promedio,Carrera == "SISTEMAS" & Semestre > 1)
P.SISTEMAS=mean(P.SISTEMAS$Promedio)
P.SISTEMAS
## [1] 85.67495
P.ARQUITECTURA=subset(alumnos,select = Promedio,Carrera == "ARQUITECTURA" & Semestre > 1)
P.ARQUITECTURA=mean(P.ARQUITECTURA$Promedio)
P.ARQUITECTURA
## [1] 86.46481
P.BIOQUIMICA=subset(alumnos,select = Promedio,Carrera == "BIOQUIMICA" & Semestre > 1)
P.BIOQUIMICA=mean(P.BIOQUIMICA$Promedio)
P.BIOQUIMICA
## [1] 84.68143
P.CIVIL=subset(alumnos,select = Promedio,Carrera == "CIVIL" & Semestre > 1)
P.CIVIL=mean(P.CIVIL$Promedio)
P.CIVIL
## [1] 84.281
P.ELECTRICA=subset(alumnos,select = Promedio,Carrera == "ELECTRICA" & Semestre > 1)
P.ELECTRICA=mean(P.ELECTRICA$Promedio)
P.ELECTRICA
## [1] 83.77305
P.ELECTRONICA=subset(alumnos,select = Promedio,Carrera == "ELECTRONICA" & Semestre > 1)
P.ELECTRONICA=mean(P.ELECTRONICA$Promedio)
P.ELECTRONICA
## [1] 86.6572
P.MECANICA=subset(alumnos,select = Promedio,Carrera == "MECANICA" & Semestre > 1)
P.MECANICA=mean(P.MECANICA$Promedio)
P.MECANICA
## [1] 82.58467
P.MECATRONICA=subset(alumnos,select = Promedio,Carrera == "MECATRONICA" & Semestre > 1)
P.MECATRONICA=mean(P.MECATRONICA$Promedio)
P.MECATRONICA
## [1] 84.45948
P.QUIMICA=subset(alumnos,select = Promedio,Carrera == "QUIMICA" & Semestre > 1)
P.QUIMICA=mean(P.QUIMICA$Promedio)
P.QUIMICA
## [1] 86.05215
P.GESTION_EMPRESARIAL=subset(alumnos,select = Promedio,Carrera == "GESTION EMPRESARIAL" & Semestre > 1)
P.GESTION_EMPRESARIAL=mean(P.GESTION_EMPRESARIAL$Promedio)
P.GESTION_EMPRESARIAL
## [1] 87.4929
P.TIC=subset(alumnos,select = Promedio,Carrera == "TIC" & Semestre > 1)
P.TIC=mean(P.TIC$Promedio)
P.TIC
## [1] 84.31719
P.INFORMATICA=subset(alumnos,select = Promedio,Carrera == "INFORMATICA" & Semestre > 1)
P.INFORMATICA=mean(P.INFORMATICA$Promedio)
P.INFORMATICA
## [1] 86.26577
P.ADMINISTRACION=subset(alumnos,select = Promedio,Carrera == "ADMINISTRACION" & Semestre > 1)
P.ADMINISTRACION=mean(P.ADMINISTRACION$Promedio)
P.ADMINISTRACION
## [1] 89.44312
P.INDUSTRIAL=subset(alumnos,select = Promedio,Carrera == "INDUSTRIAL" & Semestre > 1)
P.INDUSTRIAL=mean(P.INDUSTRIAL$Promedio)
P.INDUSTRIAL
## [1] 84.74268
tabla3 <- data.frame("Carreras" = ListaCarreras, "Promedios" = c(P.SISTEMAS,P.ARQUITECTURA,P.BIOQUIMICA,P.CIVIL,P.ELECTRICA,P.ELECTRONICA,P.INDUSTRIAL,P.MECANICA,P.MECATRONICA,P.QUIMICA,P.GESTION_EMPRESARIAL,P.TIC, P.INFORMATICA,P.ADMINISTRACION))

total = sum(tabla3$Promedios/nrow(tabla3))
cat("Promedio Total", total)
## Promedio Total 85.49217
tabla3
##                Carrera Promedios
## 1             SISTEMAS  85.67495
## 2         ARQUITECTURA  86.46481
## 3           BIOQUIMICA  84.68143
## 4                CIVIL  84.28100
## 5            ELECTRICA  83.77305
## 6          ELECTRONICA  86.65720
## 7           INDUSTRIAL  84.74268
## 8             MECANICA  82.58467
## 9          MECATRONICA  84.45948
## 10             QUIMICA  86.05215
## 11 GESTION EMPRESARIAL  87.49290
## 12                 TIC  84.31719
## 13         INFORMATICA  86.26577
## 14      ADMINISTRACION  89.44312

Diagrama De Caja de promedio,apartir de segundo semestre por carrera

par(mar=c(11,4,4,5))
limpioAlumnos=subset(alumnos,Semestre > 1)
boxplot(Promedio ~ Carrera,limpioAlumnos,las=2,col='red')

Realizar una tabla por carrera para determinar la frecuencia semestral, al igual,que una gráfica de barras apartir de la misma

datos.agrupados <- alumnos %>%
  group_by(Carrera, Semestre) %>%
  summarise(Frecuencia = n(), mediaPromedio = mean(Promedio))
## `summarise()` regrouping output by 'Carrera' (override with `.groups` argument)
ADMINISTRACION <- filter(datos.agrupados, Carrera == "ADMINISTRACION")
barplot(height = ADMINISTRACION$Frecuencia, 
        names.arg = ADMINISTRACION$Semestre,
        main = "Frecuencia Alumnos ADMINISTRACION",
        xlab = "Semestre",col="purple")

SISTEMAS <- filter(datos.agrupados, Carrera == "SISTEMAS")
barplot(height = SISTEMAS$Frecuencia, 
        names.arg = SISTEMAS$Semestre,
        main = "Frecuencia Alumnos SISTEMAS",
        xlab = "Semestre",col="purple")

ARQUITECTURA <- filter(datos.agrupados, Carrera == "ARQUITECTURA")
barplot(height = ARQUITECTURA$Frecuencia, 
        names.arg = ARQUITECTURA$Semestre,
        main = "Frecuencia Alumnos ARQUITECTURA",
        xlab = "Semestre",col="purple")

BIOQUIMICA <- filter(datos.agrupados, Carrera == "BIOQUIMICA")
barplot(height = BIOQUIMICA$Frecuencia, 
        names.arg = BIOQUIMICA$Semestre,
        main = "Frecuencia Alumnos BIOQUIMICA",
        xlab = "Semestre",col="purple")

CIVIL <- filter(datos.agrupados, Carrera == "CIVIL")
barplot(height = CIVIL$Frecuencia, 
        names.arg = CIVIL$Semestre,
        main = "Frecuencia Alumnos CIVIL",
        xlab = "Semestre",col="purple")

ELECTRICA <- filter(datos.agrupados, Carrera == "ELECTRICA")
barplot(height = ELECTRICA$Frecuencia, 
        names.arg = ELECTRICA$Semestre,
        main = "Frecuencia Alumnos ELECTRICA",
        xlab = "Semestre",col="purple")

ELECTRONICA <- filter(datos.agrupados, Carrera == "ELECTRONICA")
barplot(height = ELECTRONICA$Frecuencia, 
        names.arg = ELECTRONICA$Semestre,
        main = "Frecuencia Alumnos ELECTRONICA",
        xlab = "Semestre",col="purple")

INDUSTRIAL<- filter(datos.agrupados, Carrera == "INDUSTRIAL")
barplot(height = INDUSTRIAL$Frecuencia, 
        names.arg = INDUSTRIAL$Semestre,
        main = "Frecuencia Alumnos INDUSTRIAL",
        xlab = "Semestre",col="purple")

MECANICA<- filter(datos.agrupados, Carrera == "MECANICA")
barplot(height = MECANICA$Frecuencia, 
        names.arg = MECANICA$Semestre,
        main = "Frecuencia Alumnos MECANICA",
        xlab = "Semestre",col="purple")

MECATRONICA<- filter(datos.agrupados, Carrera == "MECATRONICA")
barplot(height = MECATRONICA$Frecuencia, 
        names.arg = MECATRONICA$Semestre,
        main = "Frecuencia Alumnos MECATRONICA",
        xlab = "Semestre",col="purple")

QUIMICA<- filter(datos.agrupados, Carrera == "QUIMICA")
barplot(height = QUIMICA$Frecuencia, 
        names.arg = QUIMICA$Semestre,
        main = "Frecuencia Alumnos QUIMICA",
        xlab = "Semestre",col="purple")

GESTION.EMPRESARIAL<- filter(datos.agrupados, Carrera == "GESTION EMPRESARIAL")
barplot(height = GESTION.EMPRESARIAL$Frecuencia, 
        names.arg = GESTION.EMPRESARIAL$Semestre,
        main = "Frecuencia Alumnos GESTION EMPRESARIAL",
        xlab = "Semestre",col="purple")

TIC<- filter(datos.agrupados, Carrera == "TIC")
barplot(height = TIC$Frecuencia, 
        names.arg = TIC$Semestre,
        main = "Frecuencia Alumnos TIC",
        xlab = "Semestre",col="purple")

INFORMATICA<- filter(datos.agrupados, Carrera == "INFORMATICA")
barplot(height = INFORMATICA$Frecuencia, 
        names.arg = INFORMATICA$Semestre,
        main = "Frecuencia Alumnos INFORMATICA",
        xlab = "Semestre",col="purple")

Interpretación De Los Datos

¿Cuántas observaciones y variables tienen el conjunto de datos?

5929 observaciones y 7 variables

¿Cuáles son las variables de interés?

Promedio, Carrera y Semestre

¿Para qué sirve una tabla de distribución y que se interpreta en ella?

Sirve para organizar la información de nuestros datos, de tal forma que nos sea más fácil interpretarla estadísticamente.

¿Qué se interpreta en una gráfica de barra?

La diferencia de frecuencia o porcentaje de los diferentes datos.

¿Qué se interpreta en un diagrama de caja boxplot()?

Permite visualizar los cuartiles, los valores extremos y la mediana de los datos.

¿Cuáles carreras tiene mayor y menor población en primer semestre?

Arquitectura es el mayor con 128 & Tic es el menor 17 .

¿Cuáles carreras tienen mayor y menor población en todos los semestres?

Industrial es el mayor con 707 & TIC el menor con 81 .

¿Quiénes tienen los promedios más altos?, ¿qué carreras?

Primeramente ADMINISTRACION con 89.44312, en segundo GESTION EMPRESARIAL con 87.49290 y en tercer lugar ELECTRONICA 86.65720.

Resumen

Apartir del análisis de los datos me pude percatar que las carreras que tiene una opción similar por ejemplificar sistemas con tic e informática y el caso de eléctrica con electrónica tiende a tener una inclinación hacia una de ellas y no se dividen de manera proporcional los alumnos entre todas ellas aun que lleguen a tener competencias similares.

Otra Observación es que las carreras con competencias sociales-administratibas tiendan a tener mayor cantidad en total de alumnos en diferencia de otras inclinadas a alguna de rama de la ciencia.

En cuestión al promedio no se puede notar una gran diferencia entre las carreras, a exepción de la carrera de administración en base a un valor elevado respecto a las demás carreras(no se tienen los suficientes datos para saber la razón que lo provoca).

Y finalmente la variación de la cantidad de alumnos semestral, se denota el hecho que las carreras como arquitectura, civil , industrial, tienden a reducir la cantidad de alumnos de una manera lineal y las demás tienden a tener bajas exponenciales en los semestre pares.