Alfredo Quiñones

Objetivo:

Analizar un conjunto de datos académicos de alumnos para determinar tablas de frecuencias que permitan interpretar acontecimientos de la vida escolar de estudiantes de una Institución de educación superior.

library(readr)    # Cargar datos csv
## Warning: package 'readr' was built under R version 4.0.5
library(fdth)     # Tablas de frecuencias
## Warning: package 'fdth' was built under R version 4.0.5
## 
## Attaching package: 'fdth'
## The following objects are masked from 'package:stats':
## 
##     sd, var
alumnos <- read.csv("https://raw.githubusercontent.com/rpizarrog/probabilidad-y-estad-stica/master/datos/promedios%20alumnos/datos%20alumnos%20promedios%20SEP%202020.csv")

head(alumnos)  # Los primeros seis registros
##   No..Control Alumno Semestre Cr..Apr. Carga Promedio  Carrera
## 1    20190001      1       11      198    19    80.21 SISTEMAS
## 2    20190002      2       11      235    10    84.33 SISTEMAS
## 3    20190003      3        9      235    10    95.25 SISTEMAS
## 4    20190004      4        9      226    19    95.00 SISTEMAS
## 5    20190005      5       10      231    14    82.32 SISTEMAS
## 6    20190006      6        9      212    23    95.02 SISTEMAS

4. Generar tabla de distribución de frecuencias de los alumnos inscritos de primer semestre de cada carrera por medio de subset() y fdt_cat() según sea el caso.

primer_semestre <- subset(alumnos, Semestre == 1)
tabla.frecuencia <- fdt_cat(primer_semestre$Carrera)
tabla.frecuencia
##             Category   f   rf rf(%)   cf  cf(%)
##         ARQUITECTURA 128 0.12 12.42  128  12.42
##  GESTION EMPRESARIAL  89 0.09  8.63  217  21.05
##              QUIMICA  89 0.09  8.63  306  29.68
##           INDUSTRIAL  88 0.09  8.54  394  38.22
##                CIVIL  86 0.08  8.34  480  46.56
##           BIOQUIMICA  84 0.08  8.15  564  54.70
##       ADMINISTRACION  83 0.08  8.05  647  62.75
##             SISTEMAS  78 0.08  7.57  725  70.32
##            ELECTRICA  77 0.07  7.47  802  77.79
##             MECANICA  76 0.07  7.37  878  85.16
##          MECATRONICA  70 0.07  6.79  948  91.95
##          ELECTRONICA  36 0.03  3.49  984  95.44
##          INFORMATICA  30 0.03  2.91 1014  98.35
##                  TIC  17 0.02  1.65 1031 100.00

5. Genera gráfica de barra de la frecuencia de alumnos de primer semestre por cada carrera.

barplot(height = tabla.frecuencia$f, 
        names.arg = tabla.frecuencia$Category,
        main = "Frecuencia de Alumnos de Primer Semestre")

## 6. Generar tabla de distribución de frecuencias de todos los alumnos inscritos

tabla.frecuencia.todos <- fdt_cat(alumnos$Carrera)
tabla.frecuencia.todos
##             Category   f   rf rf(%)   cf  cf(%)
##           INDUSTRIAL 707 0.12 11.92  707  11.92
##         ARQUITECTURA 675 0.11 11.38 1382  23.31
##                CIVIL 648 0.11 10.93 2030  34.24
##  GESTION EMPRESARIAL 585 0.10  9.87 2615  44.11
##              QUIMICA 568 0.10  9.58 3183  53.69
##       ADMINISTRACION 497 0.08  8.38 3680  62.07
##             SISTEMAS 452 0.08  7.62 4132  69.69
##           BIOQUIMICA 441 0.07  7.44 4573  77.13
##          MECATRONICA 432 0.07  7.29 5005  84.42
##             MECANICA 301 0.05  5.08 5306  89.49
##            ELECTRICA 280 0.05  4.72 5586  94.21
##          ELECTRONICA 161 0.03  2.72 5747  96.93
##          INFORMATICA 101 0.02  1.70 5848  98.63
##                  TIC  81 0.01  1.37 5929 100.00

7. Genera gráfica de barra de la frecuencia de alumnos de todos los semestres por carrera.

barplot(height = tabla.frecuencia.todos$f, 
        names.arg = tabla.frecuencia.todos$Category,
        main = "Frecuencia de Alumnos inscritos por Carrera")

## 8. Generar tabla de distribución de frecuencias de alumnos inscritos por carreras por semestre (Una por cada carrera) * SISTEMAS

SISTEMAS <- subset(alumnos, Carrera == "SISTEMAS")

# cATEGORIZAR AL SEMESTRE, No hay operaciones artiméticas con Semestre
SISTEMAS$Semestre <- factor(SISTEMAS$Semestre)

tabla_frecuencia.SIS <- fdt_cat(SISTEMAS$Semestre)
tabla_frecuencia.SIS
##  Category  f   rf rf(%)  cf  cf(%)
##         1 78 0.17 17.26  78  17.26
##         3 64 0.14 14.16 142  31.42
##         7 58 0.13 12.83 200  44.25
##         5 51 0.11 11.28 251  55.53
##         8 46 0.10 10.18 297  65.71
##         4 38 0.08  8.41 335  74.12
##         9 35 0.08  7.74 370  81.86
##         2 29 0.06  6.42 399  88.27
##        10 15 0.03  3.32 414  91.59
##        11 15 0.03  3.32 429  94.91
##         6 14 0.03  3.10 443  98.01
##        13  5 0.01  1.11 448  99.12
##        12  4 0.01  0.88 452 100.00

9. Genera una gráfica de barra de alumnos inscritos por carreras por semestre

  • SISTEMAS
barplot(height = tabla_frecuencia.SIS$f, 
        names.arg = tabla_frecuencia.SIS$Category,
        main = "Frecuencia de Alumnos SISTEMAS por Semestre")

* CIVIL * Crear variable CIVIL

CIVIL <- subset(alumnos, Carrera == "CIVIL")
  • Factorizar el semestre
# CATEGORIZAR AL SEMESTRE, No hay operaciones artiméticas con Semestre
CIVIL$Semestre <- factor(CIVIL$Semestre)
  • Generar tabla de frecuencia CIVIL
tabla_frecuencia.CIVIL <- fdt_cat(CIVIL$Semestre)
tabla_frecuencia.CIVIL
##  Category  f   rf rf(%)  cf  cf(%)
##         1 86 0.13 13.27  86  13.27
##         2 74 0.11 11.42 160  24.69
##         6 72 0.11 11.11 232  35.80
##         5 71 0.11 10.96 303  46.76
##         3 66 0.10 10.19 369  56.94
##         4 66 0.10 10.19 435  67.13
##         7 58 0.09  8.95 493  76.08
##         8 57 0.09  8.80 550  84.88
##         9 44 0.07  6.79 594  91.67
##        10 30 0.05  4.63 624  96.30
##        12 15 0.02  2.31 639  98.61
##        11  8 0.01  1.23 647  99.85
##        15  1 0.00  0.15 648 100.00
  • Visualizar CIVIL
barplot(height = tabla_frecuencia.CIVIL$f, 
        names.arg = tabla_frecuencia.CIVIL$Category,
        main = "Frecuencia de Alumnos CIVIL por Semestre")

## 10. Generar una descripción del caso de manera descriptiva Estas medidas de tendencia son muy útiles para hacer una interpretación de los datos, segun sea la función que se les quiera dar pueden ser usadas como un punto de partida o referencia para la toma de decisiones. En esta ocaccion usando R podemos determinar rápidamente estas medidas haciendo uso de la libreria “resumeRdesc”, con este nuevo enfoque es muy sencillo implementar a gran cantidad de datos, lo cual simplifica mucho el análisis de los mismos