Introducción

En este análisis se estudiará las causas de desempleo en los recién graduados de ingeniería en sistemas mostrando el procedimiento de tratamiento de datos de la encuesta realizada a estudiantes recién graduados de de esta carrera especificamente de la UNAH para determinar qué aspectos se debe tomar en cuenta o fortalecer para mejorar la empleabilidad de los estudiantes por egresar segun los resultados obtenidos.

Variables capturadas

## 'data.frame':    59 obs. of  6 variables:
##  $ eleccion_estudio    : chr  "Sí" "Sí" "Sí" "Sí" ...
##  $ excelencia_academica: chr  "No" "No" "No" "Sí" ...
##  $ promedio_graduacion : int  75 79 78 80 78 79 79 76 75 78 ...
##  $ clases_por_periodo  : int  4 4 4 4 4 4 4 4 4 4 ...
##  $ anio_graduacion     : int  2019 2019 2019 2019 2019 2018 2019 2020 2020 2020 ...
##  $ trabajo_actual      : chr  "Sí" "Sí" "No" "Sí" ...

Para este pequeño análisis se obtuvieron 59 observaciones y 6 columnas que fueron tomadas de la encuesta completa que cuenta con 59 observaciones y 51 columnas las cuales estan organizadas en las siguientes categorias:

  1. Demográficas
  2. Rendimiento universitario
  3. Post-universidad
  4. Hardskills
  5. Softskills

Encuesta completa:

## 'data.frame':    59 obs. of  51 variables:
##  $ timestamp                    : chr  "2020/04/07 3:14:21 PM CDT" "2020/04/07 3:32:48 PM CDT" "2020/04/07 5:01:27 PM CDT" "2020/04/07 5:07:30 PM CDT" ...
##  $ genero                       : chr  "Hombre" "Hombre" "Hombre" "Hombre" ...
##  $ edad                         : int  26 26 26 27 33 26 26 24 26 25 ...
##  $ procedencia                  : chr  "Cerro de Hula" "La ceiba, atlantida " "Tegucigalpa " "Tegucigalpa" ...
##  $ eleccion_estudio             : chr  "Sí" "Sí" "Sí" "Sí" ...
##  $ carrera_simultanea           : chr  "No" "No" "No" "No" ...
##  $ cambio_carrera               : chr  "Sí" "No" "No" "Sí" ...
##  $ becado                       : chr  "No" "No" "No" "No" ...
##  $ excelencia_academica         : chr  "No" "No" "No" "Sí" ...
##  $ promedio_graduacion          : int  75 79 78 80 78 79 79 76 75 78 ...
##  $ trabajo_y_estudio            : chr  "Sí" "Sí" "No" "No" ...
##  $ clases_por_periodo           : int  4 4 4 4 4 4 4 4 4 4 ...
##  $ tiempo_graduacion            : int  8 6 7 7 10 5 5 6 8 5 ...
##  $ rendimiento_docente          : chr  "El 50% eran buenos dando la clase" "El 70% eran buenos dando la clase" "El 50% eran buenos dando la clase" "El 60% eran buenos dando la clase" ...
##  $ calidad_contenido            : chr  "Sí" "Sí" "No" "No" ...
##  $ tecnologias_unah             : chr  "uso de lenguajes de programacion como java, php, sql y herramientas como visual studio, netbeans, eclipse" "Fueron más habilidades como facilidad para aprender las herramientas" "Web, Escritorio, IA, Lean, Desarrollo ágiles, finanzas, electrónica." "Programación en Java, infraestructura de redes" ...
##  $ tecnologias_autodidacta      : chr  "lenguajes como python, ionic, angular, postgresql herramientas como visual studio code, corel draw" "Casi todas" "CA-Plex, RPA’s, Python, Scrum, Android, IOS, React, Angular, React Native, Electronjs, teoría de tubos al vacío"| __truncated__ "Especialización en redes " ...
##  $ actividades_extracurriculares: chr  "Sí" "Sí" "Sí" "No" ...
##  $ areas_no_favoritas           : chr  "Electrónica" "Redes" "Redes" "Administración" ...
##  $ areas_favoritas              : chr  "Programación;Redes" "Programación" "Programación;Electrónica;Administración" "Redes;Electrónica" ...
##  $ preparacion_practica         : chr  "No" "Sí" "No" "No" ...
##  $ portafolio                   : chr  "algo pequeño, no tenia mucha experiencia en diversas cosas" "Por la experiencia laboral nada mal" "Básico " "No entendí la pregunta" ...
##  $ conocimientos_ayudaron       : chr  "Sí" "Sí" "No" "Sí" ...
##  $ anio_graduacion              : int  2019 2019 2019 2019 2019 2018 2019 2020 2020 2020 ...
##  $ mes_graduacion               : int  9 11 6 9 11 8 11 3 3 2 ...
##  $ trabajo_por_carrera          : chr  "Sí" "Sí" "No" "No" ...
##  $ gustar_practica              : chr  "Sí" "Sí" "Sí" "Sí" ...
##  $ ofrecieron_trabajo_practica  : chr  "Sí" "Sí" "No" "No" ...
##  $ trabajo_practica             : chr  "Si" "No" "No" "No" ...
##  $ tecnologias_mercado_laboral  : chr  "aprender lenguajes como python y aprender tecnologias para desarrollo web" "Habilidades de comunicación, expresión, etc... No simplemente saber todo de memoria " "Despliegue en la nube" "Desarrollo web, Python, administración de redes" ...
##  $ actualizacion_tecnologias    : chr  "Sí" "Sí" "Sí" "No" ...
##  $ trabajo_actual               : chr  "Sí" "Sí" "No" "Sí" ...
##  $ trabajo_ingeniero_sistemas   : chr  "" "" "" "" ...
##  $ meses_desempleado            : int  0 0 2 4 4 0 0 7 1 0 ...
##  $ trabajo_area_preferencia     : chr  "Sí" "Sí" "No" "Sí" ...
##  $ trabajo_pre_graduacion       : chr  "Sí" "Sí" "Sí" "No" ...
##  $ nivel_ingles                 : int  3 2 2 3 3 3 2 3 3 2 ...
##  $ nivel_programacion           : int  3 3 4 2 3 4 4 4 3 5 ...
##  $ nivel_redes                  : int  1 1 1 4 4 2 4 3 2 2 ...
##  $ nivel_servidores             : int  2 3 1 2 1 1 2 2 1 2 ...
##  $ nivel_disenio                : int  3 3 4 2 4 3 4 4 3 4 ...
##  $ nivel_admin                  : int  2 3 3 3 3 3 4 3 3 2 ...
##  $ lider_proyectos              : chr  "No" "Sí" "Sí" "Sí" ...
##  $ nivel_proactividad           : int  5 4 4 2 3 3 5 3 4 5 ...
##  $ nivel_autodidacta            : chr  "Sí" "Sí" "Sí" "No" ...
##  $ expositor                    : chr  "Si" "Si" "Si" "No" ...
##  $ negociador                   : chr  "No" "Sí" "Sí" "Sí" ...
##  $ lider                        : chr  "No" "Sí" "Sí" "No" ...
##  $ introvertido                 : chr  "Sí" "No" "Sí" "No" ...
##  $ competitivo                  : chr  "No" "Sí" "Sí" "Sí" ...
##  $ irritabilidad                : chr  "No" "No" "No" "No" ...

A continuación un pequeño resumen (Summary) de las 6 columnas o variables seleccionadas para este análisis:

##  eleccion_estudio   excelencia_academica promedio_graduacion clases_por_periodo
##  Length:59          Length:59            Min.   :  66.0      Min.   :3         
##  Class :character   Class :character     1st Qu.:  76.5      1st Qu.:4         
##  Mode  :character   Mode  :character     Median :  78.0      Median :4         
##                                          Mean   : 111.1      Mean   :4         
##                                          3rd Qu.:  80.0      3rd Qu.:4         
##                                          Max.   :2019.0      Max.   :5         
##                                                                                
##  anio_graduacion trabajo_actual    
##  Min.   :2016    Length:59         
##  1st Qu.:2019    Class :character  
##  Median :2019    Mode  :character  
##  Mean   :2036                      
##  3rd Qu.:2020                      
##  Max.   :3000                      
##  NA's   :2

Tratamiento de columnas

En el tratamiento de los datos lo mas común es que se realice la detección de valores nulos y transformaciones, de las 6 variables o columnas a analizar.

##  int [1:59] 75 79 78 80 78 79 79 76 75 78 ...
##  Factor w/ 17 levels "66","69","72",..: 5 9 8 10 8 9 9 6 5 8 ...
##  int [1:59] 4 4 4 4 4 4 4 4 4 4 ...
##  Factor w/ 3 levels "3","4","5": 2 2 2 2 2 2 2 2 2 2 ...
##  [1] 2019 2019 2019 2019 2019 2018 2019 2020 2020 2020 2020 2020 2020 2020   NA
## [16] 2020 2019 2019 2019 2019 2019 2019 2019   NA 2019 2019 2018 2016 2017 2020
## [31] 2019 2020 2020 2020 2020 2020 2019 2019 2018 2020 2019 2019 2020 2020 2019
## [46] 2020 2019 2019 2017 2018 2017 2018 2020 2019 3000 2020 2019 2019 2019
##  Factor w/ 6 levels "2016","2017",..: 4 4 4 4 4 3 4 5 5 5 ...

Limpiando valores nulos

##  eleccion_estudio   excelencia_academica promedio_graduacion clases_por_periodo
##  Length:59          Length:59            78     :12          3: 8              
##  Class :character   Class :character     79     :11          4:43              
##  Mode  :character   Mode  :character     75     : 8          5: 8              
##                                          80     : 5                            
##                                          77     : 4                            
##                                          81     : 4                            
##                                          (Other):15                            
##  anio_graduacion trabajo_actual    
##  2016: 1         Length:59         
##  2017: 3         Class :character  
##  2018: 5         Mode  :character  
##  2019:27                           
##  2020:20                           
##  3000: 1                           
##  NA's: 2
## [1] "eleccion_estudio"
## [1] "excelencia_academica"
## [1] "promedio_graduacion"
## [1] "clases_por_periodo"
## [1] "anio_graduacion"
## [1] "trabajo_actual"

Como se observa solo anio_graduacion obtuvo 2 valores nulos, en este caso no se vio factible eliminar y se agregaron a la media el siguiente bloque de código muestra este procedimiento.

na.summay %>% arrange(-na.percentage) %>% filter(na.percentage > 0)
##       column.name na.percentage
## 1 anio_graduacion    0.03389831
variables_estudio$anio_graduacion <- as.numeric(paste(variables_estudio$anio_graduacion))
## Warning: NAs introducidos por coerción
x <- variables_estudio %>% filter(!is.na(anio_graduacion))
media <- median(x$anio_graduacion)
variables_estudio[is.na(variables_estudio$anio_graduacion),"anio_graduacion"] <- media
variables_estudio$anio_graduacion <- as.factor(variables_estudio$anio_graduacion)

Análisis descriptivo

En esta sección se describirán mediante gráficos los datos recopilados de las diferentes variables su comportamiento y mencion de valores atípicos en caso de que los hayan, además de las transformaciones realizadas.

Clases por periodo

Estos valores podrían servir para medir de manera subjetiva el nivel de esfuerzo que tenían los encuestados en su etapa de estudiantes, por la condición de que algunas personas trabajan y estudian no son capaces de cursar el mismo número de clases que las que no cuentan con empleo y se dedican solo al estudio aún así el valor más común es 4 que se encuentra dentro del rango de lo sugerido por el plan de estudios.

Anio graduación

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    2016    2019    2019    2036    2020    3000

La principal razón para considerar el año de graduación como verdaderamente importante, es comprender que deseamos abarcar hasta lo más actual posible, pues son estas generaciones recientes las que más dificultades podrían presentar. Es de esta manera que tenemos que la mayoría de encuestados corresponden a egresados el año 2019, son una muestra bastante relevante para los fines que perseguimos, pues ejemplifican a la perfección las complicaciones que podrían tener en temas de empleabilidad.

Promedio graduación

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   66.00   76.50   78.00   78.22   80.00   90.00

Un gráfico de caja que pareció la opción más viable para representar estos valores tan diversos, y es que encontramos valores bastante atípicos tanto por encima como debajo del rango intercuartílico. Más adelante en el análisis correlacional se estudiara si estos valores atípicos dependen de las clases que se llevaban por periodo.

Trabajo actual

##  [1] "Sí" "Sí" "No" "Sí" "No" "Sí" "Sí" "No" "No" "Sí" "Sí" "Sí" "No" "Sí" "Sí"
## [16] "Sí" "Sí" "Sí" "Sí" "Sí" "Sí" "Sí" "Sí" "Sí" "Sí" "Sí" "Sí" "Sí" "Sí" "Sí"
## [31] "Sí" "Sí" "Sí" "Sí" "Sí" "Sí" "Sí" "No" "Sí" "Sí" "Sí" "No" "Sí" "Sí" "Sí"
## [46] "No" "Sí" "No" "Sí" "Sí" "Sí" "Sí" "Sí" "Sí" "Sí" "No" "Sí" "Sí" "Sí"

El porcentaje de empleabilidad en los estudiantes recién graduados de ingeniería en sistemas como se observa en la figura anterior es de más del 80% con menos del 20% desempleado a la actualidad.

Rendimiento Universitario

Los encuestados respondieron a estas preguntas binarias ofreciendo resultados que más adelante cotejados con otras variables de interés, permitirán hacer un análisis más complejo sobre aspectos que podrían repercutir en el estado laboral de los mismos.

Sin embargo, de manera general obtenemos que quienes no obtuvieron calificaciones que los posicionaran como estudiantes de excelencia académica doblan a los que sí lo consiguieron, también se observa que la mayor parte de los encuestados estudiaron la carrera de ingeniería en sistemas por elección propia.

Correlaciones

Un estudio correlacional determina si dos variables están correlacionadas o no. Esto significa analizar si un aumento o disminución en una variable coincide con un aumento o disminución en la otra variable.

Correlación de variables categoricas

prop.table(table(survey$eleccion_estudio,survey$excelencia_academica),1)
##     
##             No        Sí
##   No 0.5000000 0.5000000
##   Sí 0.7192982 0.2807018
ggplot(survey) +
  aes(x = eleccion_estudio, fill = factor(excelencia_academica)) +
  geom_bar(position = "stack") +
  theme(axis.text.x = element_text(angle = 45))

chisq.test(table(survey$eleccion_estudio,survey$excelencia_academica))
## Warning in chisq.test(table(survey$eleccion_estudio,
## survey$excelencia_academica)): Chi-squared approximation may be incorrect
## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  table(survey$eleccion_estudio, survey$excelencia_academica)
## X-squared = 1.2019e-31, df = 1, p-value = 1
Conclusión

Según el valor obtenido del p-value se rechaza la hipotesis nula, por lo tanto las variables son dependientes. Los datos anteriores muestran que las personas que no eligen la carrera por elección propia estan a un 50% de ser o no excelencia académica, mientras tanto y contradiciendo a lo que se cree el porcentaje de los que eligen la carrera y no son excelencia académica curiosamente es mayor.

Correlación de variables numerica/categorica

La correlación que se tratará en esta seccion es entre la variable promedio_graduacion y trabajo_actual.

## 
##  Shapiro-Wilk normality test
## 
## data:  survey$promedio_graduacion
## W = 0.91713, p-value = 0.0006588

##  num [1:59] 75 79 78 80 78 79 79 76 75 78 ...
## 
##  Shapiro-Wilk normality test
## 
## data:  survey$promedio_graduacion
## W = 0.96257, p-value = 0.06677
Conclusión

Como se observa el valor de p-value es mayor a 0.05 por lo cual no podemos rechazar la hipotesis nula y la variable es normal.

Se procede a crear dos grupos uno para los egresados que si tienen empleo y otro para los que no tienen empleo.

Si_trabaja <- survey %>% filter(trabajo_actual == "Sí") %>% select(promedio_graduacion)
no_trabaja <- survey %>% filter(trabajo_actual == "No") %>% select(promedio_graduacion)

Análisis para el grupo que si tiene empleo:

boxplot(Si_trabaja$promedio_graduacion)

qqnorm(Si_trabaja$promedio_graduacion)
qqline(Si_trabaja$promedio_graduacion)

shapiro.test(Si_trabaja$promedio_graduacion)
## 
##  Shapiro-Wilk normality test
## 
## data:  Si_trabaja$promedio_graduacion
## W = 0.96224, p-value = 0.1172
Conclusión

El resultado de p-value es 0.1172 que es mayor a 0.05 por lo tanto no se puede rechazar la hipotesis nula y los datos son normales.

Análisis para el grupo que no tiene empleo:

boxplot(no_trabaja$promedio_graduacion)

qqnorm(no_trabaja$promedio_graduacion)
qqline(no_trabaja$promedio_graduacion)

shapiro.test(no_trabaja$promedio_graduacion)
## 
##  Shapiro-Wilk normality test
## 
## data:  no_trabaja$promedio_graduacion
## W = 0.89956, p-value = 0.2167
Conclusión

El resultado de p-value es 0.2167 que es mayor a 0.05 por lo tanto no se puede rechazar la hipotesis nula y los datos son normales.

Prueba de homocedasticidad

var.test(no_trabaja$promedio_graduacion,Si_trabaja$promedio_graduacion)
## 
##  F test to compare two variances
## 
## data:  no_trabaja$promedio_graduacion and Si_trabaja$promedio_graduacion
## F = 1.2221, num df = 9, denom df = 48, p-value = 0.6082
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
##  0.5108144 4.2500785
## sample estimates:
## ratio of variances 
##           1.222148

Interpretación:

Con un p-value = 0.6082, mayor de 0.05, no podemos rechazar la hipótesis nula. Por lo tanto suponemos homogeneidad de varianzas.

t.test( no_trabaja$promedio_graduacion,Si_trabaja$promedio_graduacion, 
        alternative = "two.sided", 
        paired = FALSE,
        var.equal = TRUE )
## 
##  Two Sample t-test
## 
## data:  no_trabaja$promedio_graduacion and Si_trabaja$promedio_graduacion
## t = 0.88428, df = 57, p-value = 0.3803
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -0.9341874  2.4117385
## sample estimates:
## mean of x mean of y 
##  78.80000  78.06122

Interpretación:

Con un p-value = 0.3803, mayor de 0.05, no podemos rechazar la hipótesis nula. Por lo tanto suponemos que las medias de los grupos son iguales.

Correlación de variables numéricas

## 'data.frame':    59 obs. of  2 variables:
##  $ clases_por_periodo : num  4 4 4 4 4 4 4 4 4 4 ...
##  $ promedio_graduacion: num  75 79 78 80 78 79 79 76 75 78 ...

##                     clases_por_periodo promedio_graduacion
## clases_por_periodo              1.0000              0.1366
## promedio_graduacion             0.1366              1.0000

Sorprende ver el poco impacto que tienen las clases que llevaba por periodo un estudiante en su promedio de graduacion a penas del 13%.

res <- prcomp(numeric_corr2,scale=F)
fviz_eig(res)

fviz_pca_ind(res,
             col.ind = "cos2", # Color by the quality of representation
             gradient.cols = c("#00AFBB", "#E7B800", "#FC4E07"),
             repel = TRUE     # Avoid text overlapping
)

fviz_pca_biplot(res, repel = TRUE,
                col.var = "#2E9FDF", # Variables color
                col.ind = "#696969"  # Individuals color
)

Al ser solo dos variables numericas las que se estan correlacionando es evidente el tipo de influencia de una con la otra se observa que el angulo entre las dos variables se acerca a 90 grados y el sen(90) es 0.

Análisis explicativo

En nuestro caso de estudio la variable de respuesta y variable dependiente será la empleabilidad de los graduados de ingeniería en sistemas, dicha variable está definida en nuestra encuesta por la siguiente pregunta: ¿Actualmente tienes trabajo? En el siguiente bloque de codigo se realiza una regesión a nuestra variable dependiente junto a un conjunto de variables independientes analizando el impacto de estas en la variable de dolor.

survey$tiene.empleo <- "0"
survey[survey$trabajo_actual == "No", "tiene.empleo"] <- "1"
 
 
 prop.table(table(survey$tiene.empleo))
## 
##         0         1 
## 0.8305085 0.1694915
 vindependientes <- c(
    "genero",
    "edad",
    "nivel_ingles",
    "nivel_servidores",
    "nivel_programacion",
    "actividades_extracurriculares",
    "tiene.empleo"
  )
 
 datos_new <- survey[,names(survey) %in% vindependientes] 

  datos_new$tiene.empleo <- as.factor(datos_new$tiene.empleo)

  modelo <- glm(tiene.empleo ~ .,  data= datos_new, family="binomial")

  centinela <- varImp(modelo)
  centinela$col <- row.names(centinela)
  centinela <- centinela %>% arrange(-Overall)
  centinela
##     Overall                             col
## 1 1.8034952                nivel_servidores
## 2 1.6496629                            edad
## 3 1.5789841              nivel_programacion
## 4 1.1251220 actividades_extracurricularesSí
## 5 0.7583042                     generoMujer
## 6 0.3686490                    nivel_ingles
  ggplot(datos_new) +
    aes(x=edad, fill=factor(tiene.empleo))+
    geom_bar(position = "stack")+
    theme(axis.title.x = element_text(angle = 45))+
    scale_fill_manual(values = c("#999999","#E69F00"))

Tomar en cuenta que el numero 1 es el factor de desempleo, en el gráfico anterior se muestran datos muy relevantes, como por ejemplo que la mayor parte de los egresados de la carrera de ingeniería en sistemas que se encuentran desempleados están en el rango de edad de 25-27 años y por el contrario los que tienen empleo se encuentran en el rango de edad de 27-31 años, aquí se puede inferir que el aspecto de la experiencia puede jugar un papel muy importante en las causas de desempleo.

Tomar en cuenta que el numero 1 es el factor de desempleo, se analiza que impacto tiene el saber inglés frente al desempleo, el gráfico muestra que las personas que poseen un nivel de inglés avanzado (5) tienen 0% de taza de desempleo, en los demas niveles si se reflejan porcentajes de desempleo siendo el nivel 3 con mas concurrencia y tambien con el mayor porcentaje de desempleo.

Tomar en cuenta que el numero 1 es el factor de desempleo, el gráfico anterior muestra datos acorde a lo que se viene viendo en esta sección a mayor nivel de manejo o conocimiento de servidores menor porcentaje de desempleo esto lo vemos en los niveles 3 y 4 siendo el nivel 1 con el mayor porcentaje de desempleo.

De los datos anteriores se puede concluir que los retos que un recien graduado se enfrenta van relacionados a la experiencia, y el nivel de conocimiento en areas sensibles como el ingles por ejemplo que las personas que estaban en un nivel avanzado contaban con 0% porciento de desempleo.

Solución técnologica.

Comunicación

Nuestra solución tecnológica hace uso de la plataforma de AWS. Consiste en 3 partes de comunicación esencial para su efectiva funcionalidad. Primero tenemos la conexión Seguro social y UNAH que es donde vamos a compilar información importante del estudiante, seguido de Hadoop donde toda la información que obtengamos del seguro social y de la unah será manipulada en esta parte de la solución tecnológica. Y tenemos el portal del estudiante donde este estará almacenado en un EC2 en aws y se usará elastic beanstalk para desarrollar esta parte de la infraestructura. En el portal es donde el estudiante estará proporcionando su CV para poder ser analizado en hadoop con la información de la UNAH y del seguro social. Una vez analizada la información todo será regresado al portal del estudiante en el cual estará el estado de empleabilidad para que el lo vea o si se decide sera solo de acceso administrativo.

Seguro Social - UNAH

Seguro Social- UNAH.

Seguro Social- UNAH.

Image

Image

Una vez que el estudiante esté listo para su práctica profesional y abra expediente en las oficinas de ingeniería en sistemas, el tendrá que enviar su CV a nuestra plataforma. Una vez tenido el CV inicia el proceso de recopilación de información. La información del CV será manipulada en Hadoop Mahout. Como habíamos dicho anteriormente en el Capítulo II, primero se ocupará hacer unas pruebas de entrenamiento para el algoritmo de aprendizaje automático. Así mismo, este algoritmo se estará re-aprendiendo cada dos años debido a que las tecnológicas son cambiantes. En este caso es donde entra la conexión Seguro Social - UNAH. Nosotros necesitamos saber cómo luce un CV apto para la empleabilidad o uno no apto para la empleabilidad. Esto lo podemos resolver sabiendo si el estudiante labora después de su graduación. Primero traemos los datos de la UNAH para saber los datos de identificación personal del estudiante y compararlos con los del seguro social. Si se registran reducciones recientes en las cuentas de dichos estudiante quiere decir que están actualmente laborando.

Portal web - AWS Elastic beanstalk
Image.

Image.

El portal web estará montando en los servidores de AWS y estaremos usando Elastic Beanstalk por razones de organización. Elastic Beanstalk es solo una integración con muchas otras tecnologías dentro de los servicios que ofrece AWS que en nuestro caso nos ayudará a mantener organizado nuestro trabajo y nos ahorra tiempo de configuración. Si bien es cierto, el portal sólo lo estarán viendo los estudiantes o los administradores de la carrera de ingeniería en sistemas, a nosotros los desarrolladores nos servirá para integrar toda la información que viene de hadoop y que va para hadoop.

Hadoop - AWS Glue

Image.

Image.

Una vez consumidas las APIs del Seguro Social y de la UNAH esta información se estar guardando en una base de datos relacional. Donde se estará utilizando AWS Glue como herramienta de Extracción, carga y transformación. Antes de enviar la información a Hadoop primero preparamos los datos y despues enviemos a Hadoop. Hadoop es un set de tecnologías para aplicaciones en forma de cluster que mayormente se utilizan para el trabajo de datos masivos. En nuestro caso estamos interesado en la interacción que tiene con computación distribuida y las capabilidades de la herramienta madura como Mahout para el desarrollo de algoritmos de aprendizaje automático. Una vez nuestra información se encuentre de forma ordenada en AWS glue, está pasara a Hadoop donde sera utlizara para entrenar y posteriormente se utilizará para decidir el nivel de empleabilidad de los CVs de diferentes alumnos de la carrera de ingeniería en sistema de la UNAH.

Presupuesto

En total serian 2375 dolares americanos por año. Estamos confiados en que solo es un estimado ya que la calculadora de AWS no nos dejaba poner valores mínimos de cierto tiempo, tuvimos que elegir los datos que ellos pensaban deseables. Los primeros dos años serán los menos costosos ya que solo se están recopilando información y solo se estará pagando el mínimo para el dominio del portal y almacenamiento. Después de compilar información y ver que se tiene suficiente información necesaria para empezar a entrenar el algoritmo, se empezaría a utilizar los servicios de Hadoop para entrenar el algoritmo. Confiamos en que no sería mucho el tiempo de entrenamiento y esperamos un uso mínimo del servidor de Hadoop al entrenar el algoritmo. Nuevamente se utilizará el servidor de Hadoop para determinar el nivel de empleabilidad de cada estudiante y este se hará en batch para cortar costos. Se habilitaran una cantidad de días al empezar la matrícula para que el estudiante envíe su CV a la plataforma.