setwd("C:/Users/HP/OneDrive - Universidad Técnica Federico Santa María/Documentos/Trayectoria de Profesionales con Doctorado")

Introducción

En el presente reporte, se busca mostrar la frecuencia de cuatro variables que se han construido como índices a partir del instrumento “Encuesta de trayectoria de profesionales con grado de doctorado en Chile” (CDH 2021) elaborado por la consultora Clio Dinámica para el Ministerio de Ciencia, Tecnología Conocimiento e Innovación.

La encuesta CDH busca caracterizar a las personas que han egresado de algún programa de doctorado. Se basa en una encuesta aplicada por la dirección de Ciencia, Tecnología e Industria de la OCDE, el Instituto de Estadísticas de la Unesco y la Oficina de Estadística de la Comisión Europea (Eurostat) desde el 2004.

Para el presente reporte, las variables que se utilizan son:

Variable Dependiente:

SatEmpleoCategórica Definición: Es una variable latente que representa el nivel de satisfacción general con el empleo principal que tenía el doctor al 1 de diciembre de 2021. Se calcula como el índice de satisfacción en el empleo actual. Variables que la componen: Es un índice construido a partir del promedio simple de 13 variables (cada una en una escala del 1 al 4, donde 1 = Muy inconforme, 2 = Algo Inconforme, 3= Algo Satisfecho, y 4=Muy Satisfecho): EMP_9_1 Salario EMP_9_2 Beneficios EMP_9_3 Estabilidad laboral EMP_9_4 Localización de su empleo EMP_9_5 Condiciones de trabajo EMP_9_6 Posibilidades de progreso EMP_9_7 Reto intelectual EMP_9_8 Nivel de responsabilidad EMP_9_9 Grado de independencia EMP_9_10 Contribución a la sociedad EMP_9_11 Estatus social EMP_9_12 Nivel de satisfacción general EMP_9_13 Clima laboral Categorización: El índice promediado se categorizó en tres niveles: Numérico 1.Bajo (<0,3) 2.Medio (>=0,3 y <0,7) 3.Alto (>=0,7)

Variables Independientes:

ConDocCategorica Definición: Representa el nivel de conocimientos, atributos y comportamientos que el doctor considera que TENÍA al momento de completar sus estudios de doctorado. Variables que la componen: Es un índice construido a partir del promedio simple de 10 variables (cada una en una escala del 1 al 5, donde 1 = Muy pobre y 5 = Muy bueno): EDU_12_1: Metodología (aplicar metodologías de investigación, herramientas y técnicas apropiadamente) EDU_12_2: Innovación (desarrollar nuevas ideas, procesos o productos) EDU_12_3: Análisis crítico (capacidad de análisis y evaluación) EDU_12_4: Emprendimiento (capacidad de diseñar, lanzar y administrar un negocio) EDU_12_5: Administración de la carrera profesional (tomar el control y la iniciativa) EDU_12_6: Contexto de empleo (entender cómo funcionan las organizaciones) EDU_12_7: Resolución de problemas (formular y aplicar soluciones) EDU_12_8: Comunicación efectiva (comunicar a diferentes audiencias) EDU_12_9: Creatividad (ser imaginativo) EDU_12_10: Flexibilidad (adaptarse a nuevas situaciones) Categorización: El índice promediado se categorizó en tres niveles: 1 “Bajo” (< 0.3) 2 “Medio” (>= 0.3 y < 0.7) 3 “Alto” (>= 0.7)
AfirDocCategorica Definición: Evalúa la percepción del doctor sobre si su grado de doctor le permitió progresar en sus aspiraciones profesionales. Variables que la componen: Índice construido a partir del promedio simple de 6 variables (escala del 1 al 5, donde 1 = Muy en desacuerdo y 5 = Muy de acuerdo): EMP_11_1: Estaba preparado para el mercado laboral al egresar del grado EMP_11_2: Mi grado me permitió progresar en mis aspiraciones profesionales EMP_11_3: Mi grado me permitió acceder rápidamente a un trabajo EMP_11_5: Mi grado me permitió destacar en mi lugar de trabajo EMP_11_7: Mi grado me permitió innovar en mi lugar de trabajo EMP_11_10: Continúo aplicando los conocimientos obtenidos en mi grado Categorización: El promedio se divide en: 1 “Bajo” (< 0.3) 2 “Medio” (>= 0.3 y < 0.7) 3 “Alto” (>= 0.7)
GEN_2_2_1 Definición: Esta variable mide la preocupación del doctor por las exigencias domésticas/familiares mientras está en el trabajo. Variables que la componen: No es un índice, es una única pregunta con escala ordinal de 4 niveles: 1 = Nunca 2 = Solo unas pocas veces 3 = Algunas veces 4 = Mayoría de las veces

#Paquetes Utilizaremos los paquetes siguientes para elaborar el reporte

library(haven)

## Warning: package 'haven' was built under R version 4.4.1

library(dplyr)

## Warning: package 'dplyr' was built under R version 4.4.1

## 
## Adjuntando el paquete: 'dplyr'

## The following objects are masked from 'package:stats':
## 
##     filter, lag

## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union

library(summarytools)

## Warning: package 'summarytools' was built under R version 4.4.1

library(tibble)

## Warning: package 'tibble' was built under R version 4.4.1

## 
## Adjuntando el paquete: 'tibble'

## The following object is masked from 'package:summarytools':
## 
##     view

library(survey)

## Warning: package 'survey' was built under R version 4.4.1

## Cargando paquete requerido: grid

## Cargando paquete requerido: Matrix

## Cargando paquete requerido: survival

## 
## Adjuntando el paquete: 'survey'

## The following object is masked from 'package:graphics':
## 
##     dotchart

#Importar Base de Datos CDH 2021 Importamos la base de datos, la limpiamos y la visualizamos

CDH_2021<-  read.csv("CDH_2021_anonimizada.csv", sep = ";", stringsAsFactors = FALSE)
View(CDH_2021)

#Eliminamos filtrando aquellos registros/filas donde la columna “GEN_2_2_1” tiene registros vacíos.

CDH_2021 <- CDH_2021 %>% 
  filter(!is.na(GEN_2_2_1))

#Recodificar variable SatEmpleoCategórica Se recategoriza la variable SatEmpleoCategórica a dicotómica para realizar luego análisis de regresión logística. Se muestra una tabla de la variable recategorizada para reconocerla.

CDH_2021$Satisfecho <- ifelse(CDH_2021$SatEmpleoCategórica >= 2, 1, 0) # 1 = Satisfecho, 0 = No Satisfecho
table(CDH_2021$Satisfecho) # Mostrar la tabla de frecuencias de la nueva variable

## 
##    0    1 
##   14 2333

Frecuencias Simples de las Variables Seleccionadas Recodificadas y con Etiquetas

tabla1_CDH_2021 <- CDH_2021 %>%
  count(Satisfecho) %>%
  mutate(Etiqueta = case_when(Satisfecho == 1 ~ "Satisfecho",Satisfecho == 0 ~ "Insatisfecho"),
    Porcentaje = round(n / sum(n) * 100, 1)) %>%
  select(Satisfecho, Etiqueta, Frecuencia = n, Porcentaje)
print(tabla1_CDH_2021)

##   Satisfecho     Etiqueta Frecuencia Porcentaje
## 1          0 Insatisfecho         14        0.6
## 2          1   Satisfecho       2333       99.4

#Variables Independientes (con Etiquetas) #ConDocCategorica

tabla2_CDH_2021 <- CDH_2021 %>%
  count(ConDocCategorica) %>%
  mutate(Etiqueta = case_when(ConDocCategorica == 1 ~ "Bajo", ConDocCategorica == 2 ~ "Medio", ConDocCategorica == 3 ~ "Alto" ),
    Porcentaje = round(n / sum(n) * 100, 1)) %>%
  select(ConDocCategorica, Etiqueta, Frecuencia = n, Porcentaje)
print(tabla2_CDH_2021)

##   ConDocCategorica Etiqueta Frecuencia Porcentaje
## 1                1     Bajo         12        0.5
## 2                2    Medio        397       16.9
## 3                3     Alto       1938       82.6

#AfirDocCategorica

tabla3_CDH_2021 <- CDH_2021 %>%
  count(AfirDocCategorica) %>%
  mutate(Etiqueta = case_when(
    AfirDocCategorica == 1 ~ "Bajo", 
    AfirDocCategorica == 2 ~ "Medio", 
    AfirDocCategorica == 3 ~ "Alto" 
  ),
  Porcentaje = round(n / sum(n) * 100, 1)) %>%
  select(AfirDocCategorica, Etiqueta, Frecuencia = n, Porcentaje)
tabla3_CDH_2021

##   AfirDocCategorica Etiqueta Frecuencia Porcentaje
## 1                 1     Bajo         73        3.1
## 2                 2    Medio       1353       57.6
## 3                 3     Alto        921       39.2

#GEN_2_2_1

tabla4_CDH_2021 <- CDH_2021 %>%
  count(GEN_2_2_1) %>%
  mutate(Etiqueta = case_when(
    GEN_2_2_1 == 1 ~ "Nunca", 
    GEN_2_2_1 == 2 ~ "Solo unas pocas veces", 
    GEN_2_2_1 == 3 ~ "Algunas veces",
    GEN_2_2_1 == 4 ~ "Mayoría de las veces"
  ),
  Porcentaje = round(n / sum(n) * 100, 1)) %>%
  select(GEN_2_2_1, Etiqueta, Frecuencia = n, Porcentaje)
tabla4_CDH_2021

##   GEN_2_2_1              Etiqueta Frecuencia Porcentaje
## 1         1                 Nunca         69        2.9
## 2         2 Solo unas pocas veces        301       12.8
## 3         3         Algunas veces       1002       42.7
## 4         4  Mayoría de las veces        975       41.5

Diseño muestral encuesta

(Del Descriptor de Variables FACT: Factor de Expansión) En el resumen metodológico de la encuesta se establece que es un diseño “Probabilístico: Muestreo Aleatorio Simple y estratificado por sexo”.Además, “Representativo a nivel nacional y por sexo. y que el marco muestral es de 18.887 personas. A partir del Directorio Profesionales con Doctorado (ANID) y consultas sobre profesionales con doctorado a EBCT en Chile”

disenoCDH_2021 <- svydesign(ids = ~1, strata = ~PER_1_1, data = CDH_2021, weights = ~FACT)
#strata es la función que nos permite estratificar en el diseño. En este caso revisando los resultados, se ha hecho por la variable PER_1_1 que es sexo. Revisé el factor de expansión, y es 6,8 en hombres y 8,4 en muheres.

Tabla Ponderada de Variable dependiente (Satisfecho con Etiquetas)

frec_pond <- svytable(~Satisfecho, disenoCDH_2021)
tabla_Satisfecho <- tibble(
    Respuesta = as.character(rownames(frec_pond)),
    Etiqueta = case_when(
    Respuesta == "0" ~ "Insatisfecho",
    Respuesta == "1" ~ "Satisfecho"),
  Frecuencia = round(as.numeric(frec_pond),0),
  Porcentaje = round(as.numeric(prop.table(frec_pond) * 100), 1)
)
print(tabla_Satisfecho)

## # A tibble: 2 × 4
##   Respuesta Etiqueta     Frecuencia Porcentaje
##   <chr>     <chr>             <dbl>      <dbl>
## 1 0         Insatisfecho        106        0.6
## 2 1         Satisfecho        17085       99.4

Frecuencia ponderada variables independientes

##Tabla Ponderada de Variable Independiente ConDocCategorica con etiquetas

frec_pond <- svytable(~ConDocCategorica, disenoCDH_2021)
tabla_ConDocCategorica <- tibble(
    Respuesta = as.character(rownames(frec_pond)),
    Etiqueta = case_when(
        Respuesta == "1" ~ "Bajo",
        Respuesta == "2" ~ "Medio",
        Respuesta == "3" ~ "Alto",
            ),
    Frecuencia = round(as.numeric(frec_pond), 0),
    Porcentaje = round(as.numeric(prop.table(frec_pond) * 100), 1)
)
print(tabla_ConDocCategorica)

## # A tibble: 3 × 4
##   Respuesta Etiqueta Frecuencia Porcentaje
##   <chr>     <chr>         <dbl>      <dbl>
## 1 1         Bajo             88        0.5
## 2 2         Medio          2900       16.9
## 3 3         Alto          14204       82.6

#Tabla Ponderada de Variable Independiente AfirDocCategorica con etiquetas

frec_pond <- svytable(~AfirDocCategorica, disenoCDH_2021)
tabla_AfirDocCategorica <- tibble(
    Respuesta = as.character(rownames(frec_pond)),
    Etiqueta = case_when(
        Respuesta == "1" ~ "Bajo",
        Respuesta == "2" ~ "Medio",
        Respuesta == "3" ~ "Alto",
      ),
    Frecuencia = round(as.numeric(frec_pond), 0),
    Porcentaje = round(as.numeric(prop.table(frec_pond) * 100), 1)
)
print(tabla_AfirDocCategorica)

## # A tibble: 3 × 4
##   Respuesta Etiqueta Frecuencia Porcentaje
##   <chr>     <chr>         <dbl>      <dbl>
## 1 1         Bajo            535        3.1
## 2 2         Medio          9904       57.6
## 3 3         Alto           6752       39.3

#Tabla Ponderada de Variable Independiente GEN_2_2_1 con etiquetas

frec_pond <- svytable(~GEN_2_2_1, disenoCDH_2021)
tabla_GEN_2_2_1 <- tibble(
    Respuesta = as.character(rownames(frec_pond)),
    Etiqueta = case_when(
        Respuesta == "1" ~ "Nunca",
        Respuesta == "2" ~ "Solo unas pocas veces",
        Respuesta == "3" ~ "Algunas veces",
        Respuesta == "4" ~ "Mayoría de las veces", 
       ),
    Frecuencia = round(as.numeric(frec_pond), 0),
    Porcentaje = round(as.numeric(prop.table(frec_pond) * 100), 1)
)
print(tabla_GEN_2_2_1)

## # A tibble: 4 × 4
##   Respuesta Etiqueta              Frecuencia Porcentaje
##   <chr>     <chr>                      <dbl>      <dbl>
## 1 1         Nunca                        512        3  
## 2 2         Solo unas pocas veces       2204       12.8
## 3 3         Algunas veces               7335       42.7
## 4 4         Mayoría de las veces        7140       41.5

#Con esto termina la el reporte para la Tarea 1

Trayectorias Profesionales con Doctorado

Juan Felipe

2024-09-13

Introducción

Frecuencias Simples de las Variables Seleccionadas Recodificadas y con Etiquetas

Diseño muestral encuesta

Tabla Ponderada de Variable dependiente (Satisfecho con Etiquetas)

Frecuencia ponderada variables independientes