setwd("C:/Users/HP/OneDrive - Universidad Técnica Federico Santa María/Documentos/Trayectoria de Profesionales con Doctorado")

Introducción

En el presente reporte, se busca mostrar la frecuencia de cuatro variables que se han construido como índices a partir del instrumento “Encuesta de trayectoria de profesionales con grado de doctorado en Chile” (CDH 2021) elaborado por la consultora Clio Dinámica para el Ministerio de Ciencia, Tecnología Conocimiento e Innovación.

La encuesta CDH busca caracterizar a las personas que han egresado de algún programa de doctorado. Se basa en una encuesta aplicada por la dirección de Ciencia, Tecnología e Industria de la OCDE, el Instituto de Estadísticas de la Unesco y la Oficina de Estadística de la Comisión Europea (Eurostat) desde el 2004.

Para el presente reporte, las variables que se utilizan son:

  1. Variable Dependiente:
  1. SatEmpleoCategórica

Definición: Es una variable latente que representa el nivel de satisfacción general con el empleo principal que tenía el doctor al 1 de diciembre de 2021. Se calcula como el índice de satisfacción en el empleo actual.

Variables que la componen: Es un índice construido a partir del promedio simple de 13 variables (cada una en una escala del 1 al 4, donde 1 = Muy inconforme, 2 = Algo Inconforme, 3= Algo Satisfecho, y 4=Muy Satisfecho):

EMP_9_1 Salario EMP_9_2 Beneficios EMP_9_3 Estabilidad laboral EMP_9_4 Localización de su empleo EMP_9_5 Condiciones de trabajo EMP_9_6 Posibilidades de progreso EMP_9_7 Reto intelectual EMP_9_8 Nivel de responsabilidad EMP_9_9 Grado de independencia EMP_9_10 Contribución a la sociedad EMP_9_11 Estatus social EMP_9_12 Nivel de satisfacción general EMP_9_13 Clima laboral

Categorización: El índice promediado se categorizó en tres niveles:

Numérico 1.Bajo (<0,3) 2.Medio (>=0,3 y <0,7) 3.Alto (>=0,7)

Variables Independientes:

  1. ConDocCategorica

Definición: Representa el nivel de conocimientos, atributos y comportamientos que el doctor considera que TENÍA al momento de completar sus estudios de doctorado.

Variables que la componen: Es un índice construido a partir del promedio simple de 10 variables (cada una en una escala del 1 al 5, donde 1 = Muy pobre y 5 = Muy bueno):

EDU_12_1: Metodología (aplicar metodologías de investigación, herramientas y técnicas apropiadamente) EDU_12_2: Innovación (desarrollar nuevas ideas, procesos o productos) EDU_12_3: Análisis crítico (capacidad de análisis y evaluación) EDU_12_4: Emprendimiento (capacidad de diseñar, lanzar y administrar un negocio) EDU_12_5: Administración de la carrera profesional (tomar el control y la iniciativa) EDU_12_6: Contexto de empleo (entender cómo funcionan las organizaciones) EDU_12_7: Resolución de problemas (formular y aplicar soluciones) EDU_12_8: Comunicación efectiva (comunicar a diferentes audiencias) EDU_12_9: Creatividad (ser imaginativo) EDU_12_10: Flexibilidad (adaptarse a nuevas situaciones)

Categorización: El índice promediado se categorizó en tres niveles:

1 “Bajo” (< 0.3) 2 “Medio” (>= 0.3 y < 0.7) 3 “Alto” (>= 0.7)

  1. AfirDocCategorica

Definición: Evalúa la percepción del doctor sobre si su grado de doctor le permitió progresar en sus aspiraciones profesionales.

Variables que la componen: Índice construido a partir del promedio simple de 6 variables (escala del 1 al 5, donde 1 = Muy en desacuerdo y 5 = Muy de acuerdo):

EMP_11_1: Estaba preparado para el mercado laboral al egresar del grado EMP_11_2: Mi grado me permitió progresar en mis aspiraciones profesionales EMP_11_3: Mi grado me permitió acceder rápidamente a un trabajo
EMP_11_5: Mi grado me permitió destacar en mi lugar de trabajo EMP_11_7: Mi grado me permitió innovar en mi lugar de trabajo EMP_11_10: Continúo aplicando los conocimientos obtenidos en mi grado

Categorización: El promedio se divide en:

1 “Bajo” (< 0.3) 2 “Medio” (>= 0.3 y < 0.7) 3 “Alto” (>= 0.7)

  1. GEN_2_2_1

Definición: Esta variable mide la preocupación del doctor por las exigencias domésticas/familiares mientras está en el trabajo.

Variables que la componen: No es un índice, es una única pregunta con escala ordinal de 4 niveles:

1 = Nunca 2 = Solo unas pocas veces 3 = Algunas veces 4 = Mayoría de las veces

Utilizaremos los paquetes siguientes para elaborar el reporte

library(haven)
## Warning: package 'haven' was built under R version 4.4.1
library(dplyr)
## Warning: package 'dplyr' was built under R version 4.4.1
library(summarytools)
## Warning: package 'summarytools' was built under R version 4.4.1
library(tibble)
## Warning: package 'tibble' was built under R version 4.4.1
library(survey)
## Warning: package 'survey' was built under R version 4.4.1
library(tidyverse)
## Warning: package 'tidyverse' was built under R version 4.4.1
## Warning: package 'ggplot2' was built under R version 4.4.1
## Warning: package 'tidyr' was built under R version 4.4.1
## Warning: package 'readr' was built under R version 4.4.1
## Warning: package 'purrr' was built under R version 4.4.1
## Warning: package 'stringr' was built under R version 4.4.1
## Warning: package 'forcats' was built under R version 4.4.1
## Warning: package 'lubridate' was built under R version 4.4.1

TAREA 1

Importar Base de Datos CDH 2021

Importamos la base de datos, la limpiamos y la visualizamos

CDH_2021<-  read.csv("CDH_2021_anonimizada.csv", sep = ";", stringsAsFactors = FALSE)
View(CDH_2021)

Eliminamos filtrando aquellos registros/filas donde la columna “GEN_2_2_1” tiene registros vacíos.

CDH_2021 <- CDH_2021 %>% 
  filter(!is.na(GEN_2_2_1))

Recodificar variable SatEmpleoCategórica

Se recategoriza la variable SatEmpleoCategórica a dicotómica para realizar luego análisis de regresión logística. Se muestra una tabla de la variable recategorizada para reconocerla.

CDH_2021$Satisfecho <- ifelse(CDH_2021$SatEmpleoCategórica >= 2, 1, 0) # 1 = Satisfecho, 0 = No Satisfecho
table(CDH_2021$Satisfecho) # Mostrar la tabla de frecuencias de la nueva variable
## 
##    0    1 
##   14 2333

Frecuencias Simples de las Variables Seleccionadas Recodificadas y con Etiquetas

tabla1_CDH_2021 <- CDH_2021 %>%
  count(Satisfecho) %>%
  mutate(Etiqueta = case_when(Satisfecho == 1 ~ "Satisfecho",Satisfecho == 0 ~ "Insatisfecho"),
    Porcentaje = round(n / sum(n) * 100, 1)) %>%
  select(Satisfecho, Etiqueta, Frecuencia = n, Porcentaje)
print(tabla1_CDH_2021)
##   Satisfecho     Etiqueta Frecuencia Porcentaje
## 1          0 Insatisfecho         14        0.6
## 2          1   Satisfecho       2333       99.4

Variables Independientes (con Etiquetas)

#ConDocCategorica

tabla2_CDH_2021 <- CDH_2021 %>%
  count(ConDocCategorica) %>%
  mutate(Etiqueta = case_when(ConDocCategorica == 1 ~ "Bajo", ConDocCategorica == 2 ~ "Medio", ConDocCategorica == 3 ~ "Alto" ),
    Porcentaje = round(n / sum(n) * 100, 1)) %>%
  select(ConDocCategorica, Etiqueta, Frecuencia = n, Porcentaje)
print(tabla2_CDH_2021)
##   ConDocCategorica Etiqueta Frecuencia Porcentaje
## 1                1     Bajo         12        0.5
## 2                2    Medio        397       16.9
## 3                3     Alto       1938       82.6

AfirDocCategorica

tabla3_CDH_2021 <- CDH_2021 %>%
  count(AfirDocCategorica) %>%
  mutate(Etiqueta = case_when(
    AfirDocCategorica == 1 ~ "Bajo", 
    AfirDocCategorica == 2 ~ "Medio", 
    AfirDocCategorica == 3 ~ "Alto" 
  ),
  Porcentaje = round(n / sum(n) * 100, 1)) %>%
  select(AfirDocCategorica, Etiqueta, Frecuencia = n, Porcentaje)
tabla3_CDH_2021
##   AfirDocCategorica Etiqueta Frecuencia Porcentaje
## 1                 1     Bajo         73        3.1
## 2                 2    Medio       1353       57.6
## 3                 3     Alto        921       39.2

GEN_2_2_1

tabla4_CDH_2021 <- CDH_2021 %>%
  count(GEN_2_2_1) %>%
  mutate(Etiqueta = case_when(
    GEN_2_2_1 == 1 ~ "Nunca", 
    GEN_2_2_1 == 2 ~ "Solo unas pocas veces", 
    GEN_2_2_1 == 3 ~ "Algunas veces",
    GEN_2_2_1 == 4 ~ "Mayoría de las veces"
  ),
  Porcentaje = round(n / sum(n) * 100, 1)) %>%
  select(GEN_2_2_1, Etiqueta, Frecuencia = n, Porcentaje)
tabla4_CDH_2021
##   GEN_2_2_1              Etiqueta Frecuencia Porcentaje
## 1         1                 Nunca         69        2.9
## 2         2 Solo unas pocas veces        301       12.8
## 3         3         Algunas veces       1002       42.7
## 4         4  Mayoría de las veces        975       41.5

Diseño muestral encuesta

(Del Descriptor de Variables FACT: Factor de Expansión) En el resumen metodológico de la encuesta se establece que es un diseño “Probabilístico: Muestreo Aleatorio Simple y estratificado por sexo”.Además, “Representativo a nivel nacional y por sexo. y que el marco muestral es de 18.887 personas. A partir del Directorio Profesionales con Doctorado (ANID) y consultas sobre profesionales con doctorado a EBCT en Chile”

disenoCDH_2021 <- svydesign(ids = ~1, strata = ~PER_1_1, data = CDH_2021, weights = ~FACT)
#strata es la función que nos permite estratificar en el diseño. En este caso revisando los resultados, se ha hecho por la variable PER_1_1 que es sexo. Revisé el factor de expansión, y es 6,8 en hombres y 8,4 en muheres.

Tabla Ponderada de Variable dependiente (Satisfecho con Etiquetas)

frec_pond <- svytable(~Satisfecho, disenoCDH_2021)
tabla_Satisfecho <- tibble(
    Respuesta = as.character(rownames(frec_pond)),
    Etiqueta = case_when(
    Respuesta == "0" ~ "Insatisfecho",
    Respuesta == "1" ~ "Satisfecho"),
  Frecuencia = round(as.numeric(frec_pond),0),
  Porcentaje = round(as.numeric(prop.table(frec_pond) * 100), 1)
)
print(tabla_Satisfecho)
## # A tibble: 2 × 4
##   Respuesta Etiqueta     Frecuencia Porcentaje
##   <chr>     <chr>             <dbl>      <dbl>
## 1 0         Insatisfecho        106        0.6
## 2 1         Satisfecho        17085       99.4

Frecuencia ponderada variables independientes

Tabla Ponderada de Variable Independiente ConDocCategorica con etiquetas

frec_pond <- svytable(~ConDocCategorica, disenoCDH_2021)
tabla_ConDocCategorica <- tibble(
    Respuesta = as.character(rownames(frec_pond)),
    Etiqueta = case_when(
        Respuesta == "1" ~ "Bajo",
        Respuesta == "2" ~ "Medio",
        Respuesta == "3" ~ "Alto",
            ),
    Frecuencia = round(as.numeric(frec_pond), 0),
    Porcentaje = round(as.numeric(prop.table(frec_pond) * 100), 1)
)
print(tabla_ConDocCategorica)
## # A tibble: 3 × 4
##   Respuesta Etiqueta Frecuencia Porcentaje
##   <chr>     <chr>         <dbl>      <dbl>
## 1 1         Bajo             88        0.5
## 2 2         Medio          2900       16.9
## 3 3         Alto          14204       82.6

Tabla Ponderada de Variable Independiente AfirDocCategorica con etiquetas

frec_pond <- svytable(~AfirDocCategorica, disenoCDH_2021)
tabla_AfirDocCategorica <- tibble(
    Respuesta = as.character(rownames(frec_pond)),
    Etiqueta = case_when(
        Respuesta == "1" ~ "Bajo",
        Respuesta == "2" ~ "Medio",
        Respuesta == "3" ~ "Alto",
      ),
    Frecuencia = round(as.numeric(frec_pond), 0),
    Porcentaje = round(as.numeric(prop.table(frec_pond) * 100), 1)
)
print(tabla_AfirDocCategorica)
## # A tibble: 3 × 4
##   Respuesta Etiqueta Frecuencia Porcentaje
##   <chr>     <chr>         <dbl>      <dbl>
## 1 1         Bajo            535        3.1
## 2 2         Medio          9904       57.6
## 3 3         Alto           6752       39.3

Tabla Ponderada de Variable Independiente GEN_2_2_1 con etiquetas

frec_pond <- svytable(~GEN_2_2_1, disenoCDH_2021)
tabla_GEN_2_2_1 <- tibble(
    Respuesta = as.character(rownames(frec_pond)),
    Etiqueta = case_when(
        Respuesta == "1" ~ "Nunca",
        Respuesta == "2" ~ "Solo unas pocas veces",
        Respuesta == "3" ~ "Algunas veces",
        Respuesta == "4" ~ "Mayoría de las veces", 
       ),
    Frecuencia = round(as.numeric(frec_pond), 0),
    Porcentaje = round(as.numeric(prop.table(frec_pond) * 100), 1)
)
print(tabla_GEN_2_2_1)
## # A tibble: 4 × 4
##   Respuesta Etiqueta              Frecuencia Porcentaje
##   <chr>     <chr>                      <dbl>      <dbl>
## 1 1         Nunca                        512        3  
## 2 2         Solo unas pocas veces       2204       12.8
## 3 3         Algunas veces               7335       42.7
## 4 4         Mayoría de las veces        7140       41.5

En of Tarea 1

TAREA 2

Se realizará un test Chi Cuadrado. Este test demanda que se trabaje con dos variables del tipo cualitativas (nominal u ordinal)

PRIMERA PARTE: CHI CUADRADO NO PONDERADO

PASO 1

Revisión de las variables de interés, y ajuste a formato factor para realizar test Chi Cuadrado.

Se utilizarán la variable independiente SatEmpleoCategórica en Satisfecho, variable dummy.

Se muestra la frecuencia de la variable Satisfecho

CDH_2021$Satisfecho <- as.factor(CDH_2021$Satisfecho)
freq(CDH_2021$Satisfecho)
## Frequencies  
## CDH_2021$Satisfecho  
## Type: Factor  
## 
##               Freq   % Valid   % Valid Cum.   % Total   % Total Cum.
## ----------- ------ --------- -------------- --------- --------------
##           0     14      0.60           0.60      0.60           0.60
##           1   2333     99.40         100.00     99.40         100.00
##        <NA>      0                               0.00         100.00
##       Total   2347    100.00         100.00    100.00         100.00

La frecuencia de la variable muestra que no tiene datos perdidos.

Mostramos ahora la frecuencia con etiquetas para mayor claridad del lector.

tabla1_CDH_2021 <- CDH_2021 %>%
  count(Satisfecho) %>%
  mutate(Etiqueta = case_when(Satisfecho == 1 ~ "Satisfecho",Satisfecho == 0 ~ "Insatisfecho"),
    Porcentaje = round(n / sum(n) * 100, 1)) %>%
  select(Satisfecho, Etiqueta, Frecuencia = n, Porcentaje)
print(tabla1_CDH_2021)
##   Satisfecho     Etiqueta Frecuencia Porcentaje
## 1          0 Insatisfecho         14        0.6
## 2          1   Satisfecho       2333       99.4

Se muestra la frecuencia de la variable ConDocCategorica

CDH_2021$ConDocCategorica <- as.factor(CDH_2021$ConDocCategorica)
freq(CDH_2021$ConDocCategorica)
## Frequencies  
## CDH_2021$ConDocCategorica  
## Type: Factor  
## 
##               Freq   % Valid   % Valid Cum.   % Total   % Total Cum.
## ----------- ------ --------- -------------- --------- --------------
##           1     12      0.51           0.51      0.51           0.51
##           2    397     16.92          17.43     16.92          17.43
##           3   1938     82.57         100.00     82.57         100.00
##        <NA>      0                               0.00         100.00
##       Total   2347    100.00         100.00    100.00         100.00

La frecuencia de la variable muestra que no tiene datos perdidos.

Mostramos ahora la frecuencia con etiquetas para mayor claridad del lector.

tabla2_CDH_2021 <- CDH_2021 %>%
  count(ConDocCategorica) %>%
  mutate(Etiqueta = case_when(ConDocCategorica == 1 ~ "Bajo", ConDocCategorica == 2 ~ "Medio", ConDocCategorica == 3 ~ "Alto" ),
    Porcentaje = round(n / sum(n) * 100, 1)) %>%
  select(ConDocCategorica, Etiqueta, Frecuencia = n, Porcentaje)
print(tabla2_CDH_2021)
##   ConDocCategorica Etiqueta Frecuencia Porcentaje
## 1                1     Bajo         12        0.5
## 2                2    Medio        397       16.9
## 3                3     Alto       1938       82.6

PASO 2

Creamos el ‘Data frame’ para análisis, en este caso no hay respuestas omitidas.

DF_CHI2 <- CDH_2021 
DF_CHI2$ConDocCategorica <- factor(DF_CHI2$ConDocCategorica)

Se deja la variable ConDocCategorica como factor.

Tabla contingencia sin etiquetas

tabla_CHI2 <- table(DF_CHI2$Satisfecho, DF_CHI2$ConDocCategorica)
print(tabla_CHI2)
##    
##        1    2    3
##   0    1    6    7
##   1   11  391 1931

PASO 3

Calcular e imprimir el test Chi Cudrado para ambas variables

CHI2_TEST <- chisq.test(tabla_CHI2) # Calcula el test con función chisq.test
## Warning in chisq.test(tabla_CHI2): Chi-squared approximation may be incorrect
print(CHI2_TEST) # Imprime el test 
## 
##  Pearson's Chi-squared test
## 
## data:  tabla_CHI2
## X-squared = 19.527, df = 2, p-value = 5.751e-05

PASO 4

Interpretación del Test Chi Cuadrado para variables Satisfecho y ConDocCategorica

Hipótesis

Hipótesis nula (H0): Las variables “Satisfacción” y “ConDoc” son independientes. Es decir, no hay relación entre ellas. Hipótesis alternativa (H1): Las variables “Satisfacción” y “ConDoc” NO son independientes. Existe una relación entre ellas.

Considerando un 95% de confianza, en este caso, el valor p (5.751e-05) es mucho menor que 0.05, lo que indica evidencia fuerte para rechazar la hipótesis nula. En otras palabras, los resultados sugieren que hay una relación estadísticamente significativa entre la satisfacción y la variable “ConDoc”.

SEGUNDA PARTE: CHI CUADRADO PONDERADO

PASO 1

No será necesario revisar las variables nuevamente, ya sabemos que no hay valores perdidos.

PASO 2

Creamos el ‘Data frame’ para análisis.

DF_CHI2_POND_1 <- CDH_2021

DF_CHI2_POND_1$ConDocCategorica <- factor(DF_CHI2_POND_1$ConDocCategorica)

Se deja la variable ConDocCategorica como factor.

PASO 3

Defino diseño de encuesta

DISENO_CHI2 <- svydesign(ids = ~1, strata = ~PER_1_1, data = CDH_2021, weights = ~FACT)
#strata es la función que nos permite estratificar en el diseño. En este caso revisando los resultados, se ha hecho por la variable PER_1_1 que es sexo. Revisé el factor de expansión, y es 6,8 en hombres y 8,4 en muheres.

PASO 4

Calcular e imprimir el test Chi Cudrado ponderado para ambas variables

CHI2_TEST_POND_1 <- svychisq(~ Satisfecho + ConDocCategorica, DISENO_CHI2)
print(CHI2_TEST_POND_1)
## 
##  Pearson's X^2: Rao & Scott adjustment
## 
## data:  svychisq(~Satisfecho + ConDocCategorica, DISENO_CHI2)
## F = 10.431, ndf = 1.9964, ddf = 4681.4926, p-value = 3.06e-05

PASO 5

Interpretación del Test Chi Cuadra para variables Satisfecho y ConDocCategorica

Hipótesis Hipótesis nula (H0): No hay asociación entre la satisfacción (“Satisfecho”) y la variable “ConDocCategorica” en la población, después de tener en cuenta el diseño de muestreo.

Esto significa que cualquier diferencia observada en las muestras se debe al azar del muestreo.

Hipótesis alternativa (H1): Sí existe asociación entre la satisfacción (“Satisfecho”) y la variable “ConDocCategorica” en la población, incluso considerando el diseño de muestreo. Es decir, las diferencias observadas no se pueden explicar solo por el azar.

Considerando un 95% de confianza, y que el p-value = 3.06e-05, este valor p extremadamente pequeño (mucho menor que 0.05) indica fuerte evidencia para rechazar la hipótesis nula de independencia.

Los resultados sugieren que existe una relación estadísticamente significativa entre la satisfacción (“Satisfecho”) y la variable “ConDocCategorica”, incluso después de tener en cuenta el diseño muestral complejo.