setwd("C:/Users/HP/OneDrive - Universidad Técnica Federico Santa María/Documentos/Trayectoria de Profesionales con Doctorado")
En el presente reporte, se busca mostrar la frecuencia de cuatro variables que se han construido como índices a partir del instrumento “Encuesta de trayectoria de profesionales con grado de doctorado en Chile” (CDH 2021) elaborado por la consultora Clio Dinámica para el Ministerio de Ciencia, Tecnología Conocimiento e Innovación.
La encuesta CDH busca caracterizar a las personas que han egresado de algún programa de doctorado. Se basa en una encuesta aplicada por la dirección de Ciencia, Tecnología e Industria de la OCDE, el Instituto de Estadísticas de la Unesco y la Oficina de Estadística de la Comisión Europea (Eurostat) desde el 2004.
Para el presente reporte, las variables que se utilizan son:
Definición: Es una variable latente que representa el nivel de satisfacción general con el empleo principal que tenía el doctor al 1 de diciembre de 2021. Se calcula como el índice de satisfacción en el empleo actual.
Variables que la componen: Es un índice construido a partir del promedio simple de 13 variables (cada una en una escala del 1 al 4, donde 1 = Muy inconforme, 2 = Algo Inconforme, 3= Algo Satisfecho, y 4=Muy Satisfecho):
EMP_9_1 Salario EMP_9_2 Beneficios EMP_9_3 Estabilidad laboral EMP_9_4 Localización de su empleo EMP_9_5 Condiciones de trabajo EMP_9_6 Posibilidades de progreso EMP_9_7 Reto intelectual EMP_9_8 Nivel de responsabilidad EMP_9_9 Grado de independencia EMP_9_10 Contribución a la sociedad EMP_9_11 Estatus social EMP_9_12 Nivel de satisfacción general EMP_9_13 Clima laboral
Categorización: El índice promediado se categorizó en tres niveles:
Numérico 1.Bajo (<0,3) 2.Medio (>=0,3 y <0,7) 3.Alto (>=0,7)
Variables Independientes:
Definición: Representa el nivel de conocimientos, atributos y comportamientos que el doctor considera que TENÍA al momento de completar sus estudios de doctorado.
Variables que la componen: Es un índice construido a partir del promedio simple de 10 variables (cada una en una escala del 1 al 5, donde 1 = Muy pobre y 5 = Muy bueno):
EDU_12_1: Metodología (aplicar metodologías de investigación, herramientas y técnicas apropiadamente) EDU_12_2: Innovación (desarrollar nuevas ideas, procesos o productos) EDU_12_3: Análisis crítico (capacidad de análisis y evaluación) EDU_12_4: Emprendimiento (capacidad de diseñar, lanzar y administrar un negocio) EDU_12_5: Administración de la carrera profesional (tomar el control y la iniciativa) EDU_12_6: Contexto de empleo (entender cómo funcionan las organizaciones) EDU_12_7: Resolución de problemas (formular y aplicar soluciones) EDU_12_8: Comunicación efectiva (comunicar a diferentes audiencias) EDU_12_9: Creatividad (ser imaginativo) EDU_12_10: Flexibilidad (adaptarse a nuevas situaciones)
Categorización: El índice promediado se categorizó en tres niveles:
1 “Bajo” (< 0.3) 2 “Medio” (>= 0.3 y < 0.7) 3 “Alto” (>= 0.7)
Definición: Evalúa la percepción del doctor sobre si su grado de doctor le permitió progresar en sus aspiraciones profesionales.
Variables que la componen: Índice construido a partir del promedio simple de 6 variables (escala del 1 al 5, donde 1 = Muy en desacuerdo y 5 = Muy de acuerdo):
EMP_11_1: Estaba preparado para el mercado laboral al egresar del
grado EMP_11_2: Mi grado me permitió progresar en mis aspiraciones
profesionales EMP_11_3: Mi grado me permitió acceder rápidamente a un
trabajo
EMP_11_5: Mi grado me permitió destacar en mi lugar de trabajo EMP_11_7:
Mi grado me permitió innovar en mi lugar de trabajo EMP_11_10: Continúo
aplicando los conocimientos obtenidos en mi grado
Categorización: El promedio se divide en:
1 “Bajo” (< 0.3) 2 “Medio” (>= 0.3 y < 0.7) 3 “Alto” (>= 0.7)
Definición: Esta variable mide la preocupación del doctor por las exigencias domésticas/familiares mientras está en el trabajo.
Variables que la componen: No es un índice, es una única pregunta con escala ordinal de 4 niveles:
1 = Nunca 2 = Solo unas pocas veces 3 = Algunas veces 4 = Mayoría de las veces
library(haven)
## Warning: package 'haven' was built under R version 4.4.1
library(dplyr)
## Warning: package 'dplyr' was built under R version 4.4.1
library(summarytools)
## Warning: package 'summarytools' was built under R version 4.4.1
library(tibble)
## Warning: package 'tibble' was built under R version 4.4.1
library(survey)
## Warning: package 'survey' was built under R version 4.4.1
library(tidyverse)
## Warning: package 'tidyverse' was built under R version 4.4.1
## Warning: package 'ggplot2' was built under R version 4.4.1
## Warning: package 'tidyr' was built under R version 4.4.1
## Warning: package 'readr' was built under R version 4.4.1
## Warning: package 'purrr' was built under R version 4.4.1
## Warning: package 'stringr' was built under R version 4.4.1
## Warning: package 'forcats' was built under R version 4.4.1
## Warning: package 'lubridate' was built under R version 4.4.1
Importamos la base de datos, la limpiamos y la visualizamos
CDH_2021<- read.csv("CDH_2021_anonimizada.csv", sep = ";", stringsAsFactors = FALSE)
View(CDH_2021)
CDH_2021 <- CDH_2021 %>%
filter(!is.na(GEN_2_2_1))
Se recategoriza la variable SatEmpleoCategórica a dicotómica para realizar luego análisis de regresión logística. Se muestra una tabla de la variable recategorizada para reconocerla.
CDH_2021$Satisfecho <- ifelse(CDH_2021$SatEmpleoCategórica >= 2, 1, 0) # 1 = Satisfecho, 0 = No Satisfecho
table(CDH_2021$Satisfecho) # Mostrar la tabla de frecuencias de la nueva variable
##
## 0 1
## 14 2333
tabla1_CDH_2021 <- CDH_2021 %>%
count(Satisfecho) %>%
mutate(Etiqueta = case_when(Satisfecho == 1 ~ "Satisfecho",Satisfecho == 0 ~ "Insatisfecho"),
Porcentaje = round(n / sum(n) * 100, 1)) %>%
select(Satisfecho, Etiqueta, Frecuencia = n, Porcentaje)
print(tabla1_CDH_2021)
## Satisfecho Etiqueta Frecuencia Porcentaje
## 1 0 Insatisfecho 14 0.6
## 2 1 Satisfecho 2333 99.4
#ConDocCategorica
tabla2_CDH_2021 <- CDH_2021 %>%
count(ConDocCategorica) %>%
mutate(Etiqueta = case_when(ConDocCategorica == 1 ~ "Bajo", ConDocCategorica == 2 ~ "Medio", ConDocCategorica == 3 ~ "Alto" ),
Porcentaje = round(n / sum(n) * 100, 1)) %>%
select(ConDocCategorica, Etiqueta, Frecuencia = n, Porcentaje)
print(tabla2_CDH_2021)
## ConDocCategorica Etiqueta Frecuencia Porcentaje
## 1 1 Bajo 12 0.5
## 2 2 Medio 397 16.9
## 3 3 Alto 1938 82.6
tabla3_CDH_2021 <- CDH_2021 %>%
count(AfirDocCategorica) %>%
mutate(Etiqueta = case_when(
AfirDocCategorica == 1 ~ "Bajo",
AfirDocCategorica == 2 ~ "Medio",
AfirDocCategorica == 3 ~ "Alto"
),
Porcentaje = round(n / sum(n) * 100, 1)) %>%
select(AfirDocCategorica, Etiqueta, Frecuencia = n, Porcentaje)
tabla3_CDH_2021
## AfirDocCategorica Etiqueta Frecuencia Porcentaje
## 1 1 Bajo 73 3.1
## 2 2 Medio 1353 57.6
## 3 3 Alto 921 39.2
tabla4_CDH_2021 <- CDH_2021 %>%
count(GEN_2_2_1) %>%
mutate(Etiqueta = case_when(
GEN_2_2_1 == 1 ~ "Nunca",
GEN_2_2_1 == 2 ~ "Solo unas pocas veces",
GEN_2_2_1 == 3 ~ "Algunas veces",
GEN_2_2_1 == 4 ~ "Mayoría de las veces"
),
Porcentaje = round(n / sum(n) * 100, 1)) %>%
select(GEN_2_2_1, Etiqueta, Frecuencia = n, Porcentaje)
tabla4_CDH_2021
## GEN_2_2_1 Etiqueta Frecuencia Porcentaje
## 1 1 Nunca 69 2.9
## 2 2 Solo unas pocas veces 301 12.8
## 3 3 Algunas veces 1002 42.7
## 4 4 Mayoría de las veces 975 41.5
(Del Descriptor de Variables FACT: Factor de Expansión) En el resumen metodológico de la encuesta se establece que es un diseño “Probabilístico: Muestreo Aleatorio Simple y estratificado por sexo”.Además, “Representativo a nivel nacional y por sexo. y que el marco muestral es de 18.887 personas. A partir del Directorio Profesionales con Doctorado (ANID) y consultas sobre profesionales con doctorado a EBCT en Chile”
disenoCDH_2021 <- svydesign(ids = ~1, strata = ~PER_1_1, data = CDH_2021, weights = ~FACT)
#strata es la función que nos permite estratificar en el diseño. En este caso revisando los resultados, se ha hecho por la variable PER_1_1 que es sexo. Revisé el factor de expansión, y es 6,8 en hombres y 8,4 en muheres.
frec_pond <- svytable(~Satisfecho, disenoCDH_2021)
tabla_Satisfecho <- tibble(
Respuesta = as.character(rownames(frec_pond)),
Etiqueta = case_when(
Respuesta == "0" ~ "Insatisfecho",
Respuesta == "1" ~ "Satisfecho"),
Frecuencia = round(as.numeric(frec_pond),0),
Porcentaje = round(as.numeric(prop.table(frec_pond) * 100), 1)
)
print(tabla_Satisfecho)
## # A tibble: 2 × 4
## Respuesta Etiqueta Frecuencia Porcentaje
## <chr> <chr> <dbl> <dbl>
## 1 0 Insatisfecho 106 0.6
## 2 1 Satisfecho 17085 99.4
frec_pond <- svytable(~ConDocCategorica, disenoCDH_2021)
tabla_ConDocCategorica <- tibble(
Respuesta = as.character(rownames(frec_pond)),
Etiqueta = case_when(
Respuesta == "1" ~ "Bajo",
Respuesta == "2" ~ "Medio",
Respuesta == "3" ~ "Alto",
),
Frecuencia = round(as.numeric(frec_pond), 0),
Porcentaje = round(as.numeric(prop.table(frec_pond) * 100), 1)
)
print(tabla_ConDocCategorica)
## # A tibble: 3 × 4
## Respuesta Etiqueta Frecuencia Porcentaje
## <chr> <chr> <dbl> <dbl>
## 1 1 Bajo 88 0.5
## 2 2 Medio 2900 16.9
## 3 3 Alto 14204 82.6
frec_pond <- svytable(~AfirDocCategorica, disenoCDH_2021)
tabla_AfirDocCategorica <- tibble(
Respuesta = as.character(rownames(frec_pond)),
Etiqueta = case_when(
Respuesta == "1" ~ "Bajo",
Respuesta == "2" ~ "Medio",
Respuesta == "3" ~ "Alto",
),
Frecuencia = round(as.numeric(frec_pond), 0),
Porcentaje = round(as.numeric(prop.table(frec_pond) * 100), 1)
)
print(tabla_AfirDocCategorica)
## # A tibble: 3 × 4
## Respuesta Etiqueta Frecuencia Porcentaje
## <chr> <chr> <dbl> <dbl>
## 1 1 Bajo 535 3.1
## 2 2 Medio 9904 57.6
## 3 3 Alto 6752 39.3
frec_pond <- svytable(~GEN_2_2_1, disenoCDH_2021)
tabla_GEN_2_2_1 <- tibble(
Respuesta = as.character(rownames(frec_pond)),
Etiqueta = case_when(
Respuesta == "1" ~ "Nunca",
Respuesta == "2" ~ "Solo unas pocas veces",
Respuesta == "3" ~ "Algunas veces",
Respuesta == "4" ~ "Mayoría de las veces",
),
Frecuencia = round(as.numeric(frec_pond), 0),
Porcentaje = round(as.numeric(prop.table(frec_pond) * 100), 1)
)
print(tabla_GEN_2_2_1)
## # A tibble: 4 × 4
## Respuesta Etiqueta Frecuencia Porcentaje
## <chr> <chr> <dbl> <dbl>
## 1 1 Nunca 512 3
## 2 2 Solo unas pocas veces 2204 12.8
## 3 3 Algunas veces 7335 42.7
## 4 4 Mayoría de las veces 7140 41.5
Se realizará un test Chi Cuadrado. Este test demanda que se trabaje con dos variables del tipo cualitativas (nominal u ordinal)
CDH_2021$Satisfecho <- as.factor(CDH_2021$Satisfecho)
freq(CDH_2021$Satisfecho)
## Frequencies
## CDH_2021$Satisfecho
## Type: Factor
##
## Freq % Valid % Valid Cum. % Total % Total Cum.
## ----------- ------ --------- -------------- --------- --------------
## 0 14 0.60 0.60 0.60 0.60
## 1 2333 99.40 100.00 99.40 100.00
## <NA> 0 0.00 100.00
## Total 2347 100.00 100.00 100.00 100.00
tabla1_CDH_2021 <- CDH_2021 %>%
count(Satisfecho) %>%
mutate(Etiqueta = case_when(Satisfecho == 1 ~ "Satisfecho",Satisfecho == 0 ~ "Insatisfecho"),
Porcentaje = round(n / sum(n) * 100, 1)) %>%
select(Satisfecho, Etiqueta, Frecuencia = n, Porcentaje)
print(tabla1_CDH_2021)
## Satisfecho Etiqueta Frecuencia Porcentaje
## 1 0 Insatisfecho 14 0.6
## 2 1 Satisfecho 2333 99.4
CDH_2021$ConDocCategorica <- as.factor(CDH_2021$ConDocCategorica)
freq(CDH_2021$ConDocCategorica)
## Frequencies
## CDH_2021$ConDocCategorica
## Type: Factor
##
## Freq % Valid % Valid Cum. % Total % Total Cum.
## ----------- ------ --------- -------------- --------- --------------
## 1 12 0.51 0.51 0.51 0.51
## 2 397 16.92 17.43 16.92 17.43
## 3 1938 82.57 100.00 82.57 100.00
## <NA> 0 0.00 100.00
## Total 2347 100.00 100.00 100.00 100.00
tabla2_CDH_2021 <- CDH_2021 %>%
count(ConDocCategorica) %>%
mutate(Etiqueta = case_when(ConDocCategorica == 1 ~ "Bajo", ConDocCategorica == 2 ~ "Medio", ConDocCategorica == 3 ~ "Alto" ),
Porcentaje = round(n / sum(n) * 100, 1)) %>%
select(ConDocCategorica, Etiqueta, Frecuencia = n, Porcentaje)
print(tabla2_CDH_2021)
## ConDocCategorica Etiqueta Frecuencia Porcentaje
## 1 1 Bajo 12 0.5
## 2 2 Medio 397 16.9
## 3 3 Alto 1938 82.6
DF_CHI2 <- CDH_2021
DF_CHI2$ConDocCategorica <- factor(DF_CHI2$ConDocCategorica)
tabla_CHI2 <- table(DF_CHI2$Satisfecho, DF_CHI2$ConDocCategorica)
print(tabla_CHI2)
##
## 1 2 3
## 0 1 6 7
## 1 11 391 1931
CHI2_TEST <- chisq.test(tabla_CHI2) # Calcula el test con función chisq.test
## Warning in chisq.test(tabla_CHI2): Chi-squared approximation may be incorrect
print(CHI2_TEST) # Imprime el test
##
## Pearson's Chi-squared test
##
## data: tabla_CHI2
## X-squared = 19.527, df = 2, p-value = 5.751e-05
Hipótesis nula (H0): Las variables “Satisfacción” y “ConDoc” son independientes. Es decir, no hay relación entre ellas. Hipótesis alternativa (H1): Las variables “Satisfacción” y “ConDoc” NO son independientes. Existe una relación entre ellas.
Considerando un 95% de confianza, en este caso, el valor p (5.751e-05) es mucho menor que 0.05, lo que indica evidencia fuerte para rechazar la hipótesis nula. En otras palabras, los resultados sugieren que hay una relación estadísticamente significativa entre la satisfacción y la variable “ConDoc”.
DF_CHI2_POND_1 <- CDH_2021
DF_CHI2_POND_1$ConDocCategorica <- factor(DF_CHI2_POND_1$ConDocCategorica)
DISENO_CHI2 <- svydesign(ids = ~1, strata = ~PER_1_1, data = CDH_2021, weights = ~FACT)
#strata es la función que nos permite estratificar en el diseño. En este caso revisando los resultados, se ha hecho por la variable PER_1_1 que es sexo. Revisé el factor de expansión, y es 6,8 en hombres y 8,4 en muheres.
CHI2_TEST_POND_1 <- svychisq(~ Satisfecho + ConDocCategorica, DISENO_CHI2)
print(CHI2_TEST_POND_1)
##
## Pearson's X^2: Rao & Scott adjustment
##
## data: svychisq(~Satisfecho + ConDocCategorica, DISENO_CHI2)
## F = 10.431, ndf = 1.9964, ddf = 4681.4926, p-value = 3.06e-05
Hipótesis Hipótesis nula (H0): No hay asociación entre la satisfacción (“Satisfecho”) y la variable “ConDocCategorica” en la población, después de tener en cuenta el diseño de muestreo.
Esto significa que cualquier diferencia observada en las muestras se debe al azar del muestreo.
Hipótesis alternativa (H1): Sí existe asociación entre la satisfacción (“Satisfecho”) y la variable “ConDocCategorica” en la población, incluso considerando el diseño de muestreo. Es decir, las diferencias observadas no se pueden explicar solo por el azar.
Considerando un 95% de confianza, y que el p-value = 3.06e-05, este valor p extremadamente pequeño (mucho menor que 0.05) indica fuerte evidencia para rechazar la hipótesis nula de independencia.
Los resultados sugieren que existe una relación estadísticamente significativa entre la satisfacción (“Satisfecho”) y la variable “ConDocCategorica”, incluso después de tener en cuenta el diseño muestral complejo.