setwd("C:/Users/HP/OneDrive - Universidad Técnica Federico Santa María/Documentos/Trayectoria de Profesionales con Doctorado")
En el presente reporte, se busca mostrar la frecuencia de cuatro variables que se han construido como índices a partir del instrumento “Encuesta de trayectoria de profesionales con grado de doctorado en Chile” (CDH 2021) elaborado por la consultora Clio Dinámica para el Ministerio de Ciencia, Tecnología Conocimiento e Innovación.
La encuesta CDH busca caracterizar a las personas que han egresado de algún programa de doctorado. Se basa en una encuesta aplicada por la dirección de Ciencia, Tecnología e Industria de la OCDE, el Instituto de Estadísticas de la Unesco y la Oficina de Estadística de la Comisión Europea (Eurostat) desde el 2004.
Para el presente reporte, las variables que se utilizan son:
Variables Independientes:
ConDocCategorica Definición: Representa el nivel de conocimientos, atributos y comportamientos que el doctor considera que TENÍA al momento de completar sus estudios de doctorado. Variables que la componen: Es un índice construido a partir del promedio simple de 10 variables (cada una en una escala del 1 al 5, donde 1 = Muy pobre y 5 = Muy bueno): EDU_12_1: Metodología (aplicar metodologías de investigación, herramientas y técnicas apropiadamente) EDU_12_2: Innovación (desarrollar nuevas ideas, procesos o productos) EDU_12_3: Análisis crítico (capacidad de análisis y evaluación) EDU_12_4: Emprendimiento (capacidad de diseñar, lanzar y administrar un negocio) EDU_12_5: Administración de la carrera profesional (tomar el control y la iniciativa) EDU_12_6: Contexto de empleo (entender cómo funcionan las organizaciones) EDU_12_7: Resolución de problemas (formular y aplicar soluciones) EDU_12_8: Comunicación efectiva (comunicar a diferentes audiencias) EDU_12_9: Creatividad (ser imaginativo) EDU_12_10: Flexibilidad (adaptarse a nuevas situaciones) Categorización: El índice promediado se categorizó en tres niveles: 1 “Bajo” (< 0.3) 2 “Medio” (>= 0.3 y < 0.7) 3 “Alto” (>= 0.7)
AfirDocCategorica Definición: Evalúa la percepción del doctor sobre si su grado de doctor le permitió progresar en sus aspiraciones profesionales. Variables que la componen: Índice construido a partir del promedio simple de 6 variables (escala del 1 al 5, donde 1 = Muy en desacuerdo y 5 = Muy de acuerdo): EMP_11_1: Estaba preparado para el mercado laboral al egresar del grado EMP_11_2: Mi grado me permitió progresar en mis aspiraciones profesionales EMP_11_3: Mi grado me permitió acceder rápidamente a un trabajo EMP_11_5: Mi grado me permitió destacar en mi lugar de trabajo EMP_11_7: Mi grado me permitió innovar en mi lugar de trabajo EMP_11_10: Continúo aplicando los conocimientos obtenidos en mi grado Categorización: El promedio se divide en: 1 “Bajo” (< 0.3) 2 “Medio” (>= 0.3 y < 0.7) 3 “Alto” (>= 0.7)
GEN_2_2_1 Definición: Esta variable mide la preocupación del doctor por las exigencias domésticas/familiares mientras está en el trabajo. Variables que la componen: No es un índice, es una única pregunta con escala ordinal de 4 niveles: 1 = Nunca 2 = Solo unas pocas veces 3 = Algunas veces 4 = Mayoría de las veces
#Paquetes Utilizaremos los paquetes siguientes para elaborar el reporte
library(haven)
## Warning: package 'haven' was built under R version 4.4.1
library(dplyr)
## Warning: package 'dplyr' was built under R version 4.4.1
##
## Adjuntando el paquete: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
library(summarytools)
## Warning: package 'summarytools' was built under R version 4.4.1
library(tibble)
## Warning: package 'tibble' was built under R version 4.4.1
##
## Adjuntando el paquete: 'tibble'
## The following object is masked from 'package:summarytools':
##
## view
library(survey)
## Warning: package 'survey' was built under R version 4.4.1
## Cargando paquete requerido: grid
## Cargando paquete requerido: Matrix
## Cargando paquete requerido: survival
##
## Adjuntando el paquete: 'survey'
## The following object is masked from 'package:graphics':
##
## dotchart
#Importar Base de Datos CDH 2021 Importamos la base de datos, la limpiamos y la visualizamos
CDH_2021<- read.csv("CDH_2021_anonimizada.csv", sep = ";", stringsAsFactors = FALSE)
View(CDH_2021)
#Eliminamos filtrando aquellos registros/filas donde la columna “GEN_2_2_1” tiene registros vacíos.
CDH_2021 <- CDH_2021 %>%
filter(!is.na(GEN_2_2_1))
#Recodificar variable SatEmpleoCategórica Se recategoriza la variable SatEmpleoCategórica a dicotómica para realizar luego análisis de regresión logística. Se muestra una tabla de la variable recategorizada para reconocerla.
CDH_2021$Satisfecho <- ifelse(CDH_2021$SatEmpleoCategórica >= 2, 1, 0) # 1 = Satisfecho, 0 = No Satisfecho
table(CDH_2021$Satisfecho) # Mostrar la tabla de frecuencias de la nueva variable
##
## 0 1
## 14 2333
tabla1_CDH_2021 <- CDH_2021 %>%
count(Satisfecho) %>%
mutate(Etiqueta = case_when(Satisfecho == 1 ~ "Satisfecho",Satisfecho == 0 ~ "Insatisfecho"),
Porcentaje = round(n / sum(n) * 100, 1)) %>%
select(Satisfecho, Etiqueta, Frecuencia = n, Porcentaje)
print(tabla1_CDH_2021)
## Satisfecho Etiqueta Frecuencia Porcentaje
## 1 0 Insatisfecho 14 0.6
## 2 1 Satisfecho 2333 99.4
#Variables Independientes (con Etiquetas) #ConDocCategorica
tabla2_CDH_2021 <- CDH_2021 %>%
count(ConDocCategorica) %>%
mutate(Etiqueta = case_when(ConDocCategorica == 1 ~ "Bajo", ConDocCategorica == 2 ~ "Medio", ConDocCategorica == 3 ~ "Alto" ),
Porcentaje = round(n / sum(n) * 100, 1)) %>%
select(ConDocCategorica, Etiqueta, Frecuencia = n, Porcentaje)
print(tabla2_CDH_2021)
## ConDocCategorica Etiqueta Frecuencia Porcentaje
## 1 1 Bajo 12 0.5
## 2 2 Medio 397 16.9
## 3 3 Alto 1938 82.6
#AfirDocCategorica
tabla3_CDH_2021 <- CDH_2021 %>%
count(AfirDocCategorica) %>%
mutate(Etiqueta = case_when(
AfirDocCategorica == 1 ~ "Bajo",
AfirDocCategorica == 2 ~ "Medio",
AfirDocCategorica == 3 ~ "Alto"
),
Porcentaje = round(n / sum(n) * 100, 1)) %>%
select(AfirDocCategorica, Etiqueta, Frecuencia = n, Porcentaje)
tabla3_CDH_2021
## AfirDocCategorica Etiqueta Frecuencia Porcentaje
## 1 1 Bajo 73 3.1
## 2 2 Medio 1353 57.6
## 3 3 Alto 921 39.2
#GEN_2_2_1
tabla4_CDH_2021 <- CDH_2021 %>%
count(GEN_2_2_1) %>%
mutate(Etiqueta = case_when(
GEN_2_2_1 == 1 ~ "Nunca",
GEN_2_2_1 == 2 ~ "Solo unas pocas veces",
GEN_2_2_1 == 3 ~ "Algunas veces",
GEN_2_2_1 == 4 ~ "Mayoría de las veces"
),
Porcentaje = round(n / sum(n) * 100, 1)) %>%
select(GEN_2_2_1, Etiqueta, Frecuencia = n, Porcentaje)
tabla4_CDH_2021
## GEN_2_2_1 Etiqueta Frecuencia Porcentaje
## 1 1 Nunca 69 2.9
## 2 2 Solo unas pocas veces 301 12.8
## 3 3 Algunas veces 1002 42.7
## 4 4 Mayoría de las veces 975 41.5
(Del Descriptor de Variables FACT: Factor de Expansión) En el resumen metodológico de la encuesta se establece que es un diseño “Probabilístico: Muestreo Aleatorio Simple y estratificado por sexo”.Además, “Representativo a nivel nacional y por sexo. y que el marco muestral es de 18.887 personas. A partir del Directorio Profesionales con Doctorado (ANID) y consultas sobre profesionales con doctorado a EBCT en Chile”
disenoCDH_2021 <- svydesign(ids = ~1, strata = ~PER_1_1, data = CDH_2021, weights = ~FACT)
#strata es la función que nos permite estratificar en el diseño. En este caso revisando los resultados, se ha hecho por la variable PER_1_1 que es sexo. Revisé el factor de expansión, y es 6,8 en hombres y 8,4 en muheres.
frec_pond <- svytable(~Satisfecho, disenoCDH_2021)
tabla_Satisfecho <- tibble(
Respuesta = as.character(rownames(frec_pond)),
Etiqueta = case_when(
Respuesta == "0" ~ "Insatisfecho",
Respuesta == "1" ~ "Satisfecho"),
Frecuencia = round(as.numeric(frec_pond),0),
Porcentaje = round(as.numeric(prop.table(frec_pond) * 100), 1)
)
print(tabla_Satisfecho)
## # A tibble: 2 × 4
## Respuesta Etiqueta Frecuencia Porcentaje
## <chr> <chr> <dbl> <dbl>
## 1 0 Insatisfecho 106 0.6
## 2 1 Satisfecho 17085 99.4
##Tabla Ponderada de Variable Independiente ConDocCategorica con etiquetas
frec_pond <- svytable(~ConDocCategorica, disenoCDH_2021)
tabla_ConDocCategorica <- tibble(
Respuesta = as.character(rownames(frec_pond)),
Etiqueta = case_when(
Respuesta == "1" ~ "Bajo",
Respuesta == "2" ~ "Medio",
Respuesta == "3" ~ "Alto",
),
Frecuencia = round(as.numeric(frec_pond), 0),
Porcentaje = round(as.numeric(prop.table(frec_pond) * 100), 1)
)
print(tabla_ConDocCategorica)
## # A tibble: 3 × 4
## Respuesta Etiqueta Frecuencia Porcentaje
## <chr> <chr> <dbl> <dbl>
## 1 1 Bajo 88 0.5
## 2 2 Medio 2900 16.9
## 3 3 Alto 14204 82.6
#Tabla Ponderada de Variable Independiente AfirDocCategorica con etiquetas
frec_pond <- svytable(~AfirDocCategorica, disenoCDH_2021)
tabla_AfirDocCategorica <- tibble(
Respuesta = as.character(rownames(frec_pond)),
Etiqueta = case_when(
Respuesta == "1" ~ "Bajo",
Respuesta == "2" ~ "Medio",
Respuesta == "3" ~ "Alto",
),
Frecuencia = round(as.numeric(frec_pond), 0),
Porcentaje = round(as.numeric(prop.table(frec_pond) * 100), 1)
)
print(tabla_AfirDocCategorica)
## # A tibble: 3 × 4
## Respuesta Etiqueta Frecuencia Porcentaje
## <chr> <chr> <dbl> <dbl>
## 1 1 Bajo 535 3.1
## 2 2 Medio 9904 57.6
## 3 3 Alto 6752 39.3
#Tabla Ponderada de Variable Independiente GEN_2_2_1 con etiquetas
frec_pond <- svytable(~GEN_2_2_1, disenoCDH_2021)
tabla_GEN_2_2_1 <- tibble(
Respuesta = as.character(rownames(frec_pond)),
Etiqueta = case_when(
Respuesta == "1" ~ "Nunca",
Respuesta == "2" ~ "Solo unas pocas veces",
Respuesta == "3" ~ "Algunas veces",
Respuesta == "4" ~ "Mayoría de las veces",
),
Frecuencia = round(as.numeric(frec_pond), 0),
Porcentaje = round(as.numeric(prop.table(frec_pond) * 100), 1)
)
print(tabla_GEN_2_2_1)
## # A tibble: 4 × 4
## Respuesta Etiqueta Frecuencia Porcentaje
## <chr> <chr> <dbl> <dbl>
## 1 1 Nunca 512 3
## 2 2 Solo unas pocas veces 2204 12.8
## 3 3 Algunas veces 7335 42.7
## 4 4 Mayoría de las veces 7140 41.5
#Con esto termina la el reporte para la Tarea 1