Tema 1

Desarrolle y publique un breve reporte estadístico al respecto de la pregunta de investigación,

Respecto al número y la carrera entre los títulos registrados por el MEC, ¿En el Paraguay se registran más abogados que enfermeros?

Fuente de datos

Consideremos el conjunto de datos abiertos sobre registro de títulos ubicado en el portal del Ministerio de Educación y Ciencias https://datos.mec.gov.py/data/registros_titulos.

# Importamos los datos descargados
datos_mec <- read.csv("registros_titulos.csv", header = T, sep = ",", stringsAsFactors = T)
# Visualizamos la cantidad de filas y columnas del data frame
dim(datos_mec)

## [1] 450378     16

# Consultamos los nombres de las variables
names(datos_mec)

##  [1] "anio"                "mes"                 "documento"          
##  [4] "nombre_completo"     "carrera_id"          "carrera"            
##  [7] "titulo_id"           "titulo"              "numero_resolucion"  
## [10] "fecha_resolucion"    "tipo_institucion_id" "tipo_institucion"   
## [13] "institucion_id"      "institucion"         "gobierno_actual"    
## [16] "sexo"

Filtrar y manipular los datos

La variable clave tiene como nombre carrera, donde las categorías a considerar son ABOGACIA y ENFERMERIA. Por tanto, procedemos a filtrar el conjunto de datos y dejamos solo la variable carrera.

# Filtramos el conjunto de datos
datos_mec_filt <- subset(datos_mec, carrera %in% c("ABOGACIA","ENFERMERIA"), select = c(carrera))
# Reducimos las categorías a solo 2
datos_mec_filt$carrera <- factor(datos_mec_filt$carrera, labels = c("ABOGACIA","ENFERMERIA"))

Este conjunto de datos representa, teóricamente, a la población total. Calculamos en este caso la proporción real de enfermeros, frente a abogados.

tabla_carrera_poblacion <- xtabs(~carrera, data = datos_mec_filt)
prop.table(tabla_carrera_poblacion)

## carrera
##   ABOGACIA ENFERMERIA 
## 0.03995685 0.96004315

Notemos que la proporción “real” de enfermeros en la población es de aproximadamente 0.96.

Selección de una muestra aleatoria de tamaño 10000

Ahora tomamos una muestra aleatoria de 10000 títulos de enfermería y abogacía registrados y analizamos la distribución de frecuencias.

# Generamos una muestra aleatoria
id_muestra <- sample(1:nrow(datos_mec_filt),10000)
# Seleccionamos los elementos del conjunto de datos
muestra_mec <- data.frame(Carrera = datos_mec_filt[id_muestra,])
dim(muestra_mec)

## [1] 10000     1

summary(muestra_mec)

##        Carrera    
##  ABOGACIA  : 419  
##  ENFERMERIA:9581

Podemos observar que hay una cantidad mucho mayor de enfermeros que abogados. Calculamos la distribución de frecuencias relativas y generamos una gráfica de barras.

Análisis descriptivo

tabla_carrera_muestra <- xtabs(~Carrera, data = muestra_mec)
tabla_carrera_muestra

## Carrera
##   ABOGACIA ENFERMERIA 
##        419       9581

tabla_carrera_muestra_prop <- prop.table(tabla_carrera_muestra)
tabla_carrera_muestra_prop

## Carrera
##   ABOGACIA ENFERMERIA 
##     0.0419     0.9581

barplot(tabla_carrera_muestra_prop, ylim = c(0,1), las = 1,
        main = "Distribución de personas según título de egreso")

En la última tabla podemos observar que la proporción de enfermeros, entre enfermeros y abogados, es de aproximadamente 0.96. Estos datos sugieren que se registran más títulos de enfermeros que de abogados.

Contraste de hipótesis

Para verificar si la afirmación de arriba es cierta, aplicamos una prueba de una proporción, donde definimos \(p\) como la proporción de abogados en la población. Con que verifiquemos que \(p<0.5\), podemos concluir que la proporción de abogados es menor a la de enfermeros.

Las hipótesis a plantear son

\(H_0: p\ge0.5\)

\(H_1: p<0.5\)

Utilizaremos un nivel de significación del 5% en el contraste. Consideremos el p-value para dar una conclusión estadística. Tenemos entonces los siguientes criterios de decisión.

Si \(p_{valor} > 0.05\) no se rechaza la \(H_0\).
Si \(p_{valor} \leq 0.05\) se rechaza la \(H_0\).

Para realizar el contraste, utilizamos la función binom.test(), que analiza una proporción utilizando un test binomial exacto.

binom.test(tabla_carrera_muestra, p=0.5, alternative = "less")

## 
##  Exact binomial test
## 
## data:  tabla_carrera_muestra
## number of successes = 419, number of trials = 10000, p-value < 2.2e-16
## alternative hypothesis: true probability of success is less than 0.5
## 95 percent confidence interval:
##  0.00000000 0.04534598
## sample estimates:
## probability of success 
##                 0.0419

El contraste proporciona un p-value < 2.2e-16 < 0.05, lo que evidentemente implica el rechazo de la hipótesis nula. En este contexto, estamos afirmando que existe evidencia estadística para afirmar que la proporción de abogados es menor a la de enfermeros, asumiendo un 5% de significación. Lo cual significa que en Paraguay se registran más enfermeros que abogados. Esto era de esperarse, pues la proporción de abogados en el análisis descriptivo era mucho menor que la de enfermeros.

Tema 2

Desarrolle de la manera más formal que le sea posible un breve ensayo al respecto de cómo sería posible estimar la cantidad de canicas de color rojo provenientes de una urna que contiene un total de 2600 canicas, pero resulta desconocida la cantidad de canicas de color rojo existentes. Considere la posibilidad de presentar ecuaciones, tablas, gráficas y/o pruebas estadísticas.

Para estimar la proporción de canicas rojas de una urna que contiene en total 2600 canicas se podría utilizar un muestreo aleatorio simple de un cierto tamaño (por supuesto calculado a partir de fórmulas bien establecidas en la teoría del muestreo) y analizar la proporción de canicas rojas considerando un análisis descriptivo y posteriormente una estimación por intervalo de confianza. El análisis de la proporción da lugar a estimaciones de la cantidad estimada. En el siguiente código se da un pequeño ensayo.

# Simulamos una urna que contiene 2600 canicas en total, donde la proporción de rojas es 0.3
Poblacion <- rbinom(2600, 1, prob = 0.3)
# Seleccionamos una muestra aleatoria de 300 canicas de la población supuesta
muestra <- sample(Poblacion,300)
# Etiquetamos los valores 0 y 1
muestra <- factor(muestra, labels = c("Canica no roja", "Canica roja"))
# Obtenemos la estimación puntual de la proporción de canicas rojas
p <- prop.table(table(muestra))[2]
p

## Canica roja 
##   0.3433333

La estimación puntual de la proporción de canicas rojas es de 0.343. Para obtener un intervalo de confianza para la proporción de canicas rojas se considera la siguiente formula.

\[IC(p)=\left[\hat{p}-z_{\alpha/2}\sqrt{\hat{p}(1-\hat{p})/n},\ \ \ \hat{p}+z_{\alpha/2}\sqrt{\hat{p}(1-\hat{p})/n}\right]\]

En R tenemos

Limite_inf <- p+qnorm(0.025)*sqrt(p*(1-p)/300)
Limite_sup <- p+qnorm(0.925)*sqrt(p*(1-p)/300)
IC <- paste("IC = ", round(Limite_inf,3),round(Limite_sup,3))
IC

## [1] "IC =  0.29 0.383"

Así el intervalo de confianza obtenido al 95% es [0.29, 0.383].

Tema 3

Escriba una síntesis de lo relacionado a lo que presentó o presentará como trabajo práctico final de módulo para:

Desarrollo de los temas de Estadística Bayesiana.

El contraste de hipótesis puede ser abordado como un problema de decisión en el que se considera una familia de modelos probabilísticos para identificar la existencia de un modelo que genera los datos bajo una hipótesis nula. En estadística bayesiana, es importante especificar distribuciones previas o iniciales de probabilidad para cada parámetro, que son variables aleatorias en lugar de cantidades fijas. Las distribuciones iniciales objetivas son tomadas por los métodos bayesianos objetivos y dependen del modelo y de la información de interés. Una vez definida la probabilidad previa, se combina con la información muestral para obtener la distribución posterior, que es la solución óptima para extraer información de los datos. Para contrastar una hipótesis nula con una medida nula, se requiere una distribución inicial propia, lo que impide la utilización de distribuciones iniciales de referencia. Por lo tanto, se utilizan distribuciones iniciales objetivas distintas para estimaciones y contrastes de hipótesis. Se necesita una solución óptima desde un punto de vista de la teoría de la decisión, involucrando funciones de pérdida continuas y considerando las mismas distribuciones previas utilizadas en la teoría de la estimación.

Desarrollo de los temas de Inferencia Clásica.

El trabajo describe un estudio de contraste de hipótesis en el que se comparan dos proporciones poblacionales de hombres y mujeres que declararon haber trabajado en los últimos 7 días en los años 2019 y 2020. Antes del análisis inferencial, se realizaron exploraciones descriptivas numéricas, tabulares y gráficas para identificar posibles resultados inferenciales. Luego, se aplicó un contraste de hipótesis para la diferencia de proporciones y se concluyó que la proporción de hombres que trabajaron los últimos 7 días es mayor que la de mujeres con un nivel de significación del 5%. Esta conclusión se mantuvo para los dos años estudiados. El estudio utilizó tres formas diferentes de criterios de decisión, lo que muestra la flexibilidad de las pruebas de hipótesis bajo el enfoque clásico. Los resultados obtenidos en este estudio podrían ser útiles para comprender mejor las diferencias entre hombres y mujeres en relación con el trabajo. Además, el enfoque de contraste de hipótesis utilizado puede ser aplicado a otras situaciones donde se necesite comparar proporciones poblacionales.

Maestría en Estadística

Examen Final - Inferencia Estadística

Juan Ignacio Mereles Aquino

10-04-2023