1. Instrucciones

Este documento contiene las instrucciones y enunciados asociados a la Prueba Especial Programada 1 (PEP1) del curso de Estadística Computacional modalidad vespertina. Con respecto a ello:

  • La prueba tiene un total de 60 puntos, lo que sumado al puntaje base permitirá calcular directamente su nota final sumando un máximo de 70 puntos.
  • Se dispone de todo el bloque de clases para realizar la evaluación. Esta deberá ser desarrollada en R.
  • Las respuestas escritas empleando RMarkdown deberán ser enviadas al profesor por correo electrónico al finalizar el tiempo de evaluación.
  • Puede usar apuntes y material disponible en Moodle como apoyo.
  • Cualquier sospecha de falta ética será castigada directamente con nota 1.0 en la evaluación.
  • En cada caso, no responda sólo numéricamente, sino que contextualice su respuesta para el problema. Esto puede ser al final de cada pregunta.

2. Preguntas

Pregunta 1 - (20 puntos)

Un investigador estudió los ritmos biológicos en ratones para analizar el efecto del fármaco Probenecid en la reducción de peso (Morgan 2018). Cada mañana, el investigador registró el momento en que los ratones despertaron y comenzaron sus actividades. Este evento ocurrió entre las 5:35 y las 6:10 de la mañana. Si asume que la distribución de este evento es uniforme en ese rango de tiempo:

Preguntas

  1. Grafique la función de densidad correspondiente (6 puntos).
  2. Grafique la función de masa correspondiente (6 puntos).
  3. Calcule la media y la desviación estándar de la variable estudiada. Argumente y contextualice su respuesta (8).

Respuestas

Parte a

La función de densidad describe la probabilidad relativa de una variable continua. Por lo tanto, debemos asumir que el tiempo de actividad de los ratoncitos es continuo. Para graficar esta función se puede usar la biblioteca ggplot2. Los valores extremos del rango (\(a,b\)) pueden estar definidos en horas, minutos u otra unidad que usted estime conveniente. Si utilizamos horas, el gráfico será el siguiente:

library("ggplot2")
library("plotly")

#Graficar
a=5.6
b=6.2

x= seq(a,b,by=0.01)
y = 1/(b-a)
datos = data.frame(hours = x, f_x = y)

grafico =ggplot(datos, aes(x = x, y=y))
grafico = grafico + theme_bw()
grafico = grafico + ylab("Densidad")
grafico = grafico + xlab("Horas")
grafico = grafico + ggtitle("Densidad de probabilidad")
grafico = grafico + geom_density(fill="navajowhite",color="orange3", size = 0.1) + 
  coord_cartesian(ylim=c(0, 2))
ggplotly(grafico)

Parte b

La función de masa describe la probabilidad relativa de una variable discreta. Por lo tanto, debemos asumir que el tiempo de actividad es discreto. Para graficar esta función se puede usar nuevamente la biblioteca ggplot2.

library("extraDistr")

#Graficar
x= seq(a,b,by=0.01)
y = 1/length(x)

grafico = ggplot(data=datos,aes(x=x,y=y))
grafico = grafico + geom_bar(stat="identity",fill="navajowhite",color="orange3", size = 0.1)
grafico = grafico + theme_bw() + ggtitle("Masa de probabilidades")
grafico = grafico + xlab("Horas") + ylab("Masa") + coord_cartesian(ylim=c(0, 0.02))
ggplotly(grafico)

Parte c

Con relación a las medidas solicitadas, su cálculo depende si consideramos el tiempo de actividad de los ratoncitos una variable continua o discreta. En el caso de continua será:

media = (a+b)/2
desviacion = round(sqrt(((b-a+1)^2+1)/12),3)

print(paste(media,"±",desviacion))
## [1] "5.9 ± 0.545"

En el caso de considerar el rango como un intervalo discreto será:

media = (a+b)/2
desviacion = round(sqrt(((b-a)^2)/12),3)

print(paste(media,"±",desviacion))
## [1] "5.9 ± 0.173"

Pregunta 2 - (20 puntos)

Un estudio ha señalado que en el Hospital de Medellín hubo 292 accidentes laborales entre los años 2015 y 2019 (Pérez-Correa 2022).

Preguntas

  1. Calcule la probabilidad de que hoy no ocurran accidentes (6 puntos).
  2. Calcule la probabilidad de que ocurran como máximo dos accidentes esta semana (6 puntos).
  3. Grafique la distribución de probabilidad asociada (8 puntos).

Respuestas

Parte a

Para resolver este ejercicio se pueden asumir diferentes distribuciones. Sin embargo, dado que se está entregando una media en el tiempo utilizaré una distribución de Poisson. Para calcular la probabilidad de que no ocurran accidente en 1 días, se requiere la media (\(\lambda\)) para un día en estos 5 años (2015-2019). Asumiendo que los años 2015 y 2019 se incluyen en rango y que al ser un hospital se trabaja todos los días del año, esto se puede calcular como:

lambda_dia= 292/(5*365)

Por lo que la probabilidad de no tener accidentes en un día es:

prob_dia= dpois(0,lambda_dia)
print(prob_dia)
## [1] 0.8521438

Parte b

El mismo proceso se puede aplicar para la semana, considerando que un año tiene 52 de estas.

lambda_semana= 292/(5*52)

En este caso la probabilidad de tener como máximo 2 accidentes en una semana es:

prob_semana= ppois(2,lambda_semana)
print(prob_semana)
## [1] 0.8957254

Parte c

Con relación a los gráficos, les podemos hacer considerando días o semanas. Estos son:

accidentes=seq(0,10)
distribucion = dpois(accidentes,lambda_dia)
datos=data.frame(accidentes,distribucion)

grafico = ggplot(data=datos,aes(x=accidentes,y=distribucion))
grafico = grafico + geom_bar(stat="identity",fill="navajowhite",color="orange3", size = 0.1)
grafico = grafico + theme_bw() + ggtitle("Distribución de probabilidades - Poisson")
grafico = grafico + xlab("Número de accidentes x día") + ylab("Probabilidad")
ggplotly(grafico)
accidentes=seq(0,10)
distribucion = dpois(accidentes,lambda_semana)
datos=data.frame(accidentes,distribucion)

grafico = ggplot(data=datos,aes(x=accidentes,y=distribucion))
grafico = grafico + geom_bar(stat="identity",fill="navajowhite",color="orange3", size = 0.1)
grafico = grafico + theme_bw() + ggtitle("Distribución de probabilidades - Poisson")
grafico = grafico + xlab("Número de accidentes x semana") + ylab("Probabilidad")
ggplotly(grafico)

Pregunta 3 - (20 puntos)

Un investigador está utilizando un Modelo de Regresión de Cox para explicar una variable fisiológica causante de una enfermedad (Rivas 2006). Este modelo requiere la estimación de cuatro parámetros en un rango de 0 a 100: una constante base (mantisa) y tres asociados a un exponente. Para llevar a cabo la estimación, el investigador ha dividido cada variable en 10 intervalos.

Preguntas

  1. ¿Cuántos modelos diferentes deberá evaluar el investigador para considerar todas las posibles combinaciones de parámetros? (5 puntos).
  2. Si cada modelo tarda 1 minuto en ser evaluado en el computador del investigador, ¿cuántas horas de cómputo necesitará el investigador para evaluar todos los modelos? Asuma que usará el mismo equipo (5 puntos).
  3. Si usted descubre que la probabilidad de que un parámetro tome un determinado valor sigue una distribución normal con media 50 y desviación estándar 10, ¿qué sugeriría al investigador para abordar la estimación de parámetros? Explique su argumento (10 puntos).

Respuestas

Parte a

La cantidad de modelos diferentes que podemos evaluar depende de la combinación de los valores de las variables a estimar. En este caso tenemos 11 valores posibles de cada una, por lo que el número de evaluaciones será:

n = 11
combinaciones = 11^4
print(combinaciones)
## [1] 14641

Parte b

Si cada modelo tarda 1 minuto en ser evaluado el número de horas que se necesitarán son:

horas = combinaciones/60
print(horas)
## [1] 244.0167

Al requerir de 244 horas o 10.2 días aproximadamente es un tiempo bastante alto a considerar.

Parte c

Dado que las variables siguen una distribución normal de media 50 y desviación estándar 10. La probabilidad de que las variables tengan un valor entre 40 y 60 es:

probabilidad = round(pnorm(60,50,10)-pnorm(40,50,10),2)
print(probabilidad)
## [1] 0.68

Esto hace que la probabilidad de que los mejores parámetros estén entre 40 y 60 sea casi del 70%. Por lo tanto, le sugeriría al investigador acotar la búsqueda a este rango. Esto hace que el número de combinaciones sea \(3^4=81\) y tarde aproximadamente 1 hora 30 minutos.

Si tiene más tiempo, podría llevar el rango de 30 y 70, que tiene casi del 95% de probabilidad. Esto hace que el número de combinaciones sea \(3^4=625\) y tarde aproximadamente 10 horas.

probabilidad = round(pnorm(70,50,10)-pnorm(30,50,10),2)
print(probabilidad)
## [1] 0.95

Referencias

Morgan, Barra, C. 2018. “Probenecid Ayuda a La Baja de Peso En Hembras Obesas Adultas BALB/c Alimentadas Con Dieta Normocalórica.” Revista de Farmacología de Chile 11 (1).
Pérez-Correa, Paula AND López-López, Juan Carlos AND Suescún-Castaño. 2022. “Accidentalidad Laboral En Salud: Caracterización de Condiciones Del Trabajador y Del Entorno Laboral En Un Hospital de Tercer Nivel de Complejidad.” Revista de La Asociación Española de Especialistas En Medicina Del Trabajo 31: 345–58.
Rivas, José Luciano Borges, Douglas Maldonado. 2006. “Aplicación de Los Algoritmos Genéticos Para Estimar Los Parámetros En Un Modelo de Regresión de Cox.” Economía 1.