PEP 1

Pregunta 1:

Un investigador estudió los ritmos biológicos en ratones para analizar el efecto del fármaco Probenecid en la reducción de peso (Morgan 2018). Cada mañana, el investigador registró el momento en que los ratones despertaron y comenzaron sus actividades. Este evento ocurrió entre las 5:35 y las 6:10 de la mañana. Si asume que la distribución de este evento es uniforme en ese rango de tiempo:

print("Para trabajar los valores de las horas de medición del evento, estas fueron transformadas a valores en minutos, quedando de la siguiente manera: 5:35 --> 335 / 6:10 --> 370 minutos. De esta forma se considerarian los minutos transcurridos desde las 0:00")

## [1] "Para trabajar los valores de las horas de medición del evento, estas fueron transformadas a valores en minutos, quedando de la siguiente manera: 5:35 --> 335 / 6:10 --> 370 minutos. De esta forma se considerarian los minutos transcurridos desde las 0:00"

Grafique la función de densidad correspondiente (6 puntos).

library(ggplot2)
library("extraDistr")
minutos=seq(300,380)
distribucion=dunif(minutos, min = 335, max = 370) 

#Extraído de https://dk81.github.io/dkmathstats_site/rmath-uniform-plots.html
uniform_Plot = function(a, b){
  xvals <- data.frame(x = c(a, b)) #Range for x-values
  ggplot(data.frame(x = xvals), aes(x = x)) + xlim(c(a, b)) + ylim(0, 1/(b - a)) + stat_function(fun = dunif, args = list(min = a, max = b), geom = "area",
                                                                                                 fill = "green", alpha = 0.35) +
    stat_function(fun = dunif, args = list(min = a, max = b)) + labs(x = "\n Minutos desde las 0:00", y = "Probabilidad \n",
                                                                     title = paste0("Uniform Distribution \n With Min = ", a, " & Max = ", b, " \n")) + theme(plot.title = element_text(hjust = 0.5),
                                                                                                                                                              axis.title.x = element_text(face="bold", colour="blue", size = 12),
                                                                                                                                                              axis.title.y = element_text(face="bold", colour="blue", size = 12)) + geom_vline(xintercept = a, linetype = "dashed", colour = "red") + geom_vline(xintercept = b, linetype = "dashed", colour = "red")
}

#Gráfico
grafico=uniform_Plot(335,370) 
plot(grafico)

print("El gráfico corresponde a la función de densidad, la cual considera los datos de la variable aleatoria como una variable continua.")

## [1] "El gráfico corresponde a la función de densidad, la cual considera los datos de la variable aleatoria como una variable continua."

Grafique la función de masa correspondiente (6 puntos).

library("extraDistr")
minutos=seq(300,380) #Defino el rango a graficar 
distribucion=ddunif(minutos, min = 335, max = 370)  
datos=data.frame(minutos,distribucion,acumulado=cumsum(distribucion))

library("ggplot2")
grafico = ggplot(data=datos,aes(x=minutos,y=distribucion))
grafico = grafico + geom_bar(stat="identity",fill="lightblue3")
grafico = grafico + theme_bw() + ggtitle("Distribución de probabilidades") 
grafico = grafico + xlab("Minutos desde las 0:00") + ylab("Probabilidad") 
plot(grafico)

print("El gráfico corresponde a la función de masa, la cual considera los datos de la variable aleatoria como una variable discreta.")

## [1] "El gráfico corresponde a la función de masa, la cual considera los datos de la variable aleatoria como una variable discreta."

Calcule la media y la desviación estándar de la variable estudiada. Argumente y contextualice su respuesta (8).

# Para la distribución de densidad:
a = 335
b = 370
media1 = (a+b)/2
varianza1= ((b-a)^2)/12
desviacion1= sqrt(varianza1)

cat("Para la distribucion de densidad los valores de media son: ", media1,"los valores de desviación estandar",desviacion1,"\n")

## Para la distribucion de densidad los valores de media son:  352.5 los valores de desviación estandar 10.10363

#Para la distribución de masa:
media2= (b+a)/2
varianza2= (((b-a+1)^2) +1)/12 
desviacion2 = sqrt(varianza2)

cat("Para la distribucion de masa los valores de media son: ", media2,"los valores de desviación estandar",desviacion2,"\n")

## Para la distribucion de masa los valores de media son:  352.5 los valores de desviación estandar 10.39631

cat("Es posible observar que la media se mantiene constante en ambas distribuciones, esto por que es un valor que no tiene variación al ser medida como una variable discreta o continua, a diferencia de la desviacion estandar, al transformar una distribucion discreta en continua los datos dejan de estar agrupados y se distribuyen de una forma más homogenea de manera que la desviacion se ve afectada. ")

## Es posible observar que la media se mantiene constante en ambas distribuciones, esto por que es un valor que no tiene variación al ser medida como una variable discreta o continua, a diferencia de la desviacion estandar, al transformar una distribucion discreta en continua los datos dejan de estar agrupados y se distribuyen de una forma más homogenea de manera que la desviacion se ve afectada.

Pregunta 2:

Un estudio ha señalado que en el Hospital de Medellín hubo 292 accidentes laborales entre los años 2015 y 2019 (Pérez-Correa 2022).

Calcule la probabilidad de que hoy no ocurran accidentes (6 puntos).

# Cantidad de accidentes 292 entre 2015 y 2019 (1460 dias)
# Por lo tanto la media es 292/1460
casos= 292
dias=1460
lambda= casos/dias
rango = seq(-10,30)
distribucion = dexp(rango, rate = 1/lambda) 
datos=data.frame(rango,distribucion)

respuesta21=1-pexp(1,rate=1/lambda) 
cat("La probabilidad de que hoy no ocurran accidentes es de :",respuesta21)

## La probabilidad de que hoy no ocurran accidentes es de : 0.006737947

Calcule la probabilidad de que ocurran como máximo dos accidentes esta semana (6 puntos).

probabilidadia= casos/dias
pregunta2b = pbinom(2, size = 7,prob = probabilidadia)
cat("La probabilidad de que ocurran 2 casos como máximo en una semana es de",pregunta2b)

## La probabilidad de que ocurran 2 casos como máximo en una semana es de 0.851968

Grafique la distribución de probabilidad asociada (8 puntos).

library("ggplot2")
rango = seq(-10,50)
distribucion = dexp(rango, rate = 1/lambda) 
grafico = ggplot(data=datos,aes(x=rango,y=distribucion))
grafico = grafico + geom_line(stat="identity",color="lightblue3",linewidth = 2) 
grafico = grafico + theme_bw() + ggtitle("Distribución de probabilidades") 
grafico = grafico + xlab("Rango") + ylab("Probabilidad")
plot(grafico)

Pregunta 3:

Un investigador está utilizando un Modelo de Regresión de Cox para explicar una variable fisiológica causante de una enfermedad (Rivas 2006). Este modelo requiere la estimación de cuatro parámetros en un rango de 0 a 100: una constante base (mantisa) y tres asociados a un exponente. Para llevar a cabo la estimación, el investigador ha dividido cada variable en 10 intervalos.

¿Cuántos modelos diferentes deberá evaluar el investigador para considerar todas las posibles combinaciones de parámetros? (5 puntos).

#Si al dividir las 4 variables en 10 intervalos, cada variables queda representada por 11 elementos (r)
#De manera que las combinaciones posibles son:
r = 4
n =11
combinaciones= n^r
cat("La cantidad de modelos diferentes que deberia evaluar el investigador corresponde a :", combinaciones)

## La cantidad de modelos diferentes que deberia evaluar el investigador corresponde a : 14641

b.Si cada modelo tarda 1 minuto en ser evaluado en el computador del investigador, ¿cuántas horas de cómputo necesitará el investigador para evaluar todos los modelos? Asuma que usará el mismo equipo (5 puntos).

minutos= combinaciones
horas= minutos/60
cat("El investigador requerira de",horas," horas de computo para poder obtener todos los modelos posibles")

## El investigador requerira de 244.0167  horas de computo para poder obtener todos los modelos posibles

Si usted descubre que la probabilidad de que un parámetro tome un determinado valor sigue una distribución normal con media 50 y desviación estándar 10, ¿qué sugeriría al investigador para abordar la estimación de parámetros? Explique su argumento (10 puntos).

prob1=pnorm(70,mean=50,sd=10) 
prob2=pnorm(30,mean=50,sd=10) 
total= prob1 - prob2
cat("Le sugeriria al investigador que la mejor forma de estimar la mayor cantidad de modelos posibles es utilizando los valores centrales ya que la media se encuentra central (en el valor medio del rango) y la desviacion presenta un valor pequeño de 10, por lo tanto, usando valores de rango entre 30 y 70 para las variables, la probabilidad de encontrar valores en estos rangos es",total," lo cual es bastante cercano a la probabilidad total (1).")

## Le sugeriria al investigador que la mejor forma de estimar la mayor cantidad de modelos posibles es utilizando los valores centrales ya que la media se encuentra central (en el valor medio del rango) y la desviacion presenta un valor pequeño de 10, por lo tanto, usando valores de rango entre 30 y 70 para las variables, la probabilidad de encontrar valores en estos rangos es 0.9544997  lo cual es bastante cercano a la probabilidad total (1).

PEP 1

Pamela Lizama

2023-05-05

Pregunta 1:

Pregunta 2:

Pregunta 3: