1. En el proceso de fabricación de teléfonos, tres de ellos son seleccionados aleatoriamente por trabajadores para evaluar su calidad. Cada pieza es categorizada como “funcional” o “con falla” según los resultados de su evaluación. Si la probabilidad de que un teléfono no tenga fallas es 0.8, siendo la evaluación independiente entre equipos.

a) (3 puntos) Señale el tipo de variable aleatoria y la distribución que sigue.

Esta es claramente una variable aleatoria de categorización cualitativa dicotómica en cada caso separado, ya que, presentan la cualidad de “funcional” o “con falla”, los cuales son 2 posibles cualidades. Luego, como la evaluación es independiente entre equipos y tenemos solo 2 eventos posibles por equipo con una probabilidad fija entre cada uno, podemos considerar una distribución binomial, donde que el telefono sea funcional se considerara como exito (p = 0.8) y que tenga fallas como fracaso (1-p = 0.2).

b) (4 puntos) Determine la función de probabilidad de masa.

\[f(x)=\frac{n!}{x!*(n-x)!}*p^x*(1-p)^{n-x}\] luego con los datos correpondientes nos queda: \[f(x)=\frac{3!}{x!*(3-x)!}*0.8^x*0.2^{3-x}\]

c) (3 puntos) Grafique la distribución.

rango = seq(0,3)
distribucion = dbinom(rango, 3, prob = 0.8)
datos = data.frame(rango, distribucion)

p = ggplot(data=datos, aes(x=rango,y=distribucion))
p = p + geom_bar(stat="identity", fill="lightblue3")
p = p + theme_bw() + ggtitle("Distribución binomial")
p = p + xlab("Rango") + ylab("Probabilidad")
p = p + scale_x_continuous(breaks = c(0,1,2,3))
plot(p)


2. En un estudio clínico los voluntarios son examinados para encontrar un gen asociado a la aparición de cáncer. La probabilidad de que una persona tenga el gen es 0.1. Si se asume que la evaluación de una persona es independiente de otra:

a) (2 puntos) Señale el tipo de variable aleatoria y la distribución que sigue.

Para empezar sabemos la variable sería el número de personas que tiene el gen, lo que es una variable cuantitativa discreta, ya que, no podemos tener, por ejemplo, 1.5 personas. Sabemos además que la evaluaciones son independientes entre personas; finalmente como las preguntas hacen alusion a la cantidad de ensayos antes de un r exito, donde el exito será que una persona tenga el gen por cruel que suene, se ve claramente como es una distribución binomial negativa.

b) (3 puntos) ¿Cuál es la probabilidad de que cuatro o más evaluaciones deban ser efectuadas para detectar a dos personas portadoras del gen?

Queriendo saber P(X >= 4), teniendo un r=2 y un p=0.1, entonces el número de evaluaciones sería de x + r(fallos más exitos), es decir, 4 = x + 2, luego x = 2 la probabilidad de que hayan 4 o más evaluaciones es de:

print(pnbinom(2,2,0.1,lower.tail = FALSE) + dnbinom(2,2,0.1))  # Con lower.tail en false no se incluye el x=2 en si, por lo que se suma aparte
## [1] 0.972

c) (3 puntos) ¿Cuál es el número esperado de evaluaciones que debo realizar para detectar dos personas portadoras del gen?

Para la media o valor esperado de una distribución binomial negativa se tiene la formula \(\frac{r(1-p)}{p}\), por lo que con r=2 y p=0.1, el número esperado será el resultado de esta fórmula (número de fracasos esperados) más el número de exitos(2), quedando un total de:

n_fracasos = (2*(1-0.1))/0.1
n_evaluaciones = n_fracasos + 2
print(n_evaluaciones)
## [1] 20

evaluaciones esperadas a realizar para obtener 2 personas portadoras del gen.

d) (2 puntos) Grafique la distribución.

Considerando un r=2, que es lo que se uso durante los ejercicios, el gráfico nos queda:

rango = seq(0,60)
distribucion = dnbinom(rango, 2,0.1)
datos = data.frame(rango, distribucion)

p = ggplot(data=datos, aes(x=rango,y=distribucion))
p = p + geom_bar(stat="identity", fill="lightblue3")
p = p + theme_bw() + ggtitle("Distribución binomial negativa")
p = p + xlab("Rango") + ylab("Probabilidad")
p = p + scale_x_continuous(breaks = c(0,8,9,20,60))
plot(p)


3. Una empresa contrata a 800 hombres menores de 55 años. Suponga que el 30 % tiene un marcador en el cromosoma masculino que indica un mayor riesgo de cáncer de próstata.

a) (2 puntos) Señale el tipo de variable aleatoria y la distribución que sigue.

Siendo x el número de hombres que tengan el marcador corresponde a un variable aleatoria cuantitativa discreta (volvemos al ejemplo de que no se pueden tener 1.5 hombres), luego, como estamos tomando una muestra sin repetición para una variable discreta se ve claramente como esta corresponde a una distribución hipergeometrica.

b) (3 puntos) Si a 10 hombres de la empresa se les hace la prueba del marcador en este cromosoma, ¿cuál es la probabilidad de que exactamente 1 hombre tenga el marcador?

Teniendo N=800, M= 30% -> M=240, n=10, la probabilidad de que un hombre tenga el marcador es de:

print(dhyper(1,240,800-240,10))
## [1] 0.1200794

c) (3 puntos) Si a 10 hombres de la empresa se les hace la prueba del marcador en este cromosoma, ¿cuál es la probabilidad de que más de 1 tenga el marcador?

Tomando valores similares a los de antes (N=800, M=240, n=10), la probabilidad de que más de uno tenga el marcador es de:

print(phyper(1,240,800-240,10,lower.tail = FALSE))
## [1] 0.8523523

d) (2 puntos) Grafique la distribución

rango = seq(0,10)
distribucion = dhyper(rango, 240,800-240,10)
datos = data.frame(rango, distribucion)

p = ggplot(data=datos, aes(x=rango,y=distribucion))
p = p + geom_bar(stat="identity", fill="lightblue3")
p = p + theme_bw() + ggtitle("Distribución hipergeométrica")
p = p + xlab("Rango") + ylab("Probabilidad")
p = p + scale_x_continuous(breaks = c(0,1,2,3,4,5,6,7,8,9,10))
plot(p)


4. El número de llamadas telefónicas que llegan a una central telefónica se modela como una variable aleatoria de Poisson. Suponga que en promedio hay 8 llamadas por hora.

a) (5 puntos) ¿Cuál es la probabilidad de que haya exactamente cinco llamadas en una hora?

print(dpois(5, 8))
## [1] 0.09160366

b) (5 puntos) ¿Cuál es la probabilidad de que haya tres llamadas o menos en una hora?

print(ppois(3, 8))
## [1] 0.04238011


5. (10 puntos) Un artículo en Knee Surgery Sports Traumatology, Arthroscopy [“Effect of Provider Volume on Resource Utilization for Surgical Procedures” (2005, Vol. 13, pp. 273–279)] mostró un tiempo medio de 129 minutos y una desviación estándar de 14 minutos para cirugía de reconstrucción de LCA para hospitales de alto volumen (con más de 300 cirugías de este tipo por año). Si un hospital de alto volumen necesita programar 10 cirugías, ¿cuáles son la media y la varianza del tiempo total para completar estas cirugías? Suponga que los tiempos de las cirugías son independientes y normalmente distribuidos.

Notando que los tiempos de las cirugias son independientes y que el articulo fue hecho de forma general para los hospitales de alto volumen la media y desviación estandar son los mismos; quedandonos entonces con una media de 129 minutos y una varianza del cuadrado de la desviación estándar, es decir, una varianza de

print(14**2)
## [1] 196

minutos


6. (2 puntos) Aborde los ejercicios 1 y 4 efectuando una aproximación mediante una distribución normal. ¿Qué puede concluir?

Si para el ejercicio 1 tomamos una distribución normal de media np = 2.4 y desviación estándart de sqrt(npq) = sqrt(0.48)

rango = seq(0,4.8,by=0.1)
distribucion = dnorm(rango, 2.4, sqrt(0.48))
datos = data.frame(rango, distribucion)

p = ggplot(data=datos, aes(x=rango,y=distribucion))
p = p + geom_bar(stat="identity", fill="lightblue3")
p = p + theme_bw() + ggtitle("Distribución normal aproximada")
p = p + xlab("Rango") + ylab("Probabilidad")
p = p + scale_x_continuous(breaks = c(0,1,2,2.4,3,4.8))
plot(p)

Esta aproximación no es muy buena, pero es esperable, ya que, cuando se nos enseño acerca de esta aproximación se nos dijo que para que fuera buena n*p debería ser mayor que 5, y en este caso es solo 2.4

Si para el ejercicio 4 tomamos una distribución normal, asumiendo una desviación estándar de raiz de lambda, se tiene una aproximación de p(x=5) y p(x<=3) respectivamente:

print(dnorm(5,8,sqrt(8)))
## [1] 0.08036638
print(pnorm(3,8,sqrt(8)))
## [1] 0.03854994

lo cual es bastante cercano a los valores reales, estando solo un poco por debajo