¿Cuál es la probabilidad de que un paciente seleccionado al azar
tenga diabetes? \(P(diabetes)=P(hombre \cap
diabetes)+P(mujer \cap diabetes)\)
Para tener estos datos despejamos de esta manera:
\(P(Diabetes/Hombre)= \frac{P(Diabetes \cap
Hombre )}{P(Hombre)}\)
De ahí sacamos \(P(Diabetes \cap
Hombre)=0.035\), operamos de la misma manera con la mujer.
Y obtenemos que \(P(Diabetes)=0.035+0.03=0.065\)
Si un paciente seleccionado al azar tiene diabetes, ¿cuál es la
probabilidad de que sea una mujer? \(P(mujer/diabetes)=
\frac{P(diabetes/mujer)*P(mujer)}{P(diabetes)}\) Despejamos los
datos y nos queda:
\(P(mujer/diabetes)= \frac{0.1 * 0.3}{0.065} =
0.4615...\)
Si se selecciona al azar un paciente con diabetes, ¿cuál es la
probabilidad de que sea un hombre? \(P(hombre/diabetes) =
\frac{P(diabetes/hombre)*P(hombre)}{P(diabetes)}\) Despejamos los
datos y nos queda:
\(P(hombre/diabetes) =
\frac{(0.05*0.7)}{0.065} = 0.5384...\)
¿Cuál es la probabilidad de que sea un hombre y no tenga
diabetes? \(P(hombre \cap diabetes^c) =
P(Hombre) * (1-P(Diabetes))\)
Despejamos con los datos que tenemos y nos queda:
\(P(hombre \cap diabetes^c) = 0.7*(1-0.065) =
0.6545\)
Se ha medido la cantidad de tiempo que tardan en ejecutarse diferentes operaciones en un ordenador. Supongamos que la variable aleatoria X representa la cantidad de tiempo (en segundos) que tarda una operación determinada en ejecutarse en dicho ordenador, y que su función de densidad de probabilidad es:
\[\begin{equation}f(x) = \left\{\begin{matrix} \frac{x+1}{30} & \mbox{0 < x < 4} \\ 0 & \mbox {de otro modo}\end{matrix}\right.\end{equation}\]
¿Cuál es la probabilidad de que la media de tiempo de estas operaciones sea menor a 2 segundos? \(P(x<2)= \int ^2 _0 \frac{x+1}{30} dx = [\frac{1}{30}*(\frac{x^2}{2}+x)]^2 _0 = 2/15 =0.133333...\)
Calcula la media de tiempo de los programas
\(\int ^4 _0 x*\frac{x+1}{30} dx =
[\frac{1}{30}*(\frac{x^3}{3}+\frac{x^2}{2})]^4 _0 =44/45
=0.9777777...\)
Calcula la función de distribución
\(F(X)=P(X<w)=\int ^w _0 \frac{t+1}{30}dt =
[\frac{1}{30}*(\frac{t^2}{2}+t)]^w _0 = [\frac{1}{30}*(\frac{w^2}{2}+w)]
- [\frac{1}{30}*(\frac{0^2}{2}+0)] =\)\[\begin{equation}= f(x) =
\left\{\begin{array}{ll}0 & \mathrm{si\ } x \le 0
\\\frac{x^2}{60}+\frac{x}{30} & \mathrm{si\ } 0 < x < 4 \\1
& \mathrm{si\ } x \geq
4\end{array}\right.\end{equation}\]
Determina la mediana
\(P(X<x)\)
\(F(x)=\frac{x^2}{60}+\frac{x}{30}=0.5;\
mcm(60,30)=60;\ F(x)=x^2+2x=0.5;\ F(x)=x^2+2x-0.5=0\) \(x=\frac{-2\pm\sqrt{2^2+(-4)*1*(-0.5)}}{2*1}=\frac{-2\pm\sqrt6}{2*1}\)
\(x_1=\frac{-2 +
\sqrt{6}}{2*1}=0.2247448714\)
\(x_2=\frac{-2 -
\sqrt{6}}{2*1}=-2.224744871\)
Como la solución negativa no se encuentra en el intervalo (0, 4), se
descarta.
Supongamos que la cantidad de clientes que llegan a un restaurante por hora sigue una distribución de Poisson con una media de 5 clientes por hora.
¿Cuál es la probabilidad de que lleguen exactamente 3 clientes en una hora determinada? \(P(X = 3) = (e^-5 * 5^3) / 3! = (0.0067 * 125) / 6 = 0.1403\)
¿Cuál es la probabilidad de que lleguen al menos 5 clientes en
una hora determinada?
\(P(X ≥ 5) = 1 - P(X \leq 4)\)
\(P(X ≥ 5) = 1 - ppois(4, 5) =
0.5595\)
Obtén la probabilidad de que: P(x>3/x<5)
\(P(X>3 / X<5)=\frac{P(3<X<5)}{P(X
\le 4)}=\frac{P(X=4)}{P(X \le 4)}=\frac{0,1754}{0,4405} =
0.3983\)
¿Cuál es el número esperado de clientes que llegarán en una
hora?
El número esperado de clientes que llegarán en una hora es igual
a la media de la distribución de Poisson, es decir, λ = 5
clientes.
Si me apetece elegir al azar un estudiante de este club. ¿Cuál es
la probabilidad de que su altura sea mayor o igual a 175 cm?
\(¿P(X>=175)?\)
Guardamos los datos en un vector:
estaturas <- c(185, 172, 168, 176, 180, 163, 170, 174, 178,
181, 185, 170, 173, 166, 169, 173, 172, 167, 179, 176, 180, 185, 178,
176, 172, 175, 168, 172, 180, 174)
Y ahora calculamos la probabilidad:
x <- 175
n <- length(estaturas)
sum(estaturas >= x) / n
La probabilidad de que un estudiante seleccionado al azar tenga una
altura mayor o igual a 175 cm es de 0.4666667
OTRA FORMA
sum(estaturas >= 175) / 30
Ahora queremos calcular el rango, la desviación típica y la
varianza de las alturas de estos estudiantes.
rango <- max(estaturas) - min(estaturas)
rango = 22
desviacion_tipica <- sd(estaturas)
desviacion_tipica = 5.757654
varianza <- var(estaturas)
varianza = 33.15057
El rango es de 22 cm, la desviación estándar es de 5.757654 cm y la
varianza es de 33.15057 cm
¿Cuál es la media, mediana, frecuencia absoluta y frecuencia
relativa de las alturas?.
media <- mean(estaturas)
media = 174.5667
mediana <- median(estaturas)
mediana = 174
frec_abs <- table(estaturas)
frec_abs
frec_relativa <- frec_abs / length(estaturas)
frec_relativa
La media es de 174.5667 cm, la mediana es de 174 cm. La frecuencia
absoluta es:
estaturas
163 166 167 168 169 170 172 173 174 175 176 178 179 180 181 185
1 1 1 2 1 2 4 2 2 1 3 2 1 3 1 3
y la frecuencia relativa es:
estaturas
163: 0.03333333
166: 0.03333333
167: 0.03333333
168: 0.06666667
169: 0.03333333
170: 0.06666667
172: 0.13333333
173: 0.06666667
estaturas <- c(185, 172, 168, 176, 180, 163, 170, 174, 178, 181, 185, 170, 173, 166, 169, 173, 172, 167, 179, 176, 180, 185, 178, 176, 172, 175, 168, 172, 180, 174)
boxplot(estaturas, main="Alturas de los estudiantes de Among Users")
Calcula la probabilidad de que al menos 3 robots viejos
funcionen.
\(X \sim Exp(0.67)\)
\(P(X\geq3) = 1-P(X\leq2) = 1-pexp(2, 0.67) =
0.2618\)
Si analizamos 35 robots antiguos, ¿cuál es la probabilidad de que
su media se encuentre en el intervalo 0.45 y 0.70?
\(\mu = \frac{1}{0.67} = 1.4925\)
\(\sigma^2 = \frac{1}{0.67^2} =
2.2276\)
\(\sigma = \sqrt{\sigma^2} =
1.4925\)
\(\bar{X} \sim
N(1.4925,\frac{1.4925}{\sqrt{35}})\)
\(P(0.45 < \bar{X} <
0.70)=P(\bar{X}<0.70)-P(\bar{X}<0.45)=pnorm(0.70,
1.4925,\frac{1.4925}{\sqrt{35}})-pnorm(0.45,
1.492537,\frac{1.4925}{\sqrt{35}})= 0.000822\)
Calcula la probabilidad de que ningún robot nuevo funcione.
\(Y \sim PP(0.81)\)
\(P(Y = 0) = dpois(0, 0.81) =
0.4448\)
Si escogemos al azar 60 pedidos de 30 robots nuevos cada uno, ¿en
cuántos la media es superior a 0.90?
\(\mu = 0.81\)
\(\sigma^2 = 0.81\)
\(\sigma = \sqrt{0.81} = 0.9\)
\(\bar{Y} \sim N(0.81,
\frac{0.9}{\sqrt{30}})\)
\(P(\bar{Y}>0.9) = 1 - P(\bar{Y}\leq0.9) =
1 - pnorm(0.9, 0.81, \frac{0.9}{\sqrt{30}}) = 0.2919\)
Esto es para un solo pedido. Como se escogen 60, \(60*0.2919 = 17.51647\)
Asegurándose de que el ancho del intervalo sea menor de 0.3.
¿Cual es el tamaño minimo que debería coger? \(ANCHO=2*Z_{\alpha/2}*\frac{\sqrt{p(1-p)}}{\sqrt{n}}=0.3\)
\(Z_{\alpha/2}*\frac{\sqrt{p(1-p)}}{\sqrt{n}}=0.15\)
Despejamos la n
\(Z_{\alpha/2}*\frac{\sqrt{p(1-p)}}{0.15}=\sqrt{n}\)
\((Z_{\alpha/2}*\frac{\sqrt{p(1-p)}}{0.15})^2=n\)
La ecuacion nos queda así
\((Z_{\alpha/2})^2*\frac{p(1-p)}{0.15^2}=n\)
Para sacar el valor de Z hacemos esto:
\(P(Z \leq
Z_{\alpha/2})=1-\frac{0.03}{2}=0.985\)
\(Z_{\alpha/2}=qnorm(0.985)=2.17009\)
Ya tenemos el valor de Z, por lo que nos queda calcular el maximo de
p(1-p)
\(f(p)=p(1-p) \rightarrow f'(p)=1-2p
\rightarrow f''(p)=-2\)
Calculamos el valor despejando p en la segunda derivada y
sustituimos
\(p(1-p) \rightarrow
\frac{1}{2}(1-\frac{1}{2})=\frac{1}{4}\)
Ahora tenemos todos los datos y sustitumos en la formula inicial
\(n=qnorm(0.985)^2*
\frac{\frac{1}{4}}{0.15^2}=52.3254\)
Como no podemos coger decimales tomamos el valor de n=53.
¿Cuál sería el intervalo de confiaza para la media del
tiempo?
Usamos este script para resolver este
ejercicio:
x=c(22.1,22,22.25,22.41,22.9,23.1,23.5,23.11,23.25,24.5);
bar_x=mean(x)
s=sd(x);
n=length(x);
alpha=0.03
t_alpha2menos1=qt(1-alpha/2,n-1)
bar_x-t_alpha2menos1*s/sqrt(n);bar_x+t_alpha2menos1*s/sqrt(n)
Como resultado obtenemos (22.29,23.53)
x1=c(22.1,22,22.25,22.41,22.9,23.1,23.5,23.11,23.25,24.5);
alpha=0.03
s=sd(x1)
n=length(x1)
sqrt(((n-1)*s^2)/qchisq(1-alpha/2,n-1));sqrt(((n-1)*s^2)/qchisq(alpha/2,n-1))
Como resultado obtenemos (0.5053, 1.4977)
x1=c(22.1,22,22.25,22.41,22.9,23.1,23.5,23.11,23.25,24.5);
alpha=0.03
s=sd(x1)
n=length(x1)
((n-1)*s^2)/qchisq(1-alpha/2,n-1);((n-1)*s^2)/qchisq(alpha/2,n-1)
Como resultado obtenemos: (0.2553,2.2432)
La respuesta es que si, puesto que el 0.3 se encuentra en el intervalo
que acabamos de hallar de la varianza.
En el último juego de Dr. Mario se ha añadido un minijuego de
crear medicamentos a través de champiñones. El problema es que este
minijuego tiene una tasa de acierto que sigue una normal de media 2.42 y
desviación típica 0.2 entre el público infantil debido a su complejidad.
Si se han escogido a 200 jugadores al azar, se pide:
a) Calcular el intervalo de confianza bilateral del
90%.
Para calcular z_alpha2, usamos el siguiente script.
alpha=0.1
z_alpha2=qnorm(1-alpha/2)
Esto da como resultado 1.6449.
Una vez calculado z_alpha2, calculamos el intervalo de confianza
bilateral mediante este script:
bar_x=2.42
sigma=0.2
n=200
alpha=0.1
z_alpha2=qnorm(1-alpha/2)
bar_x-z_alpha2*sigma/sqrt(n)
bar_x+z_alpha2*sigma/sqrt(n)
Fórmula en la que nos basamos:
El intervalo es el siguiente: (2.3967, 2.4433).
b) Calcular el intervalo de confianza bilateral del 95%. Compara
el ancho de este intervalo con el obtenido en el apartado
a).
El nuevo valor de Z_alpha2 es 1.96.
El intervalo ahora es (2.3923, 2.4477).
Como se puede observar, si aumenta el nivel de confianza, el
intervalo también aumenta.
Se ha vendido una expansión que añade al Dr. Luigi en el
mismo minijuego, haciendo que la tasa de acierto tenga ahora una media
de 15.87 y una desviación típica de 0.1. De momento, esta expansión ha
sido comprada por 35 personas. Se pide:
c) Calcular el intervalo de confianza unilateral del
90%.
Para calcular z_alpha se usa el siguiente script:
alpha=0.1
z_alpha=qnorm(1-alpha)
Esto da como resultado 1.2816.
Para calcular el valor unilateral, se emplea el siguiente script:
bar_x=15.87
sigma=0.1
n=35
alpha=0.1
z_alpha=qnorm(1-alpha)
bar_x-z_alpha*sigma/sqrt(n)
Fórmula en la que nos basamos:
Este comando devuelve el valor mínimo del intervalo, siendo este
15.8483.
d) En dicha actualización, Mario y Luigi tienen un minijuego en
conjunto que consiste en crear un champiñón llamado “Yomi” que permite
devolver a la vida al jugador en menos de 2 minutos. Se pide comprobar
que esto es cierto para ambos con α=0.05.
Definimos dos hipótesis:
\(H_0: \mu_M \geq 2\)
\(H_1: \mu_M < 2\)
Empleamos los datos de Mario para calcular z_s y el p_valor bilateral:
bar_x=2.42
sigma=0.2
n=200
alpha=0.05
nu_0=2
z_s=(bar_x-nu_0)/(sigma/sqrt(n))
2*(1-pnorm(abs(z_s)))
Fórmula en la que nos basamos:
Como el p_valor es 0 y 0<0.05, rechazamos \(H_0\) y cogemos \(H_1\), es decir, tarda menos de 2
minutos.
Para el caso de Luigi, repetimos lo mismo:
Definimos dos hipótesis:
\(H_0: \mu_L \geq 2\)
\(H_1: \mu_L < 2\)
Empleamos los datos de Luigi para calcular z_s y el p_valor bilateral:
bar_x=15.87
sigma=0.1
n=35
alpha=0.05
nu_0=2
z_s=(bar_x-nu_0)/(sigma/sqrt(n))
2*(1-pnorm(abs(z_s)))
Fórmula en la que nos basamos:
Como el p_valor es 0 y 0<0.05, rechazamos \(H_0\) y cogemos \(H_1\), es decir, tarda menos de 2
minutos.
Al elegirse en ambos casos \(H_1\) y rechazarse \(H_0\), se puede decir que la afirmación
es cierta.
Bowser, tras su último enfrentamiento contra Mario ha decidido crear nuevos aliados llamados Robo-Koopas, pero no está seguro de cual es mejor, pues ha creado dos prototipos, Robo-Koopa-A y Robo-Koopa-B. Por lo que decide probarlos en combate contra 500 enemigos de los 7 reinos (El Reino Champiñón, El Reino de Hielo, El Reino del Desierto, El Reino de las Nubes, El Reino de los Caramelos, El Reino de los Dinosaurios y El Reino de las Flores). A continuación, se presenta un conjunto de datos que muestra los tiempos de derrota (en segundos) para vencer a 500 enemigos agrupados en los 7 reinos diferentes del juego de Mario Bros, utilizando Robo-Koopa-A y Robo-Koopa-B
| Reino | Robo-Koopa-A | Robo-Koopa-B |
|---|---|---|
| 1 | 9.25 | 6.75 |
| 2 | 11.25 | 8.25 |
| 3 | 10.50 | 9.75 |
| 4 | 12.50 | 7.25 |
| 5 | 7.75 | 10.25 |
| 6 | 8.25 | 9.50 |
| 7 | 6.75 | 8.50 |
a)¿Cuál es la hipótesis nula y la hipótesis alternativa en
este caso?
\(H_0: \hat{\mu_a}=\hat{\mu_b}\)
\(H_1: \hat{\mu_a}\neq
\hat{\mu_b}\)
b)Calcula el p_valor
Usaremos este codigo para resolver el problema:
Robo_Koopa_A=c(9.25, 11.25, 10.5, 12.5, 7.75, 8.25, 6.75)
Robo_Koopa_B=c(6.75, 8.25, 9.75, 7.25, 10.25, 9.5, 8.5)
wilcox.test(Robo_Koopa_A,Robo_Koopa_B)
El p_Valor es: 0.522
c)¿Cuál es el valor del estadístico de prueba en este
análisis, y cómo se relaciona con la decisión de
aceptar o rechazar la hipótesis nula?
El estadistico test es: 30 y se saca de wilcox.test. Calculamos el umbral:
qwilcox(1-(alpha/2),7,7)
Que nos da 40 Dado que el valor del estadisitico es menor que el valor del umbral no rechazamos H0
d)Si se rechaza la hipótesis nula, ¿qué conclusiones se
pueden extraer sobre la eficacia de los Robo-Koopas?.
¿Podemos decir que el Robo-Koopa-A es mejor que el
Robo-Koopa-B?.
Si sucediera eso significaria que los Robo-Koopas no tienen tiempos similares a la hora de matar enemigos o lo que es lo mismo, que habría evidencia estadística de que los tiempos son diferentes.
No, puesto que son muestras distintas y no podríamos decir tal cosa. Podemos decir que un Robo-Koopa tarda menos en matar enemigos que otro, pero no que uno es mas eficaz que otro. Para poder compararlos los enemigos tendrían que ser del mismo reino y que sean iguales para poder medir bien.
Construir un intervalo del 95 % para la estimación de la media
del colesterol de tipo A.
Construir un intervalo del 99 % para la estimación de la
diferencia de las medias entre los tratamientos A y C.
¿Cuál sería la distribución de los niveles de colesterol en la
sangre?
¿Hay diferencias significativas en los niveles de colesterol en
la sangre entre los tres tratamientos?
set.seed(123) #Fijamos una semilla para replicabilidad
n <- 60 #El número de pacientes que el doctor ha elegido
tratamientos <- rep(c("A", "B", "C"), each = n/3) #Asignamos un tratamiento a cada paciente albaceteño
colesterol <- c(rnorm(n, mean = 200, sd = 30), rnorm(n, mean = 180, sd = 25), rnorm(n, mean = 160, sd = 20)) #Generamos los datos del colesterol
datos <- data.frame(tratamientos, colesterol) #Creamos una variable "datos" que contenga los datos anteriores
datosA <- subset(datos, tratamientos == "A") #Seleccionamos solo datos del tratamiento A
t.test(datosA$colesterol, conf.level = 0.95) #Realizamos el t-test con un intervalo de confianza del 95%
La salida sería:
One Sample t-test
data: datosA$colesterol
t = 44.922, df = 59, p-value < 2.2e-16
alternative hypothesis: true mean is not equal to 0
95 percent confidence interval:
172.1362 188.1864
sample estimates:
mean of x
180.1613
datosAC <- subset(datos, tratamientos %in% c("A", "C")) #Seleccionamos solo datos de los tratamientos A y C
t.test(datosAC$colesterol ~ datosAC$tratamientos, paired = TRUE, conf.level = 0.99) #Realizamos el t-test con un intervalo de confianza del 99%
La salida sería:
Paired t-test
data: datosAC$colesterol by datosAC$tratamientos
t = 0.21666, df = 59, p-value = 0.8292
alternative hypothesis: true mean difference is not equal to 0
99 percent confidence interval:
-11.04434 13.00165
sample estimates:
mean difference
0.9786539
summary(datos$colesterol)
Y la salida sería:
Min. 1st Qu. Median Mean 3rd Qu. Max.
118.9 160.7 177.3 180.3 198.8 265.1
# Realizamos primero el análisis de varianza
modelo_anova <- aov(colesterol ~ tratamientos, data = datos)
# Calculamos las diferencias significativas en los niveles de colesterol:
summary(modelo_anova)
Df Sum Sq Mean Sq F value Pr(>F)
tratamientos 2 156 78.1 0.091 0.913
Residuals 177 152581 862.0