En una urna hay tres bolas rojas y dos bolas verdes. Se extraen dos bolas al azar, sin reemplazo.
La probabilidad de extraer dos bolas rojas es \(P(RR) = P(R) · P(R|\)no se reemplaza\()\) = \(\frac{3}{5} * \frac{2}{4} = \frac{3}{10} = 0.3\)
La probabilidad condicionada de que la segunda bola sea verde, dado que la primera bola extraída es verde, es \(P(V|V1) = \frac{P(VV)}{P(V1)} = \frac {(1/10)}{(2/5)} = 0.25\), donde V1 es el evento de que la primera bola extraída sea verde.
Para calcular la probabilidad de extraer al menos una bola verde, podemos usar la regla de la probabilidad total. Es decir, \(P(V) = 1 - P(V^c) = 1 - P(RR) = 1 - \frac{3}{10} = \frac{7}{10} = 0.7\)
Primero, calculamos la probabilidad de extraer una bola roja en el primer intento: \(P(R) = \frac{3}{5}\)
Ahora, calculamos la probabilidad de extraer una bola verde en el segundo intento, dado que ya hemos extraído una bola roja en el primer intento: \(P(V) = \frac{2}{4}\)
Por lo tanto, \(P(RV) = \frac{3}{5} * \frac{2}{4} = \frac{3}{10} = 0.3\)
Se sabe que en un primer parcial de estadística, la variable aleatoria X representa el número de preguntas contestadas correctamente por un estudiante, con una distribución de probabilidad dada por:
| \(X\) | \(P(X=x)\) |
|---|---|
| 0 | 0.10 |
| 1 | 0.25 |
| 2 | 0.35 |
| 3 | 0.20 |
| 4 | 0.10 |
La probabilidad de que el estudiante conteste correctamente exactamente 2 preguntas es \(P(X=2) = 0.35\)
La probabilidad de que el estudiante conteste correctamente al menos 3 preguntas es la suma de las probabilidades de que conteste correctamente 3 o 4 preguntas: \(P(X\ge3) = P(X=3) + P(X=4) = 0.20 + 0.10 = 0.30\)
La función de distribución acumulada \(F(x)\) de la variable aleatoria X viene dada por \(F(x) = P(X \le x)\)
Para cada valor de x, se suman las probabilidades de los valores de X menores o iguales a x:
| \(X\) | \(P(X\le x)\) |
|---|---|
| 0 | 0.10 |
| 1 | 0.35 |
| 2 | 0.70 |
| 3 | 0.90 |
| 4 | 1.00 |
Para ello, tenemos que calcular previamente la media, usando la fórmula \(\sum_{i}^{} xi * P(X=xi)\) y, con r, se puede hacer directamente así:
x <- 0:4
p <- c(0.10, 0.25, 0.35, 0.20, 0.10)
mu <- sum(x * p)
mu
## [1] 1.95
La varianza:
var <- sum(p * (x - mu)^2)
var
## [1] 1.2475
Y la desviación típica:
sqrt(var)
## [1] 1.116915
Se sabe que en una tienda de martabak manis, el número promedio de clientes que llegan en un intervalo de 10 minutos es de parámetro 3. La variable aleatoria X representa el número de clientes que llegan en dicho intervalo, con una distribución de probabilidad Poisson.
1.- ¿Cuál es la probabilidad de que lleguen exactamente 2 clientes en un intervalo de 10 minutos?
2.- ¿Cuál es la probabilidad de que lleguen al menos 4 clientes en un intervalo de 10 minutos?
3.- ¿Cuál es el número esperado de clientes que llegan en un intervalo de 30 minutos?
4.- ¿Cuál es la desviación estándar del número de clientes que llegan en un intervalo de 10 minutos?
Definimos lambda:
lambda <- 3
dpois(2, lambda)
## [1] 0.2240418
1 - ppois(3, 3)
## [1] 0.3527681
lambda * 3
## [1] 9
4.La desviación típica es la raíz cuadrada de lambda.
sqrt(lambda)
## [1] 1.732051
Martabak manis
En un parque natural, se observa que el tiempo que tarda un visitante en avistar un ejemplar de un ave rara sigue una distribución exponencial de media 20 (minutos).
1.- Calcular la probabilidad de que un visitante aviste un ave rara en menos de 10 minutos.
La función de densidad de la exponencial es: f(x) = λ * \(e^{(-λ*x)}\).
lambda <- 1/20
pexp(10,lambda)
## [1] 0.3934693
2.- Si un visitante ha estado esperando ya 30 minutos sin éxito, ¿cuál es la probabilidad de que tenga que esperar más de 15 minutos adicionales para avistar un ave rara?
\(P(X>45|X>30) = \frac{P(X>45)}{P(X>30)} = \frac{1-P(X\le45)}{1-P(X\le30)}\)
(1-pexp(45,lambda))/(1-pexp(30,lambda))
## [1] 0.4723666
3.- ¿Cuál es la probabilidad de que el tiempo de espera de un visitante para avistar un ave rara sea mayor que la media más la desviación típica?
La desviación típica (\(\sigma\)) es \(\frac{1}{\lambda}\), luego: E(X) + \(\sigma = \frac{1}{\lambda} + \frac{1}{\lambda} =
\frac{2}{\lambda}\)
Entonces, lo que se nos pregunta es: \(P(X>\frac{2}{\lambda}) = 1 -
P(X\le\frac{2}{\lambda})\)
1-pexp(2/lambda,lambda)
## [1] 0.1353353
4.- ¿Qué tiempo necesita estar un visitante para que la probabilidad de avistar un ave rara sea del 90%?
El enunciado nos pide el tiempo, t, para que la probabilidad sea 0.9. Es decir, P(X<t) = 0.9
qexp(0.9,lambda)
## [1] 46.0517
Supongamos que se tiene una fábrica de galletas que produce en promedio 15 paquetes por hora. Sabiendo que la producción de paquetes sigue una distribución de Poisson.
1.- Si tomamos 10 horas al azar, cual es la probabilidad de que la media muestral sea menor de 14 paquetes por hora?
sigma= sqrt(15)
n=10
media= 15
pnorm(14, 15, sigma/sqrt(n))
## [1] 0.2071081
2.- El valor de la media muestral tal que la probabilidad de que sea menor o igual a ese valor sea del 20%.
qnorm(0.2, 15, sigma/sqrt(n))
## [1] 13.96923
3.- Si tomamos 80 horas al azar, la probabilidad de que la media muestral esté entre 13.5 y 16 paquetes por hora.
Sigma sigue siendo \(\sqrt{15}\), que ya hemos definido previamente en el apartado 1.
n=80
media= 15
pnorm(16, 15, sigma/sqrt(n))- pnorm(13.5, 15, sigma/sqrt(n))
## [1] 0.9892733
4.- Si sabemos que en una hora determinada se han producido menos de 20 paquetes, ¿cuál es la probabilidad de que hayan producido menos de 10?
\(P(X<10 | X<20) = \frac{P(X<10)}{P(X<20)}\)
(ppois(10,15))/(ppois(20,15))
## [1] 0.1291828
Tenemos los siguientes datos del tiempo que el detective privado José Luis Torrente pasa en el estadio Vicente Calderón en un año (8.4, 9.5, 9.15, 8.5, 6.5, 7.2, 8, 7.7, 10.6, 7.55, 6.3, 6.63). Sabemos que el tiempo sigue una distribución normal.
Añadiremos los datos del enunciado en la variable “tiempo” y además las operaciones que usaremos en varios apartados. Es decir, length(tiempo) y la desviación típica. Así, nos ahorramos tiempo y es más ordenado.
tiempo <- c(8.4, 9.5, 9.15, 8.5, 6.5, 7.2, 8, 7.7, 10.6, 7.55, 6.3, 6.63)
n = length(tiempo)
s = sd(tiempo)
1.- Intervalo de confianza al 95% para la media del tiempo.
alpha = 1 - 0.95
t_alpha = qt(1-alpha/2,n-1)
cat("(",mean(tiempo)-t_alpha*s/sqrt(n),",",mean(tiempo)+t_alpha*s/sqrt(n),")")
## ( 7.17426 , 8.83074 )
2.- Intervalo de confianza al 95% para la varianza del tiempo.
alpha = 1 - 0.95
cat("(",((n-1)*s^2)/qchisq(1-alpha/2,n-1),",",((n-1)*s^2)/qchisq(alpha/2,n-1),")")
## ( 0.8527273 , 4.8986 )
3.- ¿La media del tiempo puede ser 9 con una probabilidad del 97%?
alpha_ej3 = 1 - 0.97
t_alpha_ej3 = qt(1-alpha_ej3/2,n-1)
cat("(",mean(tiempo)-t_alpha_ej3*s/sqrt(n),",",mean(tiempo)+t_alpha_ej3*s/sqrt(n),")")
## ( 7.065253 , 8.939747 )
No, la media del tiempo no puede ser 9 porque está fuera del intervalo.
4.- ¿La varianza puede ser de 0.8 con probabilidad del 95%?
Sí puede ser. Sabiendo que el intervalo de confianza del apartado 2 es (0.8527273, 4.8986), y que \(\sqrt{0.8} = 0.8944\), podemos ver que está dentro de este intervalo.
José Luis Torrente
Se quiere comparar la temperatura media diaria en las ciudades de Albacete y Ciudad Real durante el mes de Mayo. Se sabe que las temperaturas en ambas ciudades siguen una distribución normal. Se han tomado los siguientes datos de las temperaturas cada 3 días:
CiudadA=c(30.2,28.3,27.3,26.5,29.6,25.8,27.1,29.4,30.3,28.5)
CiudadB=c(28.4,29.5,32.3,31.2,30.3,33.1,28.3,29.1,30.5,30.2)
s1=sd(CiudadA)
s2=sd(CiudadB)
1.- Con los datos mostrados, ¿se podría decir que la media de las temperaturas de Albacete es mayor a 28 grados?
H0: \(\mu\) \(\leq\) 28
H1: \(\mu\) \(>\) 28
bar_x=mean(CiudadA);
d_0=28;
n1=length(CiudadA);
n2=length(CiudadB);
t_s=((bar_x-d_0)/(s1/sqrt(n1)))
t_s
## [1] 0.6002668
1-pt(t_s,n1-1)
## [1] 0.2815679
Como p-valor es mayor que alpha no rechazamos H0 por lo que las diferencias son debidas al azar. Por lo que el constraste no ha resultado significativo.
2.- ¿Podemos corroborar que las medias de temperatura en ambas ciudades coinciden?
H0: \(\mu\)1 \(=\) \(\mu\)2
H1: \(\mu\)1 \(\neq\) \(\mu\)2
s1^2/s2^2
## [1] 1.004064
Como es menor de 2, ambas sigmas son iguales.
bar_x1 = mean(CiudadA)
bar_x2 = mean(CiudadB)
d_0=0
sp=sqrt(((n1-1)*s1^2+(n2-1)*s2^2)/(n1+n2-2))
t_s=((bar_x1-bar_x2)-d_0)/(sp*sqrt((1/n1)+(1/n2)))
t_s
## [1] -2.81839
2*pt(t_s,n1+n2-2)
## [1] 0.011379
Dado que p-Valor \(<\) \(\alpha\), rechazamos H0. Por lo tanto, podemos afirmar que se cumple que son distintas.
3.- ¿Los datos apoyan la afirmación de que la media de las temperaturas en Ciudad real es mayor que en Albacete?
H0: \(\mu\)2 \(\leq\) \(\mu\)1
H1: \(\mu\)2 \(>\) \(\mu\)1
d_0=0
sp=sqrt(((n1-1)*s1^2+(n2-1)*s2^2)/(n1+n2-2))
t_s=((bar_x2-bar_x1)-d_0)/(sp*sqrt((1/n1)+(1/n2)))
t_s
## [1] 2.81839
1-pt(t_s,n1+n2-2)
## [1] 0.005689498
Dado que p-Valor \(<\) \(\alpha\), rechazamos H0. Es decir, la media de Ciudad Real es mayor que la de Albacete.
4.- Queremos saber si la temperatura media en Ciudad Real es menor o igual a 29.5 grados.
H0: \(\mu\) \(>\) 29.5
H1: \(\mu\) \(\leq\) 29.5
bar_x=mean(CiudadB)
d_0=29.5
t_s=((bar_x-d_0)/(s2/sqrt(n2)))
t_s
## [1] 1.583912
pt(t_s,n2-1)
## [1] 0.9261629
Como p-Valor \(>\) \(\alpha\), las diferencias son debidas al azar, por lo que no podemos concluir que la media de Ciudad Real es menor o igual a 29.5 grados.
En el manga y anime Vinland Saga, Thorfinn usa dos dagas. Se desea verificar si el aparato de medición de longitud del herrero que las fabrica se encuentra bien calibrado. Para ello, se utilizan dos tipos de aparatos, uno analógico y otro digital, para medir la longitud de las piezas producidas. Se sospecha que uno de los aparatos está dañado y se decide llevar a cabo un experimento en el que se miden las longitudes de 10 piezas utilizando ambos aparatos de medición.
digital <- c(21.7, 23.6, 25.4, 26.9, 22.2, 28.1, 20.8, 29.2, 24.3, 27.5)
analogico <- c(21.8, 23.5, 22.4, 28.2, 26.9, 27.6, 20.5, 23.9, 25.1, 29.8)
Vamos a usar el paquete BSDA, que incluye una función para calcular la prueba de signos: SIGN.test.
1.- ¿Se podría decir que la mediana de los aparatos es 0?
H0: \(Me\)analógico \(=\) \(Me\)digital (\(Me\) = 0)
H1: \(Me\)analógico \(\neq\) \(Me\)digital (\(Me\) \(\neq\) 0)
library(BSDA)
SIGN.test(digital,analogico,md=0,alternative="two.sided", conf.level = 0.95)
##
## Dependent-samples Sign-Test
##
## data: digital and analogico
## S = 5, p-value = 1
## alternative hypothesis: true median difference is not equal to 0
## 95 percent confidence interval:
## -1.975556 2.188889
## sample estimates:
## median of x-y
## 0
##
## Achieved and Interpolated Confidence Intervals:
##
## Conf.Level L.E.pt U.E.pt
## Lower Achieved CI 0.8906 -1.3000 0.5000
## Interpolated CI 0.9500 -1.9756 2.1889
## Upper Achieved CI 0.9785 -2.3000 3.0000
Como p-Valor \(>\) \(\alpha = 0.05\), no se puede concluir que la mediana sea igual a 0, ya que el p-Valor es mayor que el nivel de significancia deseado.
2.- ¿Existe alguna razón para creer que uno de los aparatos es superior al otro al 97% de confianza?
wilcox.test(digital, analogico, paired = TRUE, alternative = "two.sided", conf.level = 0.97)
##
## Wilcoxon signed rank test with continuity correction
##
## data: digital and analogico
## V = 26.5, p-value = 0.9593
## alternative hypothesis: true location shift is not equal to 0
Como p-Valor \(>\) \(\alpha = 0.03\), podemos concluir que no hay suficiente evidencia para rechazar la hipótesis nula con un nivel de confianza del 97%
3.- Calcula el valor umbral al 90% de confianza.
alpha = 1-0.9
qwilcox(1-alpha/2,10,10)
## [1] 72
4.- ¿Cuánto son k1 y k2 al 99% de confianza?
Sabemos que \(k1 + k2 = n1 * n2 = 10*10 = 100\)
wilcox.test(digital,analogico, paired = TRUE, alternative = "two.sided", conf.level = 0.99)
## Warning in wilcox.test.default(digital, analogico, paired = TRUE, alternative =
## "two.sided", : cannot compute exact p-value with ties
##
## Wilcoxon signed rank test with continuity correction
##
## data: digital and analogico
## V = 26.5, p-value = 0.9593
## alternative hypothesis: true location shift is not equal to 0
Con esto podemos sacar \(k1 = 26.5\).
Ahora, \(26.5 + k2 = 100\), luego: \(k2 = 100 - 26.5 \rightarrow k2 = 73.5\)
Queremos comparar cuatro tipos de algoritmo para ordenar un vector.El tiempo para ordenar el vector de cada uno de los algoritmos sigue una distribucion normal. Queremos que sean lo más rápido posible. Se seleccionan aleatoriamente 40 vectores para medir el tiempo en ordenarlos. Los datos son:
Primer<-c(12.24,10.72,12.38,14.30,10.23,11.79,11.63,12.39,9.98,10,24)
Segundo<-c(12.33,12.43,11.41,13.45,10.22,13.01,9.85,10.37,12.99)
Tercer<-c(11.58,14.48,13.26,12.37,10.35,11.79,12.25,9.47,13.20,12.61)
Cuarto<-c(11.31,10.72,12.05,11.76,11.46,11.57,11.35,12.73,9.85)
1.- Queremos estudiar si los cuatro tipos tienen la misma media. Indica el valor del estadístico test.
datos = c(Primer,Segundo,Tercer,Cuarto)
tiempo = factor(c(rep("Tipo1",length(Primer)), rep("Tipo2",length(Segundo)), rep("Tipo3",length(Tercer)), rep("Tipo4",length(Cuarto))))
summary(aov(datos~tiempo))
## Df Sum Sq Mean Sq F value Pr(>F)
## tiempo 3 8.85 2.950 0.526 0.667
## Residuals 35 196.25 5.607
El valor del estadístico test se encuentra en el campo “value”. Entonces, estadístico test = 0.526
2.- Queremos saber si la media de tiempo del tercer tipo es menor de 11.63.
t.test(Tercer,mu=11.63,alternative="less")
##
## One Sample t-test
##
## data: Tercer
## t = 1.1039, df = 9, p-value = 0.8509
## alternative hypothesis: true mean is less than 11.63
## 95 percent confidence interval:
## -Inf 12.97623
## sample estimates:
## mean of x
## 12.136
Dado p-Valor=0.8509, y no es menor que la media, aceptamos H0.
3.- Queremos estudiar si los cuatro tipos tienen la misma media. Indica el p-Valor.
Tomando los datos del apartado 1, el p-Valor = 0.667.
4.- Queremos estudiar si los cuatro tipos tienen la misma media.Suma de cuadrados entre grupos. Indica la suma de cuadrados entre grupos.
Tomando los datos del apartado 1, el ssd = 196.25.
Thorfinn, de Vinland Saga
Thorfinn