1 Probabilidad
2 Variable aleatoria
3 Distribuciones de probabilidad
4 Probabilidad
5 Distribuciones en el muestreo
6 Inferencia estadística
7 Contraste paramétrico
8 Contraste no paramétrico
9 Anova

Trabajo 1 Contenidos: probabilidad, variable aleatoria y distribuciones de probabilidad.

1 Probabilidad

En una urna hay tres bolas rojas y dos bolas verdes. Se extraen dos bolas al azar, sin reemplazo.

¿Cuál es la probabilidad de extraer dos bolas rojas?

La probabilidad de extraer dos bolas rojas es \(P(RR) = P(R) · P(R|\)no se reemplaza\()\) = \(\frac{3}{5} * \frac{2}{4} = \frac{3}{10} = 0.3\)

Si la primera bola extraída es verde, ¿cuál es la probabilidad de que la segunda bola extraída también sea verde?

La probabilidad condicionada de que la segunda bola sea verde, dado que la primera bola extraída es verde, es \(P(V|V1) = \frac{P(VV)}{P(V1)} = \frac {(1/10)}{(2/5)} = 0.25\), donde V1 es el evento de que la primera bola extraída sea verde.

¿Cuál es la probabilidad de extraer al menos una bola verde?

Para calcular la probabilidad de extraer al menos una bola verde, podemos usar la regla de la probabilidad total. Es decir, \(P(V) = 1 - P(V^c) = 1 - P(RR) = 1 - \frac{3}{10} = \frac{7}{10} = 0.7\)

¿Cuál es la probabilidad de que el resultado sea una roja y una verde?

Primero, calculamos la probabilidad de extraer una bola roja en el primer intento: \(P(R) = \frac{3}{5}\)

Ahora, calculamos la probabilidad de extraer una bola verde en el segundo intento, dado que ya hemos extraído una bola roja en el primer intento: \(P(V) = \frac{2}{4}\)

Por lo tanto, \(P(RV) = \frac{3}{5} * \frac{2}{4} = \frac{3}{10} = 0.3\)

2 Variable aleatoria

Se sabe que en un primer parcial de estadística, la variable aleatoria X representa el número de preguntas contestadas correctamente por un estudiante, con una distribución de probabilidad dada por:

\(X\)	\(P(X=x)\)
0	0.10
1	0.25
2	0.35
3	0.20
4	0.10

¿Cuál es la probabilidad de que el estudiante conteste correctamente exactamente 2 preguntas?

La probabilidad de que el estudiante conteste correctamente exactamente 2 preguntas es \(P(X=2) = 0.35\)

¿Cuál es la probabilidad de que el estudiante conteste correctamente al menos 3 preguntas?

La probabilidad de que el estudiante conteste correctamente al menos 3 preguntas es la suma de las probabilidades de que conteste correctamente 3 o 4 preguntas: \(P(X\ge3) = P(X=3) + P(X=4) = 0.20 + 0.10 = 0.30\)

¿Cuál es la función de distribución de la variable aleatoria X?

La función de distribución acumulada \(F(x)\) de la variable aleatoria X viene dada por \(F(x) = P(X \le x)\)

Para cada valor de x, se suman las probabilidades de los valores de X menores o iguales a x:

\(X\)	\(P(X\le x)\)
0	0.10
1	0.35
2	0.70
3	0.90
4	1.00

¿Cuál es la varianza y la desviación típica de la variable aleatoria?

Para ello, tenemos que calcular previamente la media, usando la fórmula \(\sum_{i}^{} xi * P(X=xi)\) y, con r, se puede hacer directamente así:

x <- 0:4
p <- c(0.10, 0.25, 0.35, 0.20, 0.10)
mu <- sum(x * p)
mu

## [1] 1.95

La varianza:

var <- sum(p * (x - mu)^2)
var

## [1] 1.2475

Y la desviación típica:

sqrt(var)

## [1] 1.116915

3 Distribuciones de probabilidad

Se sabe que en una tienda de martabak manis, el número promedio de clientes que llegan en un intervalo de 10 minutos es de parámetro 3. La variable aleatoria X representa el número de clientes que llegan en dicho intervalo, con una distribución de probabilidad Poisson.

1.- ¿Cuál es la probabilidad de que lleguen exactamente 2 clientes en un intervalo de 10 minutos?

2.- ¿Cuál es la probabilidad de que lleguen al menos 4 clientes en un intervalo de 10 minutos?

3.- ¿Cuál es el número esperado de clientes que llegan en un intervalo de 30 minutos?

4.- ¿Cuál es la desviación estándar del número de clientes que llegan en un intervalo de 10 minutos?

Definimos lambda:

lambda <- 3

\(P(X = 2)\)

dpois(2, lambda)

## [1] 0.2240418

\(P(X \ge 4) = 1 - P(X \le 3) = 1 - ppois(3, 3)\)

1 - ppois(3, 3)

## [1] 0.3527681

Ya que el intervalo es de 30 minutos, es decir, 10 * 3, podemos simplemente hacer lambda * 3.

lambda * 3

## [1] 9

4.La desviación típica es la raíz cuadrada de lambda.

sqrt(lambda)

## [1] 1.732051

Martabak manis

Trabajo 2 Contenidos: probabilidad, distribuciones en el muestreo e inferencia estadística.

4 Probabilidad

En un parque natural, se observa que el tiempo que tarda un visitante en avistar un ejemplar de un ave rara sigue una distribución exponencial de media 20 (minutos).

1.- Calcular la probabilidad de que un visitante aviste un ave rara en menos de 10 minutos.

La función de densidad de la exponencial es: f(x) = λ * \(e^{(-λ*x)}\).

lambda <- 1/20
pexp(10,lambda)

## [1] 0.3934693

2.- Si un visitante ha estado esperando ya 30 minutos sin éxito, ¿cuál es la probabilidad de que tenga que esperar más de 15 minutos adicionales para avistar un ave rara?

\(P(X>45|X>30) = \frac{P(X>45)}{P(X>30)} = \frac{1-P(X\le45)}{1-P(X\le30)}\)

(1-pexp(45,lambda))/(1-pexp(30,lambda))

## [1] 0.4723666

3.- ¿Cuál es la probabilidad de que el tiempo de espera de un visitante para avistar un ave rara sea mayor que la media más la desviación típica?

La desviación típica (\(\sigma\)) es \(\frac{1}{\lambda}\), luego: E(X) + \(\sigma = \frac{1}{\lambda} + \frac{1}{\lambda} = \frac{2}{\lambda}\)
Entonces, lo que se nos pregunta es: \(P(X>\frac{2}{\lambda}) = 1 - P(X\le\frac{2}{\lambda})\)

1-pexp(2/lambda,lambda)

## [1] 0.1353353

4.- ¿Qué tiempo necesita estar un visitante para que la probabilidad de avistar un ave rara sea del 90%?

El enunciado nos pide el tiempo, t, para que la probabilidad sea 0.9. Es decir, P(X<t) = 0.9

qexp(0.9,lambda)

## [1] 46.0517

5 Distribuciones en el muestreo

Supongamos que se tiene una fábrica de galletas que produce en promedio 15 paquetes por hora. Sabiendo que la producción de paquetes sigue una distribución de Poisson.

1.- Si tomamos 10 horas al azar, cual es la probabilidad de que la media muestral sea menor de 14 paquetes por hora?

  sigma= sqrt(15)
  n=10
  media= 15
  pnorm(14, 15, sigma/sqrt(n))

## [1] 0.2071081

2.- El valor de la media muestral tal que la probabilidad de que sea menor o igual a ese valor sea del 20%.

  qnorm(0.2, 15, sigma/sqrt(n))

## [1] 13.96923

3.- Si tomamos 80 horas al azar, la probabilidad de que la media muestral esté entre 13.5 y 16 paquetes por hora.

Sigma sigue siendo \(\sqrt{15}\), que ya hemos definido previamente en el apartado 1.

  n=80
  media= 15
  pnorm(16, 15, sigma/sqrt(n))- pnorm(13.5, 15, sigma/sqrt(n))

## [1] 0.9892733

4.- Si sabemos que en una hora determinada se han producido menos de 20 paquetes, ¿cuál es la probabilidad de que hayan producido menos de 10?

\(P(X<10 | X<20) = \frac{P(X<10)}{P(X<20)}\)

(ppois(10,15))/(ppois(20,15))

## [1] 0.1291828

6 Inferencia estadística

Tenemos los siguientes datos del tiempo que el detective privado José Luis Torrente pasa en el estadio Vicente Calderón en un año (8.4, 9.5, 9.15, 8.5, 6.5, 7.2, 8, 7.7, 10.6, 7.55, 6.3, 6.63). Sabemos que el tiempo sigue una distribución normal.

Añadiremos los datos del enunciado en la variable “tiempo” y además las operaciones que usaremos en varios apartados. Es decir, length(tiempo) y la desviación típica. Así, nos ahorramos tiempo y es más ordenado.

tiempo <- c(8.4, 9.5, 9.15, 8.5, 6.5, 7.2, 8, 7.7, 10.6, 7.55, 6.3, 6.63)
n = length(tiempo)
s = sd(tiempo)

1.- Intervalo de confianza al 95% para la media del tiempo.

alpha = 1 - 0.95
t_alpha = qt(1-alpha/2,n-1)
cat("(",mean(tiempo)-t_alpha*s/sqrt(n),",",mean(tiempo)+t_alpha*s/sqrt(n),")")

## ( 7.17426 , 8.83074 )

2.- Intervalo de confianza al 95% para la varianza del tiempo.

alpha = 1 - 0.95

cat("(",((n-1)*s^2)/qchisq(1-alpha/2,n-1),",",((n-1)*s^2)/qchisq(alpha/2,n-1),")")

## ( 0.8527273 , 4.8986 )

3.- ¿La media del tiempo puede ser 9 con una probabilidad del 97%?

alpha_ej3 = 1 - 0.97
t_alpha_ej3 = qt(1-alpha_ej3/2,n-1)
cat("(",mean(tiempo)-t_alpha_ej3*s/sqrt(n),",",mean(tiempo)+t_alpha_ej3*s/sqrt(n),")")

## ( 7.065253 , 8.939747 )

No, la media del tiempo no puede ser 9 porque está fuera del intervalo.

4.- ¿La varianza puede ser de 0.8 con probabilidad del 95%?

Sí puede ser. Sabiendo que el intervalo de confianza del apartado 2 es (0.8527273, 4.8986), y que \(\sqrt{0.8} = 0.8944\), podemos ver que está dentro de este intervalo.

José Luis Torrente

Trabajo 3 Contenidos: contraste paramétrico, contraste no paramétrico y análisis de la varianza (anova).

7 Contraste paramétrico

Se quiere comparar la temperatura media diaria en las ciudades de Albacete y Ciudad Real durante el mes de Mayo. Se sabe que las temperaturas en ambas ciudades siguen una distribución normal. Se han tomado los siguientes datos de las temperaturas cada 3 días:

CiudadA=c(30.2,28.3,27.3,26.5,29.6,25.8,27.1,29.4,30.3,28.5)
CiudadB=c(28.4,29.5,32.3,31.2,30.3,33.1,28.3,29.1,30.5,30.2)

s1=sd(CiudadA)
s2=sd(CiudadB)

1.- Con los datos mostrados, ¿se podría decir que la media de las temperaturas de Albacete es mayor a 28 grados?

H₀: \(\mu\) \(\leq\) 28
H₁: \(\mu\) \(>\) 28

bar_x=mean(CiudadA);
d_0=28;
n1=length(CiudadA);
n2=length(CiudadB);
t_s=((bar_x-d_0)/(s1/sqrt(n1)))
t_s

## [1] 0.6002668

1-pt(t_s,n1-1)

## [1] 0.2815679

Como p-valor es mayor que alpha no rechazamos H₀ por lo que las diferencias son debidas al azar. Por lo que el constraste no ha resultado significativo.

2.- ¿Podemos corroborar que las medias de temperatura en ambas ciudades coinciden?

H₀: \(\mu\)₁ \(=\) \(\mu\)₂
H₁: \(\mu\)₁ \(\neq\) \(\mu\)₂

s1^2/s2^2

## [1] 1.004064

Como es menor de 2, ambas sigmas son iguales.

bar_x1 = mean(CiudadA)
bar_x2 = mean(CiudadB)
d_0=0
sp=sqrt(((n1-1)*s1^2+(n2-1)*s2^2)/(n1+n2-2))
t_s=((bar_x1-bar_x2)-d_0)/(sp*sqrt((1/n1)+(1/n2)))
t_s

## [1] -2.81839

2*pt(t_s,n1+n2-2)

## [1] 0.011379

Dado que p-Valor \(<\) \(\alpha\), rechazamos H₀. Por lo tanto, podemos afirmar que se cumple que son distintas.

3.- ¿Los datos apoyan la afirmación de que la media de las temperaturas en Ciudad real es mayor que en Albacete?

H₀: \(\mu\)₂ \(\leq\) \(\mu\)₁
H₁: \(\mu\)₂ \(>\) \(\mu\)₁

d_0=0
sp=sqrt(((n1-1)*s1^2+(n2-1)*s2^2)/(n1+n2-2))
t_s=((bar_x2-bar_x1)-d_0)/(sp*sqrt((1/n1)+(1/n2)))
t_s

## [1] 2.81839

1-pt(t_s,n1+n2-2)

## [1] 0.005689498

Dado que p-Valor \(<\) \(\alpha\), rechazamos H₀. Es decir, la media de Ciudad Real es mayor que la de Albacete.

4.- Queremos saber si la temperatura media en Ciudad Real es menor o igual a 29.5 grados.

H₀: \(\mu\) \(>\) 29.5
H₁: \(\mu\) \(\leq\) 29.5

bar_x=mean(CiudadB)
d_0=29.5 
t_s=((bar_x-d_0)/(s2/sqrt(n2)))
t_s

## [1] 1.583912

pt(t_s,n2-1)

## [1] 0.9261629

Como p-Valor \(>\) \(\alpha\), las diferencias son debidas al azar, por lo que no podemos concluir que la media de Ciudad Real es menor o igual a 29.5 grados.

8 Contraste no paramétrico

En el manga y anime Vinland Saga, Thorfinn usa dos dagas. Se desea verificar si el aparato de medición de longitud del herrero que las fabrica se encuentra bien calibrado. Para ello, se utilizan dos tipos de aparatos, uno analógico y otro digital, para medir la longitud de las piezas producidas. Se sospecha que uno de los aparatos está dañado y se decide llevar a cabo un experimento en el que se miden las longitudes de 10 piezas utilizando ambos aparatos de medición.

digital <- c(21.7, 23.6, 25.4, 26.9, 22.2, 28.1, 20.8, 29.2, 24.3, 27.5)
analogico <- c(21.8, 23.5, 22.4, 28.2, 26.9, 27.6, 20.5, 23.9, 25.1, 29.8)

Vamos a usar el paquete BSDA, que incluye una función para calcular la prueba de signos: SIGN.test.

1.- ¿Se podría decir que la mediana de los aparatos es 0?

H₀: \(Me\)_analógico \(=\) \(Me\)_digital (\(Me\) = 0)
H₁: \(Me\)_analógico \(\neq\) \(Me\)_digital (\(Me\) \(\neq\) 0)

library(BSDA)
SIGN.test(digital,analogico,md=0,alternative="two.sided", conf.level = 0.95)

## 
##  Dependent-samples Sign-Test
## 
## data:  digital and analogico
## S = 5, p-value = 1
## alternative hypothesis: true median difference is not equal to 0
## 95 percent confidence interval:
##  -1.975556  2.188889
## sample estimates:
## median of x-y 
##             0 
## 
## Achieved and Interpolated Confidence Intervals: 
## 
##                   Conf.Level  L.E.pt U.E.pt
## Lower Achieved CI     0.8906 -1.3000 0.5000
## Interpolated CI       0.9500 -1.9756 2.1889
## Upper Achieved CI     0.9785 -2.3000 3.0000

Como p-Valor \(>\) \(\alpha = 0.05\), no se puede concluir que la mediana sea igual a 0, ya que el p-Valor es mayor que el nivel de significancia deseado.

2.- ¿Existe alguna razón para creer que uno de los aparatos es superior al otro al 97% de confianza?

wilcox.test(digital, analogico, paired = TRUE, alternative = "two.sided", conf.level = 0.97)

## 
##  Wilcoxon signed rank test with continuity correction
## 
## data:  digital and analogico
## V = 26.5, p-value = 0.9593
## alternative hypothesis: true location shift is not equal to 0

Como p-Valor \(>\) \(\alpha = 0.03\), podemos concluir que no hay suficiente evidencia para rechazar la hipótesis nula con un nivel de confianza del 97%

3.- Calcula el valor umbral al 90% de confianza.

alpha = 1-0.9
qwilcox(1-alpha/2,10,10)

## [1] 72

4.- ¿Cuánto son k1 y k2 al 99% de confianza?

Sabemos que \(k1 + k2 = n1 * n2 = 10*10 = 100\)

wilcox.test(digital,analogico, paired = TRUE, alternative = "two.sided", conf.level = 0.99)

## Warning in wilcox.test.default(digital, analogico, paired = TRUE, alternative =
## "two.sided", : cannot compute exact p-value with ties

## 
##  Wilcoxon signed rank test with continuity correction
## 
## data:  digital and analogico
## V = 26.5, p-value = 0.9593
## alternative hypothesis: true location shift is not equal to 0

Con esto podemos sacar \(k1 = 26.5\).
Ahora, \(26.5 + k2 = 100\), luego: \(k2 = 100 - 26.5 \rightarrow k2 = 73.5\)

9 Anova

Queremos comparar cuatro tipos de algoritmo para ordenar un vector.El tiempo para ordenar el vector de cada uno de los algoritmos sigue una distribucion normal. Queremos que sean lo más rápido posible. Se seleccionan aleatoriamente 40 vectores para medir el tiempo en ordenarlos. Los datos son:

Primer<-c(12.24,10.72,12.38,14.30,10.23,11.79,11.63,12.39,9.98,10,24)
Segundo<-c(12.33,12.43,11.41,13.45,10.22,13.01,9.85,10.37,12.99)
Tercer<-c(11.58,14.48,13.26,12.37,10.35,11.79,12.25,9.47,13.20,12.61)
Cuarto<-c(11.31,10.72,12.05,11.76,11.46,11.57,11.35,12.73,9.85)

1.- Queremos estudiar si los cuatro tipos tienen la misma media. Indica el valor del estadístico test.

datos = c(Primer,Segundo,Tercer,Cuarto)

tiempo = factor(c(rep("Tipo1",length(Primer)), rep("Tipo2",length(Segundo)), rep("Tipo3",length(Tercer)), rep("Tipo4",length(Cuarto))))

summary(aov(datos~tiempo))

##             Df Sum Sq Mean Sq F value Pr(>F)
## tiempo       3   8.85   2.950   0.526  0.667
## Residuals   35 196.25   5.607

El valor del estadístico test se encuentra en el campo “value”. Entonces, estadístico test = 0.526

2.- Queremos saber si la media de tiempo del tercer tipo es menor de 11.63.

t.test(Tercer,mu=11.63,alternative="less")

## 
##  One Sample t-test
## 
## data:  Tercer
## t = 1.1039, df = 9, p-value = 0.8509
## alternative hypothesis: true mean is less than 11.63
## 95 percent confidence interval:
##      -Inf 12.97623
## sample estimates:
## mean of x 
##    12.136

Dado p-Valor=0.8509, y no es menor que la media, aceptamos H₀.

3.- Queremos estudiar si los cuatro tipos tienen la misma media. Indica el p-Valor.

Tomando los datos del apartado 1, el p-Valor = 0.667.

4.- Queremos estudiar si los cuatro tipos tienen la misma media.Suma de cuadrados entre grupos. Indica la suma de cuadrados entre grupos.

Tomando los datos del apartado 1, el ssd = 196.25.

Thorfinn, de Vinland Saga

Thorfinn

Trabajos de estadística

Daniel Requena Muñoz, Javier Martínez Nieva y Juan Luis López Martínez.

Trabajo 1: 4 de marzo de 2023.
Trabajo 2: 2 de abril de 2023.
Trabajo 3: 7 de mayo de 2023.

1 Probabilidad

2 Variable aleatoria

3 Distribuciones de probabilidad

4 Probabilidad

5 Distribuciones en el muestreo

6 Inferencia estadística

7 Contraste paramétrico

8 Contraste no paramétrico

9 Anova

Trabajos de estadística

Daniel Requena Muñoz, Javier Martínez Nieva y Juan Luis López Martínez.

Trabajo 1: 4 de marzo de 2023. Trabajo 2: 2 de abril de 2023. Trabajo 3: 7 de mayo de 2023.

1 Probabilidad

2 Variable aleatoria

3 Distribuciones de probabilidad

4 Probabilidad

5 Distribuciones en el muestreo

6 Inferencia estadística

7 Contraste paramétrico

8 Contraste no paramétrico

9 Anova

Trabajo 1: 4 de marzo de 2023.
Trabajo 2: 2 de abril de 2023.
Trabajo 3: 7 de mayo de 2023.