Trabajo 1

Probabilidad

  1. En un hospital, 70% de los pacientes que ingresan son hombres y 30% son mujeres. De los pacientes hombres, el 5% están diagnosticados con diabetes, mientras que el 10% de las mujeres están diagnosticadas con diabetes.
    Del enunciado sacamos estos datos:
    \(P(Hombre)=0.7\)
    \(P(Mujer)=0.3\)
    \(P(Diabetes/Hombre)=0.05\)
    \(P(Diabetes/Mujer)=0.1\)
  1. ¿Cuál es la probabilidad de que un paciente seleccionado al azar tenga diabetes? \(P(diabetes)=P(hombre \cap diabetes)+P(mujer \cap diabetes)\)
    Para tener estos datos despejamos de esta manera:
    \(P(Diabetes/Hombre)= \frac{P(Diabetes \cap Hombre )}{P(Hombre)}\)
    De ahí sacamos \(P(Diabetes \cap Hombre)=0.035\), operamos de la misma manera con la mujer.
    Y obtenemos que \(P(Diabetes)=0.035+0.03=0.065\)

  2. Si un paciente seleccionado al azar tiene diabetes, ¿cuál es la probabilidad de que sea una mujer? \(P(mujer/diabetes)= \frac{P(diabetes/mujer)*P(mujer)}{P(diabetes)}\) Despejamos los datos y nos queda:
    \(P(mujer/diabetes)= \frac{0.1 * 0.3}{0.065} = 0.4615...\)

  3. Si se selecciona al azar un paciente con diabetes, ¿cuál es la probabilidad de que sea un hombre? \(P(hombre/diabetes) = \frac{P(diabetes/hombre)*P(hombre)}{P(diabetes)}\) Despejamos los datos y nos queda:
    \(P(hombre/diabetes) = \frac{(0.05*0.7)}{0.065} = 0.5384...\)

  4. ¿Cuál es la probabilidad de que sea un hombre y no tenga diabetes? \(P(hombre \cap diabetes^c) = P(Hombre) * (1-P(Diabetes))\)
    Despejamos con los datos que tenemos y nos queda:
    \(P(hombre \cap diabetes^c) = 0.7*(1-0.065) = 0.6545\)

Variable aleatoria

Se ha medido la cantidad de tiempo que tardan en ejecutarse diferentes operaciones en un ordenador. Supongamos que la variable aleatoria X representa la cantidad de tiempo (en segundos) que tarda una operación determinada en ejecutarse en dicho ordenador, y que su función de densidad de probabilidad es:

\[\begin{equation}f(x) = \left\{\begin{matrix} \frac{x+1}{30} & \mbox{0 < x < 4} \\ 0 & \mbox {de otro modo}\end{matrix}\right.\end{equation}\]

  1. ¿Cuál es la probabilidad de que la media de tiempo de estas operaciones sea menor a 2 segundos? \(P(x<2)= \int ^2 _0 \frac{x+1}{30} dx = [\frac{1}{30}*(\frac{x^2}{2}+x)]^2 _0 = 2/15 =0.133333...\)

  2. Calcula la media de tiempo de los programas
    \(\int ^4 _0 x*\frac{x+1}{30} dx = [\frac{1}{30}*(\frac{x^3}{3}+\frac{x^2}{2})]^4 _0 =44/45 =0.9777777...\)

  3. Calcula la función de distribución
    \(F(X)=P(X<w)=\int ^w _0 \frac{t+1}{30}dt = [\frac{1}{30}*(\frac{t^2}{2}+t)]^w _0 = [\frac{1}{30}*(\frac{w^2}{2}+w)] - [\frac{1}{30}*(\frac{0^2}{2}+0)] =\)\[\begin{equation}= f(x) = \left\{\begin{array}{ll}0 & \mathrm{si\ } x \le 0 \\\frac{x^2}{60}+\frac{x}{30} & \mathrm{si\ } 0 < x < 4 \\1 & \mathrm{si\ } x \geq 4\end{array}\right.\end{equation}\]

  4. Determina la mediana
    \(P(X<x)\)
    \(F(x)=\frac{x^2}{60}+\frac{x}{30}=0.5;\ mcm(60,30)=60;\ F(x)=x^2+2x=0.5;\ F(x)=x^2+2x-0.5=0\) \(x=\frac{-2\pm\sqrt{2^2+(-4)*1*(-0.5)}}{2*1}=\frac{-2\pm\sqrt6}{2*1}\)
    \(x_1=\frac{-2 + \sqrt{6}}{2*1}=0.2247448714\)
    \(x_2=\frac{-2 - \sqrt{6}}{2*1}=-2.224744871\)
    Como la solución negativa no se encuentra en el intervalo (0, 4), se descarta.

Distribuciones de probabilidad

Supongamos que la cantidad de clientes que llegan a un restaurante por hora sigue una distribución de Poisson con una media de 5 clientes por hora.

  1. ¿Cuál es la probabilidad de que lleguen exactamente 3 clientes en una hora determinada? \(P(X = 3) = (e^-5 * 5^3) / 3! = (0.0067 * 125) / 6 = 0.1403\)

  2. ¿Cuál es la probabilidad de que lleguen al menos 5 clientes en una hora determinada?
    \(P(X ≥ 5) = 1 - P(X \leq 4)\)
    \(P(X ≥ 5) = 1 - ppois(4, 5) = 0.5595\)

  3. Obtén la probabilidad de que: P(x>3/x<5)
    \(P(X>3 / X<5)=\frac{P(3<X<5)}{P(X \le 4)}=\frac{P(X=4)}{P(X \le 4)}=\frac{0,1754}{0,4405} = 0.3983\)

  4. ¿Cuál es el número esperado de clientes que llegarán en una hora?
    El número esperado de clientes que llegarán en una hora es igual a la media de la distribución de Poisson, es decir, λ = 5 clientes.

Trabajo 2

Estadística Descriptiva, Probabilidad y Variable Aleatoria

  1. En el instituto de Motilleja, hemos decidido apuntar las estaturas (en centímetros) de 30 estudiantes que pertenezcan al club de videojuegos llamado Among Users:
    185, 172, 168, 176, 180, 163, 170, 174, 178, 181, 185, 170, 173, 166, 169, 173, 172, 167, 179, 176, 180, 185, 178, 176, 172, 175, 168, 172, 180, 174
    A partir de estos datos, se pide:
  1. Si me apetece elegir al azar un estudiante de este club. ¿Cuál es la probabilidad de que su altura sea mayor o igual a 175 cm?
    \(¿P(X>=175)?\)
    Guardamos los datos en un vector:
    estaturas <- c(185, 172, 168, 176, 180, 163, 170, 174, 178, 181, 185, 170, 173, 166, 169, 173, 172, 167, 179, 176, 180, 185, 178, 176, 172, 175, 168, 172, 180, 174)
    Y ahora calculamos la probabilidad:
    x <- 175
    n <- length(estaturas)
    sum(estaturas >= x) / n
    La probabilidad de que un estudiante seleccionado al azar tenga una altura mayor o igual a 175 cm es de 0.4666667

    OTRA FORMA
    sum(estaturas >= 175) / 30

  2. Ahora queremos calcular el rango, la desviación típica y la varianza de las alturas de estos estudiantes.
    rango <- max(estaturas) - min(estaturas)
    rango = 22

    desviacion_tipica <- sd(estaturas)
    desviacion_tipica = 5.757654

    varianza <- var(estaturas)
    varianza = 33.15057
    El rango es de 22 cm, la desviación estándar es de 5.757654 cm y la varianza es de 33.15057 cm

  3. ¿Cuál es la media, mediana, frecuencia absoluta y frecuencia relativa de las alturas?.
    media <- mean(estaturas)
    media = 174.5667

    mediana <- median(estaturas)
    mediana = 174

    frec_abs <- table(estaturas)
    frec_abs

    frec_relativa <- frec_abs / length(estaturas)
    frec_relativa

    La media es de 174.5667 cm, la mediana es de 174 cm. La frecuencia absoluta es:

estaturas
163 166 167 168 169 170 172 173 174 175 176 178 179 180 181 185 
  1   1   1   2   1   2   4   2   2   1   3   2   1   3   1   3 

y la frecuencia relativa es:

estaturas
163: 0.03333333 
166: 0.03333333 
167: 0.03333333 
168: 0.06666667 
169: 0.03333333 
170: 0.06666667 
172: 0.13333333 
173: 0.06666667 
  1. Y por último, obtén un gráfico de caja y bigotes para las alturas anotadas.
estaturas <- c(185, 172, 168, 176, 180, 163, 170, 174, 178, 181, 185, 170, 173, 166, 169, 173, 172, 167, 179, 176, 180, 185, 178, 176, 172, 175, 168, 172, 180, 174)
boxplot(estaturas, main="Alturas de los estudiantes de Among Users")

Distribuciones de probabilidad

  1. En una fábrica de semiconductores ha llegado un cargamento de nuevos robots. Los anteriores presentaban un funcionamiento que seguía una distribución exponencial con lambda 0.67. Los nuevos, en cambio, tienen un funcionamiento que sigue una distribución de Poisson con lambda 0.81:
  1. Calcula la probabilidad de que al menos 3 robots viejos funcionen.
    \(X \sim Exp(0.67)\)
    \(P(X\geq3) = 1-P(X\leq2) = 1-pexp(2, 0.67) = 0.2618\)

  2. Si analizamos 35 robots antiguos, ¿cuál es la probabilidad de que su media se encuentre en el intervalo 0.45 y 0.70?
    \(\mu = \frac{1}{0.67} = 1.4925\)
    \(\sigma^2 = \frac{1}{0.67^2} = 2.2276\)
    \(\sigma = \sqrt{\sigma^2} = 1.4925\)

    \(\bar{X} \sim N(1.4925,\frac{1.4925}{\sqrt{35}})\)
    \(P(0.45 < \bar{X} < 0.70)=P(\bar{X}<0.70)-P(\bar{X}<0.45)=pnorm(0.70, 1.4925,\frac{1.4925}{\sqrt{35}})-pnorm(0.45, 1.492537,\frac{1.4925}{\sqrt{35}})= 0.000822\)

  3. Calcula la probabilidad de que ningún robot nuevo funcione.
    \(Y \sim PP(0.81)\)
    \(P(Y = 0) = dpois(0, 0.81) = 0.4448\)

  4. Si escogemos al azar 60 pedidos de 30 robots nuevos cada uno, ¿en cuántos la media es superior a 0.90?
    \(\mu = 0.81\)
    \(\sigma^2 = 0.81\)
    \(\sigma = \sqrt{0.81} = 0.9\)

    \(\bar{Y} \sim N(0.81, \frac{0.9}{\sqrt{30}})\)
    \(P(\bar{Y}>0.9) = 1 - P(\bar{Y}\leq0.9) = 1 - pnorm(0.9, 0.81, \frac{0.9}{\sqrt{30}}) = 0.2919\)
    Esto es para un solo pedido. Como se escogen 60, \(60*0.2919 = 17.51647\)

Intervalo de confianza

  1. Dado el siguiente conjunto de datos que representan el tiempo de respuesta de un servidor de una aplicacion web : (22.1,22,22.25,22.41,22.9,23.1,23.5,23.11,23.25,24.5) se desea estimar la proporción del tiempo de respuesta en la versión actual con un intervalo de confianza del 97%.
  1. Asegurándose de que el ancho del intervalo sea menor de 0.3. ¿Cual es el tamaño minimo que debería coger? \(ANCHO=2*Z_{\alpha/2}*\frac{\sqrt{p(1-p)}}{\sqrt{n}}=0.3\)
    \(Z_{\alpha/2}*\frac{\sqrt{p(1-p)}}{\sqrt{n}}=0.15\)
    Despejamos la n
    \(Z_{\alpha/2}*\frac{\sqrt{p(1-p)}}{0.15}=\sqrt{n}\)
    \((Z_{\alpha/2}*\frac{\sqrt{p(1-p)}}{0.15})^2=n\)
    La ecuacion nos queda así
    \((Z_{\alpha/2})^2*\frac{p(1-p)}{0.15^2}=n\)
    Para sacar el valor de Z hacemos esto:
    \(P(Z \leq Z_{\alpha/2})=1-\frac{0.03}{2}=0.985\)
    \(Z_{\alpha/2}=qnorm(0.985)=2.17009\)
    Ya tenemos el valor de Z, por lo que nos queda calcular el maximo de p(1-p)
    \(f(p)=p(1-p) \rightarrow f'(p)=1-2p \rightarrow f''(p)=-2\)
    Calculamos el valor despejando p en la segunda derivada y sustituimos
    \(p(1-p) \rightarrow \frac{1}{2}(1-\frac{1}{2})=\frac{1}{4}\)
    Ahora tenemos todos los datos y sustitumos en la formula inicial
    \(n=qnorm(0.985)^2* \frac{\frac{1}{4}}{0.15^2}=52.3254\)
    Como no podemos coger decimales tomamos el valor de n=53.

  2. ¿Cuál sería el intervalo de confiaza para la media del tiempo?
    Usamos este script para resolver este ejercicio:

x=c(22.1,22,22.25,22.41,22.9,23.1,23.5,23.11,23.25,24.5);
bar_x=mean(x)
s=sd(x);
n=length(x);
alpha=0.03

t_alpha2menos1=qt(1-alpha/2,n-1)
bar_x-t_alpha2menos1*s/sqrt(n);bar_x+t_alpha2menos1*s/sqrt(n)

Como resultado obtenemos (22.29,23.53)

  1. ¿Cuál sería el intervalo de confianza para la desviación típica del tiempo?
    Para este apartado usaremos este script:
x1=c(22.1,22,22.25,22.41,22.9,23.1,23.5,23.11,23.25,24.5);


alpha=0.03
s=sd(x1)
n=length(x1)


sqrt(((n-1)*s^2)/qchisq(1-alpha/2,n-1));sqrt(((n-1)*s^2)/qchisq(alpha/2,n-1))

Como resultado obtenemos (0.5053, 1.4977)

  1. ¿La varianza puede ser de 0.3 con probabilidad del 97%?
    Con este script miramos el intervalo de la varianza
x1=c(22.1,22,22.25,22.41,22.9,23.1,23.5,23.11,23.25,24.5);


alpha=0.03
s=sd(x1)
n=length(x1)


((n-1)*s^2)/qchisq(1-alpha/2,n-1);((n-1)*s^2)/qchisq(alpha/2,n-1)

Como resultado obtenemos: (0.2553,2.2432)
La respuesta es que si, puesto que el 0.3 se encuentra en el intervalo que acabamos de hallar de la varianza.

Trabajo 3

Contraste paramétrico

En el último juego de Dr. Mario se ha añadido un minijuego de crear medicamentos a través de champiñones. El problema es que este minijuego tiene una tasa de acierto que sigue una normal de media 2.42 y desviación típica 0.2 entre el público infantil debido a su complejidad. Si se han escogido a 200 jugadores al azar, se pide:
a) Calcular el intervalo de confianza bilateral del 90%.
Para calcular z_alpha2, usamos el siguiente script.

alpha=0.1
z_alpha2=qnorm(1-alpha/2)

Esto da como resultado 1.6449.
Una vez calculado z_alpha2, calculamos el intervalo de confianza bilateral mediante este script:

  bar_x=2.42
  sigma=0.2
  n=200
  alpha=0.1
  
  z_alpha2=qnorm(1-alpha/2)
  
  bar_x-z_alpha2*sigma/sqrt(n)
  bar_x+z_alpha2*sigma/sqrt(n)

Fórmula en la que nos basamos:

El intervalo es el siguiente: (2.3967, 2.4433).
b) Calcular el intervalo de confianza bilateral del 95%. Compara el ancho de este intervalo con el obtenido en el apartado a).
El nuevo valor de Z_alpha2 es 1.96.
El intervalo ahora es (2.3923, 2.4477).
Como se puede observar, si aumenta el nivel de confianza, el intervalo también aumenta.

Se ha vendido una expansión que añade al Dr. Luigi en el mismo minijuego, haciendo que la tasa de acierto tenga ahora una media de 15.87 y una desviación típica de 0.1. De momento, esta expansión ha sido comprada por 35 personas. Se pide:
c) Calcular el intervalo de confianza unilateral del 90%.
Para calcular z_alpha se usa el siguiente script:

alpha=0.1
z_alpha=qnorm(1-alpha)

Esto da como resultado 1.2816.
Para calcular el valor unilateral, se emplea el siguiente script:


  bar_x=15.87
  sigma=0.1
  n=35
  alpha=0.1
  
  z_alpha=qnorm(1-alpha)
  
  bar_x-z_alpha*sigma/sqrt(n)

Fórmula en la que nos basamos:

Este comando devuelve el valor mínimo del intervalo, siendo este 15.8483.
d) En dicha actualización, Mario y Luigi tienen un minijuego en conjunto que consiste en crear un champiñón llamado “Yomi” que permite devolver a la vida al jugador en menos de 2 minutos. Se pide comprobar que esto es cierto para ambos con α=0.05.
Definimos dos hipótesis:
\(H_0: \mu_M \geq 2\)

\(H_1: \mu_M < 2\)

Empleamos los datos de Mario para calcular z_s y el p_valor bilateral:

  bar_x=2.42
  sigma=0.2
  n=200
  alpha=0.05
  nu_0=2
  
  z_s=(bar_x-nu_0)/(sigma/sqrt(n))
  2*(1-pnorm(abs(z_s)))

Fórmula en la que nos basamos:

Como el p_valor es 0 y 0<0.05, rechazamos \(H_0\) y cogemos \(H_1\), es decir, tarda menos de 2 minutos.

Para el caso de Luigi, repetimos lo mismo:
Definimos dos hipótesis:
\(H_0: \mu_L \geq 2\)

\(H_1: \mu_L < 2\)

Empleamos los datos de Luigi para calcular z_s y el p_valor bilateral:

  bar_x=15.87
  sigma=0.1
  n=35
  alpha=0.05
  nu_0=2
  
  z_s=(bar_x-nu_0)/(sigma/sqrt(n))
  2*(1-pnorm(abs(z_s)))

Fórmula en la que nos basamos:

Como el p_valor es 0 y 0<0.05, rechazamos \(H_0\) y cogemos \(H_1\), es decir, tarda menos de 2 minutos.
Al elegirse en ambos casos \(H_1\) y rechazarse \(H_0\), se puede decir que la afirmación es cierta. 

Contraste no paramétrico

Bowser, tras su último enfrentamiento contra Mario ha decidido crear nuevos aliados llamados Robo-Koopas, pero no está seguro de cual es mejor, pues ha creado dos prototipos, Robo-Koopa-A y Robo-Koopa-B. Por lo que decide probarlos en combate contra 500 enemigos de los 7 reinos (El Reino Champiñón, El Reino de Hielo, El Reino del Desierto, El Reino de las Nubes, El Reino de los Caramelos, El Reino de los Dinosaurios y El Reino de las Flores). A continuación, se presenta un conjunto de datos que muestra los tiempos de derrota (en segundos) para vencer a 500 enemigos agrupados en los 7 reinos diferentes del juego de Mario Bros, utilizando Robo-Koopa-A y Robo-Koopa-B

Reino Robo-Koopa-A Robo-Koopa-B
1 9.25 6.75
2 11.25 8.25
3 10.50 9.75
4 12.50 7.25
5 7.75 10.25
6 8.25 9.50
7 6.75 8.50

a)¿Cuál es la hipótesis nula y la hipótesis alternativa en este caso?
\(H_0: \hat{\mu_a}=\hat{\mu_b}\)
\(H_1: \hat{\mu_a}\neq \hat{\mu_b}\)

b)Calcula el p_valor
Usaremos este codigo para resolver el problema:

Robo_Koopa_A=c(9.25, 11.25, 10.5, 12.5, 7.75, 8.25, 6.75)
Robo_Koopa_B=c(6.75, 8.25, 9.75, 7.25, 10.25, 9.5, 8.5)

wilcox.test(Robo_Koopa_A,Robo_Koopa_B)

El p_Valor es: 0.522

c)¿Cuál es el valor del estadístico de prueba en este análisis, y cómo se relaciona con la decisión de aceptar o rechazar la hipótesis nula?

El estadistico test es: 30 y se saca de wilcox.test. Calculamos el umbral:

qwilcox(1-(alpha/2),7,7)

Que nos da 40 Dado que el valor del estadisitico es menor que el valor del umbral no rechazamos H0

d)Si se rechaza la hipótesis nula, ¿qué conclusiones se pueden extraer sobre la eficacia de los Robo-Koopas?. ¿Podemos decir que el Robo-Koopa-A es mejor que el Robo-Koopa-B?.

Si sucediera eso significaria que los Robo-Koopas no tienen tiempos similares a la hora de matar enemigos o lo que es lo mismo, que habría evidencia estadística de que los tiempos son diferentes.

No, puesto que son muestras distintas y no podríamos decir tal cosa. Podemos decir que un Robo-Koopa tarda menos en matar enemigos que otro, pero no que uno es mas eficaz que otro. Para poder compararlos los enemigos tendrían que ser del mismo reino y que sean iguales para poder medir bien.

Análisis de la Varianza

  1. En el hospital de Albacete, se ha querido hacer un estudio médico para analizar si hay diferencias en la efectividad de tres tratamientos diferentes (Tratamiento A, Tratamiento B y Tratamiento C) en la reducción de los niveles de colesterol que se producen en la sangre. El doctor buscó a 60 pacientes y se les asignaron aleatoriamente uno de estos tres grupos de tratamiento. Después de un mes de tratamiento, se midieron los niveles de colesterol de cada paciente y se registraron los datos de todos ellos.

    Los niveles de colesterol en la sangre siguen una distribución normal con media de 200 y desviación estándar de 30 para el Tratamiento A, media de 180 y desviación estándar de 25 para el Tratamiento B y media de 160 y desviación estándar de 20 para el Tratamiento C. Dicho todo esto, se pide lo siguiente:

  1. Construir un intervalo del 95 % para la estimación de la media del colesterol de tipo A.

  2. Construir un intervalo del 99 % para la estimación de la diferencia de las medias entre los tratamientos A y C.

  3. ¿Cuál sería la distribución de los niveles de colesterol en la sangre?

  4. ¿Hay diferencias significativas en los niveles de colesterol en la sangre entre los tres tratamientos?

set.seed(123) #Fijamos una semilla para replicabilidad

n <- 60 #El número de pacientes que el doctor ha elegido

tratamientos <- rep(c("A", "B", "C"), each = n/3) #Asignamos un tratamiento a cada paciente albaceteño

colesterol <- c(rnorm(n, mean = 200, sd = 30), rnorm(n, mean = 180, sd = 25), rnorm(n, mean = 160, sd = 20)) #Generamos los datos del colesterol

datos <- data.frame(tratamientos, colesterol) #Creamos una variable "datos" que contenga los datos anteriores
  1. Construir un intervalo del 95 % para la estimación de la media del colesterol de tipo A.

datosA <- subset(datos, tratamientos == "A") #Seleccionamos solo datos del tratamiento A

t.test(datosA$colesterol, conf.level = 0.95) #Realizamos el t-test con un intervalo de confianza del 95% 

La salida sería:

One Sample t-test

data:  datosA$colesterol
t = 44.922, df = 59, p-value < 2.2e-16
alternative hypothesis: true mean is not equal to 0
95 percent confidence interval:
172.1362 188.1864
sample estimates:
mean of x 
180.1613 
  1. Construir un intervalo del 99 % para la estimación de la diferencia de las medias entre los tratamientos A y C.
datosAC <- subset(datos, tratamientos %in% c("A", "C")) #Seleccionamos solo datos de los tratamientos A y C
t.test(datosAC$colesterol ~ datosAC$tratamientos, paired = TRUE, conf.level = 0.99) #Realizamos el t-test con un intervalo de confianza del 99%

La salida sería:

Paired t-test

data:  datosAC$colesterol by datosAC$tratamientos
t = 0.21666, df = 59, p-value = 0.8292
alternative hypothesis: true mean difference is not equal to 0
99 percent confidence interval:
 -11.04434  13.00165
sample estimates:
mean difference 
      0.9786539 
  1. ¿Cuál sería la distribución de los niveles de colesterol en la sangre?
summary(datos$colesterol)

Y la salida sería:

  Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  118.9   160.7   177.3   180.3   198.8   265.1
  1. ¿Hay diferencias significativas en los niveles de colesterol en la sangre entre los tres tratamientos?
# Realizamos primero el análisis de varianza
modelo_anova <- aov(colesterol ~ tratamientos, data = datos)

# Calculamos las diferencias significativas en los niveles de colesterol:
summary(modelo_anova)

 Df Sum Sq Mean Sq F value Pr(>F)
tratamientos   2    156    78.1   0.091  0.913
Residuals    177 152581   862.0