Índice


Enlace al vídeo: Click aquí

  1. Probabilidad

En un estudio realizado en la universidad de Massachusetts sobre el uso de las redes sociales en un grupo de jóvenes, se observa que una persona elegida al azar ha utilizado Instagram o TikTok con una probabilidad del 85%. Además, se sabe que la probabilidad de que haya utilizado TikTok sabiendo que utiliza Instagram es del 30%. Por último, la probabilidad de que no haya utilizado Instagram es del 20%.

Tenemos: \(P(I \cup T)=0.85\), \(P(T / I)=0.3\) y \(P(I^c)=0.2\).

  1. Calcula la probabilidad de que una persona haya utilizado ambas aplicaciones.

\(P(I \cap T)\), sabiendo que \(P(T / I) = \frac {P(T \cap I)} {P(I)}\), \(P(I \cap T) = P(T / I) * P(I)\)
\(P(I) = 1 - P(I^c) = 1 - 0.2 = 0.8\)
\(P(I \cap T) = 0.3 * 0.8 = 0.24\)

  1. ¿Cuál es la probabilidad de que una persona haya utilizado TikTok?

\(P(T)\), sabiendo que \(P(I \cup T) = P(I) + P(T) - P(I \cap T)\)
\(P(T) = P(I \cup T) - P(I) + P(I \cap T) = 0.85 - 0.8 + 0.24 = 0.29\)

  1. ¿Cuál es la probabilidad de que alguien haya utilizado TikTok pero no Instagram?

\(P(T \cap I^c)\), sabiendo que \(P(T) = P(T \cap I) + P(T \cap I^c)\)
\(P(T \cap I^c) = P(T) - P(T \cap I) = 0.29 - 0.24 = 0.05\)

  1. Probabilidad de que alguien no utilice TikTok sabiendo que utiliza Instagram.

\(P(T^c / I) = \frac {P(T^c \cap I)} {P(I)}\), o aplicando la regla del complementario: \(P(T^c / I) = 1 - P(T / I) = 1 - 0.3 = 0.7\)


  1. Variable aleatoria (continua)

Sea \(X\) la duración de la batería de un teléfono móvil en condiciones óptimas, la cual sigue una distribución modificada. Se sabe que la duración está entre 20 y 30 horas. La función de densidad de probabilidad \(f(x)\) viene dada por:

\[ f(x) = \begin{cases} \frac{x - 20}{52} & \text{para } 20 < x < 30 \\ 0 & \text{en otro caso} \end{cases} \]

  1. Calcula la esperanza matemática de la duración de las baterías.

La esperanza matemática (media) de la duración de las baterías se calcula mediante la integración de la función de densidad de probabilidad multiplicada por la variable sobre la cual se integra. Para la función dada \(f(x) = \frac{x - 20}{52}\) en el intervalo \(20 < x < 30\), procedemos de la siguiente manera:

Primero, establecemos la integral de la esperanza matemática:

\[ E[X] = \int_{20}^{30} x f(x) \, dx \]

-Para calcular esta integral directamente en R, podemos usar el siguiente comando:

# Guardamos el valor de la media en una variable para más adelante
mean_duration <- integrate(function(x) x * ((x - 20) / 52), lower = 20, upper = 30)$value
mean_duration
## [1] 25.64103

Si queremos seguir con el desarrollo, sustituimos \(f(x)\) por su función y multiplicamos por x:

\[ E[X] = \int_{20}^{30} \frac{x(x - 20)}{52} \, dx \]

\[ E[X] = \int_{20}^{30} \frac{x^2 - 20x}{52} \, dx \]

La integral se nos queda de esta forma con sus respectivas cotas.

\[ E[X] = \left[ \frac{x^3}{156} - \frac{10x^2}{52} \right]_{20}^{30} = \left( \frac{30^3}{156} - \frac{10*30^2}{52} \right) - \left( \frac{20^3}{156} - \frac{10*20^2}{52} \right) = 0 - (-25.64103) = 25.64103\]

  1. Encuentra la varianza de la duración de las baterías.

La varianza mide cuánto se dispersan los valores alrededor de la media. Para una variable aleatoria continua con función de densidad \(f(x)\), la varianza se calcula como:

\[ \text{Var}(X) = E\left[(X - E[X])^2\right] = \int_{-\infty}^{\infty} (x - \mu)^2 f(x) \, dx \]

Donde \(\mu\) es la esperanza matemática que calculamos previamente.

En nuestro caso con \(f(x) = \frac{x - 20}{52}\), la varianza se calcula integrando \((x - \mu)^2\) multiplicado por \(f(x)\) en el intervalo \(20 < x < 30\):

\[ \text{Var}(X) = \int_{20}^{30} (x - \mu)^2 \frac{x - 20}{52} \, dx = \int_{20}^{30} x^2 \frac{x - 20}{52} \, dx - \mu^2 \]

Para calcular esta integral en R, primero necesitamos el valor de la media \(\mu\) que calculamos en el primer apartado.

# Usamos la media que calculamos previamente
mu <- mean_duration

# Definimos la función para la varianza
var_func <- function(x) { (x - mu)^2 * ((x - 20) / 52) }

# Realizamos la integral para la varianza
varianza <- integrate(var_func, lower = 20, upper = 30)$value
varianza
## [1] 6.353361
  1. Determina la función de distribución \(F(x)\).

Para un valor x en el intervalo [20, 30], la función de distribución acumulada se obtiene integrando la función de densidad de probabilidad desde el punto más bajo del intervalo hasta x:

\[ F(x) = \int_{20}^{x} \frac{t - 20}{52} \, dt \] El proceso para realizar la integración es el siguiente:

· Encontrar la función antiderivada de f(t): \[ F(t) = \int \frac{t - 20}{52} \, dt \] · Aplicar el Teorema Fundamental del Cálculo para evaluar la integral definida: \[ F(x) = \left[ \frac{t^2}{104} - \frac{20t}{52} \right]_{20}^{x} \] · Sustituir el límite superior x y el límite inferior 20 en la antiderivada y restar: \[ F(x) = \left( \frac{x^2}{104} - \frac{20x}{52} \right) - \left( \frac{20^2}{104} - \frac{20 \cdot 20}{52} \right) = \left( \frac{x^2}{104} - \frac{20x}{52} \right) - \left( -\frac {50} {13} \right) \Rightarrow \] \[ \Rightarrow F(x) = \begin{cases} 0 & \text{si x $\leq$ 20} \\ \frac{x^2-40x+400}{104} & \text{para } 20 < x < 30 \\ 1 & \text{si x $\geq$ 30} \end{cases} \]

  1. Halla el tiempo de duración que se supera con una probabilidad del 75%.

La función de distribución acumulativa \(F(x)\) se obtiene integrando la función de densidad de probabilidad \(f(x)\) desde el límite inferior de la distribución hasta \(x\). Para encontrar el valor correspondiente al 75% de la distribución, buscamos \(x\) tal que \(F(x) = 0.75\).

Primero, calculamos la función de distribución (la calculamos en el apartado anterior): \[ F(x) = \int_{20}^{x} f(t) \, dt \]

Luego, resolvemos para \(x\): \[ F(x) = 0.75 \Rightarrow \frac {x^2-40x+400} {104} = 0.75 \]

Lo calculamos en R:

# Definimos la función de densidad de probabilidad
f_x <- function(x) { ifelse(x > 20 & x < 30, (x - 20)/52, 0) }

# Calculamos la función de distribución acumulativa para un rango de valores
F_x <- Vectorize(function(t) {
  integrate(f_x, 20, t)$value
})

# Buscamos el valor que corresponde al 75% de la distribución
percentil_75 <- uniroot(function(x) F_x(x) - 0.75, c(20, 30))$root
percentil_75
## [1] 28.83176

  1. Distribuciones de probabilidad (de Poisson)

En la reconocida marca de automóviles de lujo McLaren, los fallos mecánicos producidos en sus coches siguen una distribución de Poisson con un promedio de 1.28 fallos por año. Planteemos un escenario en el que se desee determinar la probabilidad de que durante un año determinado, un vehículo McLaren experimente un cierto número de fallos mecánicos, lo que nos permitirá comprender mejor la variabilidad en la calidad de sus productos y su impacto en la satisfacción del cliente.

Por seguir una distribución de Poisson sabemos que: Media = Varianza = \(\lambda\) = 1.28, X ~ PP(1.28)

  1. Calcula la probabilidad de que un vehículo haya sufrido dos fallos en tres años.

Utilizando la distribución de Poisson y la fórmula proporcionada:

\[ p(x) = \frac{e^{-\lambda} \lambda^x}{x!} \]

donde \(x\) es el número de fallos, y \(\lambda\) es la tasa promedio de fallos por intervalo, calcularemos la probabilidad de que un vehículo haya sufrido exactamente dos fallos en tres años. La tasa \(\lambda\) se ajusta a los tres años multiplicándola por 3.

La probabilidad buscada es entonces:

\[ p(2) = \frac{e^{-\lambda_{trienio}} \lambda_{trienio}^2}{2!} \]

Y para realizar el cálculo en R, usarías los siguientes comandos:

lambda_anual <- 1.28
lambda_trienio <- lambda_anual * 3
x <- 2
probabilidad_dos_fallos <- dpois(x, lambda_trienio)
probabilidad_dos_fallos
## [1] 0.158468
  1. Obtén la probabilidad de que haya sufrido más de tres fallos en un año.

Para calcular la probabilidad de que un vehículo de McLaren sufra más de tres fallos mecánicos en un año, aplicaremos la distribución de Poisson. Dado que la función de masa de probabilidad de Poisson para un número de fallos \(x\) es \(P(X=x) = \frac{e^{-\lambda} \lambda^x}{x!}\), la probabilidad de tener más de tres fallos es el complemento de la suma de las probabilidades de tener 0, 1, 2, o 3 fallos.

\[ P(X > 3) = 1 - (P(X=0) + P(X=1) + P(X=2) + P(X=3)) \]

\[ P(X > 3) = 1 - \sum_{x=0}^{3} \frac{e^{-\lambda} \lambda^x}{x!} \]

Y para realizar el cálculo en R, usaríamos los siguientes comandos:

lambda_anual <- 1.28
k <- 3
probabilidad_mas_tres_fallos <- 1 - ppois(k, lambda_anual)
probabilidad_mas_tres_fallos
## [1] 0.04112572
  1. Evalúa el percentil 80 del número de fallos por año.

El percentil 80 representa el valor por debajo del cual caen el 80% de las observaciones.

Para evaluar el percentil 80 del número de fallos por año con una distribución de Poisson, buscamos el valor \(x\) tal que un 80% de las observaciones sean iguales o menores que \(x\). Utilizamos la función qpois para calcular el cuantil deseado.

\[ P(X \leq x) = F(x) \geq 0.8 \]

El valor \(x\) que cumple con esta condición es el percentil 80 y se calcula como sigue:

lambda_anual <- 1.28
octavo_percentil <- qpois(0.8, lambda_anual)
octavo_percentil
## [1] 2
  1. Si sabemos que un vehículo de McLaren ha sufrido al menos 2 fallos, ¿cuál es la probabilidad de que haya sufrido menos de 4?

Para calcular la probabilidad condicional de que un vehículo haya sufrido menos de 4 fallos en un año dado que ya ha sufrido al menos 2 fallos, necesitamos considerar la suma de las probabilidades individuales de tener exactamente 2 y 3 fallos y la probabilidad de tener al menos 2 fallos.

\[ P(2 \leq X < 4) = P(X=2) + P(X=3) \]

\[ P(X \geq 2) = 1 - P(X < 2) = 1 - (P(X=0) + P(X=1)) \]

La probabilidad condicional se calcula entonces como:

\[ P(X < 4|X \geq 2) = \frac{P(2 \leq X < 4)}{P(X \geq 2)} \]

En R, podemos calcular esto con los siguientes comandos:

lambda_anual <- 1.28
probabilidad_X_menos_4 <- ppois(3, lambda_anual)
probabilidad_X_al_menos_2 <- 1 - ppois(1, lambda_anual)
probabilidad_condicional <- (probabilidad_X_menos_4 - probabilidad_X_al_menos_2) / (1 - probabilidad_X_al_menos_2)
probabilidad_condicional
## [1] 0.9351253

  1. Variable aleatoria (2)

Sabemos que el sueldo por hora de un controlador aéreo se puede modelar con una variable aleatoria con función de densidad (k es una cte.): \[ f(x) = \begin{cases} kx^2 & \text{para } 15 < x < 20 \\ 0 & \text{en otro caso} \end{cases} \]

  1. Calcula el valor de k para que sea función de densidad.

Para ello calcularemos la integral de \(f(x)\) entre 15 y 20, y la igualaremos a 1: \[ \int_{15}^{20} kx^2 \, dx = 1 \rightarrow \left[ \frac{kx^3}{3} \right]_{15}^{20} = 1 \rightarrow \left( \frac{k · 20^3}{3} \right) - \left( \frac{k · 15^3}{3} \right) = 1 \rightarrow k · \frac{4625}{3} = 1 \rightarrow k = 0.000648\]

  1. Calcula la probabilidad de que el sueldo por hora sea menor de 18€.

Para calcular esta probabilidad calculamos la integral entre 15 y 18 de \(f(x)\), teniendo ya en cuenta el valor de k previamente calculado: \[ \int_{15}^{18} 0.000648x^2 \, dx \] Para calcular esta integral en R utilizamos los siguientes comandos:

f <- function(x)(0.000648*x^2)
prob_sueldo_18 <- integrate(f, lower=15, upper=18)$value
prob_sueldo_18
## [1] 0.530712
  1. Calcula la probabilidad de que el sueldo por hora sea mayor de 25€.

Para calcular estaprobabilidad debemos calcular lo siguiente: \[ \int_{25}^{+\infty} 0.000648x^2 \, dx \] Sabemos que \(f(x)\) vale \(0.000648x^2\) para \(x\) entre 15 y 20, y 0 en cualquier otro caso, es decir: \[ \int_{-\infty}^{+\infty} 0.000648x^2 \, dx = \int_{-\infty}^{15} 0.000648x^2 \, dx + \int_{15}^{20} 0.000648x^2 \, dx + \int_{20}^{+\infty} 0.000648x^2 \, dx = 0 + \int_{15}^{20} 0.000648x^2 \, dx + 0 = 1 \] Por lo tanto, la probabilidad de que el sueldo sea mayor de 25€ la hora es 0.

  1. Si tomamos 15 sueldos, ¿cuál es la probabilidad de que 4 de ellos tengan un sueldo por hora menor de 18€?

Tomamos X = número de sueldos menores de 18€ la hora, X ~ Bi(15, 0.530712).
Podemos calcular P(X = 4) de la siguiente forma con R:

prob_4_sueldo_18 <- pbinom(4, 15, prob_sueldo_18)
prob_4_sueldo_18
## [1] 0.03588238

  1. Contraste de hipótesis

La empresa aeroespacial SpaceX quiere saber si el tiempo de vida estimado de sus satélites Starlink es de 36 meses, tal y como han sido certificados. Para saber si la certificación en la Tierra es acorde a las duras condiciones del espacio, encarga a una empresa independiente un análisis. De los 5.442 satélites en órbita, la empresa hace un estudio de 500 de ellos, mediante tecnologías de radar y análisis Doppler, para conocer su tiempo de vida (desde que son lanzados hasta que reentran a la atmósfera). En los resultados del análisis se concluye con que la media de vida útil es de 37,5 meses, con una desviación de 1,7 meses.

  1. ¿Es acorde la certificación?


Para empezar, analizaremos los datos del enunciado, definiendo hipótesis y datos relevantes para el test.

Hipótesis nula (\(H_0\)): El tiempo de vida de los Starlink es de 36 meses \((\mu=36)\), y por lo tanto, la certificación es válida.
Hipótesis alternativa (\(H_1\)): El tiempo de vida de los Starlink NO es de 36 meses \((\mu\neq36)\), y por lo tanto, la certificación podría NO ser válida.
Tamaño de la muestra (\(n\)): 500
Media de la muestra (\(\bar{x}\)): 37,5
Desviación estándar (\(s\)): 1,7

Estableceremos \(\alpha\) en 0.05.

Ya que se nos da la desviación estándar de la muestra (\(s\)) y no la desviación estándar poblacional (\(\sigma\)), deberemos calcular \(t_s\), mediante la fórmula \[ t_s =\frac{\bar{x}-\mu_0}{\sigma/\sqrt{n}} \]

Lo haríamos así en R:

n <- 500
x_barra <- 37.5
s <- 1.7
mu <- 36
ts <- (x_barra - mu) / (s / sqrt(n))
ts
## [1] 19.73001

Con el valor calculado, calcularemos el p-valor, también en R:

2*(1-pt(ts,n-1))
## [1] 0

Siendo \(ts\) el valor calculado con anterioridad y \(n-1\) el grado de libertad (\(gl = n-1 = 499\)).

Podemos observar algo extraño: que el p-valor es 0. Esto ocurre, realmente, porque el resultado obtenido es tan cercano a 0 que R lo redondea.

Por ende, observando un p-valor tan bajo, más bajo que \(\alpha\), podemos decir que la hipótesis nula puede ser rechazada con un nivel de confianza muy alto. Esto indica que la vida útil promedio real de los satélites en el espacio es diferente de la vida útil estimada para la que fueron certificados en la Tierra.

Como la media muestral es mayor que la media poblacional bajo la hipótesis nula, podemos decir que los satélites tienen, en promedio, una vida útil más larga de lo esperado.

Dato curioso: Aunque los datos de este ejercicio son ficticios, esto tiende a suceder en la vida real. La gran mayoría de sondas y satélites tienden a superar con creces su tiempo de vida estimado. La intención del enunciado era “aplicarlo a algo real”. Por ejemplo, se estimaba que el helicóptero marciano Ingenuity volaría 5 veces en Marte, y ha terminado volando 62 veces. El rover Opportunity tenía una estimación de vida de 90 soles (días marcianos, equivalente a 92,5 días terrestres) y terminó funcionando durante más de 14 años.

  1. Para adaptarse a los nuevos requisitos impuestos a los operadores de satélites y para evitar incrementar la cantidad de basura espacial, la empresa tiene como objetivo que la desviación estándar (poblacional) de la vida útil de sus satélites no supere los 2 meses. ¿Hay evidencia suficiente de que esta desviación no es la esperada?

Para empezar, definiremos nuestras hipótesis. El resto de datos ya han sido identificados en el apartado anterior.

Hipótesis nula (\(H_0\)): La desviación estándar de la vida útil de los satélites es de 2 meses \((\sigma=2)\).
Hipótesis alternativa (\(H_1\)): La desviación estándar de la vida útil de los satélites no es de 2 meses \((\sigma\neq2)\).

Estableceremos \(\alpha\) en 0.05, al igual que en el ejercicio anterior.

Para probar la hipótesis, utilizaremos el test \(\chi^2\) para la varianza, dado por la fórmula: \[ \chi^2 = \frac{(n-1)s^2}{\sigma_0^2} \] Así, la calcularemos en R:

n <- 500
s <- 1.7
sigma_0 <- 2  #Desviación de la hipótesis nula

chi_2 <- ((n - 1) * s^2)/(sigma_0^2)
chi_2
## [1] 360.5275

Para calcular el p-valor, al no ser simétrica, debemos ver si el estadístico test está por encima o por debajo de la mediana de la \(\chi^2\), que es \(s-(2/3)\), y siendo \(s=n-1\),

mediana=n-1-(2/3)
mediana
## [1] 498.3333

Como el estadístico test es menor que la mediana,

pvalor=2*(pchisq(chi_2, n-1))
pvalor
## [1] 1.24198e-06

Obtenemos un p-valor mucho menor que \(\alpha\), llegando a la conclusión de que existe evidencia suficiente para rechazar la hipótesis nula, podiendo así decir que la variabilidad en la vida útil de los satélites difiere de los 2 meses esperados.

  1. Durante el lanzamiento, hay ciertos satélites que no soportan el sonido y las vibraciones causados por el mismo, y quedan parcialmente operativos al llegar a órbita. Estos satélites tienen que ser descartados y sacados de órbita. Con las mediciones que se han realizado en una cámara de pruebas, un software obtiene que la proporción de fallos es de 0.2 (sobre 1). Tomando una muestra de 60 satélites, que se corresponden a un lanzamiento, quedan operativos 50 de ellos. ¿Qué podríamos decir?

Una vez, definiremos nuestras hipótesis:

Hipótesis nula (\(H_0\)): La proporción de fallos es cierta (o se aproxima a la realidad) \((\mu=0.2)\).
Hipótesis alternativa (\(H_1\)): La proporción de fallos no es cierta (no se aproxima a la realidad) \((\mu\neq0.2)\).
50 satélites funcionan correctamente.
10 satélites no sobreviven al lanzamiento.

Estableceremos \(\alpha\) en 0.05.
Como podemos observar, estamos ante un ejercicio de proporción, y por ello podemos recurrir a un test de proporción en R:

prop.test(10,60,p=0.2)
## 
##  1-sample proportions test with continuity correction
## 
## data:  10 out of 60, null probability 0.2
## X-squared = 0.23438, df = 1, p-value = 0.6283
## alternative hypothesis: true p is not equal to 0.2
## 95 percent confidence interval:
##  0.08701498 0.28979105
## sample estimates:
##         p 
## 0.1666667
prop.test(10,60,p=0.2)$p.value #manera alternativa de conocer el p-valor
## [1] 0.6282986

Con el p-valor obtenido, podemos decir que no existe evidencia estadística en contra de \(H_0\), y que los datos apoyan la afirmación de que la proporción de satélites defectuosos sobre lanzados es de 0.2.

  1. Se han tomado una muestra de 10 satélites Starlink V1 y otra de 10 satélites Starlink V2. A la hora de la certificación, se estimaba que debido a la similitud en componentes electrónicos de los satélites, ya que éstos sólo habían sido modificados para no reflejar la luz, la varianza del tiempo de vida medio sería prácticamente igual. ¿Qué podemos decir, teniendo en cuenta los resultados de las muestras? starlink_v1=c(36.11, 35.53, 35.20, 39.09, 36.17, 38.63, 34.03, 35.50, 33.19, 38.88)
    starlink_v2=c(34.03, 38.94, 34.01, 35.81, 30.24, 35.50, 36.02, 32.16, 35.42, 35.30)

Como siempre, definiremos nuestras hipótesis, así como identificaremos otros valores relevantes:

Hipótesis nula (\(H_0\)): La varianza en la vida útil de los Starlink V1 es igual o se acerca a la de los V2 \((s_{v1}=s_{v2})\).
Hipótesis alternativa (\(H_1\)): La varianza en la vida útil de los Starlink V1 es distinta a la de los V2 \((s_{v1}\neq s_{v2})\).
Estableceremos \(\alpha\) en 0.05.
Claramente, estamos ante un ejercicio de varianza, y podemos usar la función var.test de R para conocer los resultados buscados:

starlink_v1=c(36.11, 35.53, 35.20, 39.09, 36.17, 38.63, 34.03, 35.50, 33.19, 38.88)
starlink_v2=c(34.03, 38.94, 34.01, 35.81, 30.24, 35.50, 36.02, 32.16, 35.42, 35.30)
var.test(starlink_v1,starlink_v2)
## 
##  F test to compare two variances
## 
## data:  starlink_v1 and starlink_v2
## F = 0.74709, num df = 9, denom df = 9, p-value = 0.6711
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
##  0.1855663 3.0077750
## sample estimates:
## ratio of variances 
##          0.7470888
var.test(starlink_v1,starlink_v2)$p.value #manera alternativa de conocer el p-valor
## [1] 0.6710763

Con el p-valor obtenido, podemos decir que no existe evidencia estadística en contra de \(H_0\), y que los datos apoyan la afirmación de que los valores de la varianza son cercanos para las dos versiones de los satélites.


  1. Contraste de hipótesis (2)

En el mundo post-apocalíptico de “The Walking Dead”, hemos recopilado datos de 30 enfrentamientos (es decir, n1 = 30 y n2 = 30) liderados por Negan y otros 30 por Rick Grimes. Para Negan, la media de eliminaciones por enfrentamiento es de \(\bar{x_1}\) = 22 con una desviación típica de \({s_1}\) = 5, mientras que para Rick, la media es de \(\bar{x_2}\) = 19 con una desviacion típica de \({s_2}\) = 6. Se asume que la distribución de las eliminaciones por enfrentamiento sigue una distribucion normal.

- \(H_0\): No existe una diferencia significativa en el promedio de adversarios eliminados por Negan y Rick Grimes (\(\mu_{\text{Negan}} = \mu_{\text{Rick}}\)).

- \(H_1\): Existe una diferencia significativa en el promedio de adversarios eliminados por Negan y Rick Grimes (\(\mu_{\text{Negan}} \neq \mu_{\text{Rick}}\)).

El nivel de significancia \(\alpha\) establecido es de 0.05.

Lo primero de todo es que podemos comprobar que como los valores de las variables no estan relacionadas con el mismo sujeto, sabemos que las poblaciones son independientes.

Se pide

  1. ¿Existe una diferencia estadísticamente significativa en el promedio de adversarios eliminados por Negan y Rick Grimes?

Para saber si existe una diferencia significativa en el promedio de adversarios eliminados por Negan y Rick Grimes, realizamos un test t para muestras independientes con un nivel de significancia (alpha) de 0.05.

# Datos para Negan y Rick
n = 30  # Tamaño de cada grupo
media_negan = 22
sd_negan = 5
media_rick = 19
sd_rick = 6

# Realizamos un test t de Welch o estadistico test (asumiendo varianzas desiguales)
test = t.test(x = rnorm(n, media_negan, sd_negan),
               y = rnorm(n, media_rick, sd_rick),
               alternative = "two.sided")
ancho_95 = diff(test$conf.int)
test
## 
##  Welch Two Sample t-test
## 
## data:  rnorm(n, media_negan, sd_negan) and rnorm(n, media_rick, sd_rick)
## t = 2.2998, df = 57.408, p-value = 0.02512
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  0.4474914 6.4684575
## sample estimates:
## mean of x mean of y 
##  22.87629  19.41831
ancho_95
## [1] 6.020966
  1. ¿Podemos afirmar con un 95% de confianza que han eliminado a la misma proporción de adversarios?

En el propio test anterior ya hemos sacado el intervalo aunque si queremos volver a sacarlo explicitamente podemos usar:

test$conf.int
## [1] 0.4474914 6.4684575
## attr(,"conf.level")
## [1] 0.95

Como podemos ver, el 0 no esta contenido en el intervalo de confianza por lo que podemos asegurar que no han eliminado el mismo numero de adversarios.

  1. ¿Cuál es la probabilidad de cometer un error Tipo II al afirmar que no hay diferencia entre sus habilidades, dado que en realidad existe una?

Gracias al ultimo apartado de la practica 4, en el que se explica como realizar la potencia de un test, podemos hallar a partir de dicha potencia la probabilidad de cometer un error de tipo II:

# Calcular la potencia del test para la muestra dada y la diferencia observada
power_result = power.t.test(n = 30, 
                             delta = (media_negan - media_rick), 
                             sd = sqrt((sd_negan^2 + sd_rick^2) / 2), 
                             sig.level = 0.05, 
                             type = "two.sample", 
                             alternative = "two.sided")

# Probabilidad de error Tipo II
error_tipo_II = 1 - power_result$power
power_result
## 
##      Two-sample t test power calculation 
## 
##               n = 30
##           delta = 3
##              sd = 5.522681
##       sig.level = 0.05
##           power = 0.5433945
##     alternative = two.sided
## 
## NOTE: n is number in *each* group
error_tipo_II
## [1] 0.4566055
  1. Si deseamos aumentar la precisión del intervalo de confianza al 99% para la diferencia de medias, ¿cómo afectaría esto al ancho del intervalo?
# Calcular intervalo de confianza del 99%
test_99 = t.test(x = rnorm(n, media_negan, sd_negan),
                  y = rnorm(n, media_rick, sd_rick),
                  alternative = "two.sided",
                  conf.level = 0.99)

# Ancho del intervalo de confianza al 99%
ancho_99 = diff(test_99$conf.int)
test_99$conf.int
## [1] -1.962887  5.540248
## attr(,"conf.level")
## [1] 0.99
ancho_99
## [1] 7.503135
ancho_95
## [1] 6.020966

Como podemos comprobar, si aumentamos el nivel de confianza al 99%, estamos siendo más exigentes con nuestra estimación. De esta forma queremos estar aún más seguros de que el verdadero parámetro esté dentro de nuestro intervalo. Esto significa que el intervalo de confianza del 99% siempre será más ancho que el del 95% para la misma muestra y estimación ya que para estar más seguros necesitamos cubrir más de la distribución de probabilidad.


Volver arriba