Probabilidad Condicional

En una ciudad, el 47% de los habitantes tiene carné de conducir de moto (M) y el 78% de los habitantes con carné de coche(C) no tienen carné de moto\((N^m)\). Ademas el 32% de los habitantes con carné de moto tambien tienen carné de coche\((S^C)\). Calcula:
\((M)\) : tiene carné de moto
\((C)\) : tiene carné de coche
\((N^M)\) : no tiene carné de moto
\((N^C)\) : no tiene carné de coche
\((S^M)\) : si tiene carné de moto
\((S^C)\) : si tiene carné de coche

  1. Probabilidad de que un habitante tenga carné de conducir de coche y tenga carné de conducir de moto.

\(P( C\cap S^M)= P(C) * P(S^M)\), despejamos obetemos que \(P(C \cap S^M) = 0.53*0.22=0.1166\)

  1. Probabilidad de que un habitante tenga carné de conducir de moto y que no tenga carné de conducir de coche.

\(P( M\cap N^C)= P(M) * P(N^C)\), despejamos obetemos que \(P(M \cap N^C) = 0.47*0.68=0.3196\)

  1. Probabilidad de que conduzca otro vehículo.

\(P( M\cap S^C) + P(C \cap S^M)= (0.47*0.32) + 0.1166 =0.267\)

  1. Si un habitante no conduce otro vehículo,la probabilidad de que tenga carné de coche.

\(P(C / N^M)=\frac{P(C \cap N^M)}{P(N^M)}=(0.53*0.78)/(1-0.267)=0.5639\)


Variable aleatoria exponencial

Sean X una variable exponencial de media 7.

  1. Calcula la probabilidad de que X sea mayor de 9.

\(P(X> 9)=1-P(X\leq 9)\)=pexp(9,1/7)=0.276453

  1. Calcula la probabilidad de que X sea menor o igual de 5.

\(P(X\leq 5)\)=pexp(5,1/7)=0.5104583

  1. Calcula la probabilidad de que X sea menor o igual que 7 sabiendo que es mayor de 5.

\(P(X\leq7/X>5)\frac{P(X<7)-P(X<5)}{1-P(X<5)}=\)=(pexp(7,1/7)-pexp(5,1/7))/(1-pexp(5,1/7))=0.2485227

  1. Calcula el quartil del percentil 67%.

Tenemos que calcular M tal que \(P(X<M)=0.67\), lo cual haremos de la siguiente forma.qexp(0.67,1/7)=7.7606384.


Distribucion Binomial

Sea X = numero de reyes que podemos sacar en 10 intentos en una baraja española (48 cartas) quitando los comodines. La carta que sacamos siempre la volvemos a introducir a la baraja y volvemos a barajar

X~ Bi(10,4/48)

  1. Calcula la probabilidad de que X sea igual a 2

\(P(X=2)=\)=dbinom(2,10,4/48)=0.1557907

  1. Calcula la probabilidad de que X sea menor o igual a 1

\(P(X\leq1)=\)=pbinom(1,10,4/48)=0.7997256

  1. Calcula la probabilidad de que X sea menor o igual que 3 sabiendo que es mayor de 2.

\(P(X\leq3/X>=1)\frac{P(X=1)+P(X=2)+P(X=3)}{1-P(X=0)}=\)=(dbinom(1,10,4/48)+dbinom(2,10,4/48)+dbinom(,10,4/48))/(1-dbinom(0,10,4/48))=0.9884421

  1. Calcula la mediana de X

Tenemos que calcular M tal que \(P(X<M)=0.5\), lo cual haremos de la siguiente forma.qbinom(0.5,10,4/48)=1.

Probabilidad Condicional

En una empresa tecnologica, el 33% de los trabajadores tiene el titulo universitario (TitUni) y el 68% de los trabajadores tiene el titulo del modulo del grado superior en informatica, el titulo universitario o ambos(GS U TitUni). Tambien sabemosque el 46% de los trabajadores tienen el titulo del grado superior(GS) Calcula:
\((TitUni)\) : tiene titulo universitario
\((GS)\) : tiene titulo de grado superior
\((GS \cup TitUni^)\) : tiene el titulo del modulo del grado superior en informatica, el titulo universitario o ambos

  1. Si un trabajador tiene el titulo universitario, ¿cuál es la probabilidad de que tenga el titulo del grado superior?

\(P( GS\cap TitUni)= P(GS) + P(TitUni) - P(GS \cup TitUni)\), despejamos obetemos que \(P( GS\cap TitUni)\) = 0,46 + 0,33 - 0,68 = 0,11

\(P(GS/TitUni)=(GS\cap TitUni)/P(TitUni)=0,11/0,33=0,33333\)

2.Si un trabajador tiene el titulo del grado superior, ¿cuál es la probabilidad de que tenga el titulo universitario?

\(P( GS\cap TitUni)= P(GS) + P(TitUni) - P(GS \cup TitUni)\), despejamos obetemos que \(P( GS\cap TitUni)\) = 0,46 + 0,33 - 0,68 = 0,11

\(P(TitUni/GS)=(GS\cap TitUni)/P(GS)=0,11/0,46=0,23913\)

  1. Probabilidad de que si elegimos 8 al azar, al menos 3 de ellos tengan titulo universitario

Y= nº de trabajadores con titulo universitario de 8 ^Bi(8,0.33)

\(P( Y>= 3) = 1-P(Y\leq2)=1-pbinom(2,8,0.33)\)=r 1-pbinom(2,8,0.33)

  1. Probabilidad de que si elegimos 25 al azar, mas de 5 de ellos tengan ambos titulos

Y= nº de trabajadores con ambos titulos de 25 ^Bi(25,0.11)

\(P( Y>5) = 1-P(Y\leq5)=1-pbinom(5,25,0.11)\)=r 1-pbinom(5,25,0.11)

Contraste de hipótesis

Hemos llevado a cabo una labor de investigación sobre los horas de uso del teléfono móvil de los españoles, y sabemos que se considera que eres adicto a las pantallas si se superan las 9 horas diarias. Hemos obtenido el uso del móvil de una muestra aleatoria de 25 personas y se ha obtenido una media de 7,5 y una desviación típica muestral de 2,5.

alpha es 0,05 por defecto.

  1. ¿Que tipo de prueba estadística es la mas adecuada para realizar el estudio?

Debido a que la muestra es muy grande y conocemos la desviación típica, debemos emplear el test t.

  1. ¿Cual es la hipótesis nula y cuál la alternativa?

Como sabemos que la hipótesis nula(H₀) es la afirmación y la hipótesis alternativa(H₁) es la opuesta a la nula.

H₀:La media del uso del móviles igual a 9

H₁:La media del uso del móvil es menor a 9

  1. ¿Calcula el valor estadístico y el p-valor?

Valor estadistico:

n=25

σ=2,5

t=(abs(7.5-9)) / (σ/sqrt(n))

t=3

El valor estadístico de contraste es 3

P-valor:

p-valor=2*(1-pnorm(t))

p-valor=0.002699796

Como el p-valor es menor que alpha hay que rechazar H₀ ya que existe evidencia estadística.

  1. ¿Podemos decir que la mayoría de los españoles no son adictos al móvil?

Podemos decir que la mayoría de españoles no son adictos al móvil

Contraste de hipótesis

Una empresa de tecnología ha desarrollado dos sistemas de alarmas, el Sistema A y el Sistema B, para optimizar el proceso de clasificación de motivos por los que saltan las alarmas en función de su importancia. Para evaluar la efictividad de ambos sistemas, la empresa, ha registrado el tiempo que tarda cada uno en clasificar 1000 avisos de alarmas en 10 ciudades diferentes. Dado que se desconoce la distribución de los tiempos de procesamiento, es necesario utilizar un enfoque adecuado para comparar la efectividad de ambos sistemas.

A continuación se presenta un conjunto de datos de prueba que muestra los tiempos de procesamiento(en segundos) para clasificar 1000 avisos de alarmas en 10 ciudades diferentes, utilizanco el Sistema A y el Sistema B. Alpha es 0,05 por defecto.

Ciudades Tiempo Sistema A(s) Tiempo Sistema B(s)

1 35 30
2 40 32
3 38 34
4 42 36
5 36 33
6 39 35
7 37 31
8 43 37
9 44 39
10 41 38

1,2,3,4,5,6,7,8,9,10
A: 35,40,38,42,36,39,37,43,44,41
B: 30,32,34,36,33,35,31,37,39,38

  1. ¿Que metodo de analisis sería apropiado para comparar los tiempos de procesamiento del sistema A y el Sistema B, teniendo en cuenta que se desconoce la distribucion de los tiempos?

Habría que utilizar el test de Mann-Whitney ya en el enunciado se menciona que no son diferentes ciudades para cada sistema.

  1. ¿Cuál es el p-valor obtenido en el análisis y como se interpreta en realción con el nivel de significancia establecido?
    > A=c(35,40,38,42,36,39,37,43,44,41)
    > B=c(30,32,34,36,33,35,31,37,39,38)
    > wilcox.test(A,B)

    Wilcoxon rank sum test with continuity correction

data: A and B
W = 87.5, p-value = 0.005075
alternative hypothesis: true location shift is not equal to 0

Sabemos que k1+k2 = 10*10 -> 87.5+k2 = 100 -> k2 = 12.5 max{k1,k2} = 87.5 El valor del estadístido test es de 87.5, ya que es el máximo de k1 y k2. El p-valor obtenido es 0.005075, y es menor que el alpha establecido 0.05.

  1. ¿Cuál es el valor del estadístico de prueba en este análisis, y como se relaciona con la decision de aceptar o rechazar la hipótesis nula?

El valor del estadístico test calculado en el apartado anterior es 87.5, ya que es el máximo entre k1 y k2. Si utilizamos el umbral que en este caso es 76. Dado que el valor del estadístico es mayor que el del umbral rechazamos H0
> qwilcox(1-alpha/2,10,10)
[1] 76

  1. Suponiendo que se cumple los tiempos de clasificación:
  1. ¿Que hipótesis plantearías?

H0: μ1 = μ2
H1: μ1 != μ2

  1. ¿Cuál sería el valor del estadístico test?

> var(A)
[1] 9.166667
> var(B)
[1] 9.166667
> t.test(A,B,var.equal = TRUE)

Two Sample t-test<br>

data: A and B
t = 3.6927, df = 18, p-value = 0.001665
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
2.155338 7.844662
sample estimates:
mean of x mean of y
39.5 34.5

  1. ¿Cuál sería el p-valor?

El p-valor ha salido 0.001665, que es menor que alpha. Por tanto se rechaza H0

  1. ¿Que dirías del resultado del contraste?

Existe evidencia estadística de que las medias de los tiempos de los sistemas, no son iguales.

ANOVA

El ministerio de medio ambiente ha realizado distintas mediciones a varias marcas de automoviles, en la siguiente tabla podemos observar los kilogramos(por litro de combustible) de CO2 emitidos al aire por cada marca:

Mercedes: 2.64, 2.91, 2.97, 2.74, 2.87, 2.35, 2.43, 2.87, 2.11, 2.99

Audi: 2.46, 2.19, 2.88, 2.36, 2.74, 2.67, 2.14, 2.93, 2.21, 2.59

BMW: 3.22, 3.45, 2.87, 3.12, 3.37, 2.94, 3.25, 2.76, 2.63, 3.48

Volkswagen Golf:3.28, 2.88, 3.11, 2.65, 2.89, 3.04, 3.36, 3.47, 2.79, 3.22

  1. Calcula el valor estadístico:
  2. Calcula el p-valor:
  3. Calcula el limite superior de confianza de las emisiones realizadas por los automoviles de la marca Audi.
  4. Crea un diagrama de cajas con los valores dados.
Mercedes = c(2.64, 2.91, 2.97, 2.74, 2.87, 2.35,
 2.43, 2.87, 2.11, 2.99)

Audi = c(2.46, 2.19, 2.88, 2.36, 2.74, 2.67, 2.14, 2.93, 2.21, 2.59)

BMW = c(3.22, 3.45, 2.87, 3.12, 3.37, 2.94, 3.25, 2.76, 2.63, 3.48)

Golf = c(3.28, 2.88, 3.11, 2.65, 2.89, 3.04, 3.36, 3.47, 2.79, 3.22)

datos = c(Mercedes, Audi, BMW, Golf)
marcas = factor(rep(c("Mercedes", "Audi", "BMW", "Golf"), c(10,10,10,10))) 
summary(aov(datos~marcas))
##             Df Sum Sq Mean Sq F value   Pr(>F)    
## marcas       3  2.521  0.8403   10.13 5.59e-05 ***
## Residuals   36  2.986  0.0829                     
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
mediaAudi <- mean(Audi)
 valor_t <- pt(0.05/2, 36 - 3)
 sp <-sqrt(0.1722) 
errorEstimacion  <- valor_t * (sp/ sqrt(9))
 mediaAudi + errorEstimacion
## [1] 2.587531
boxplot(datos~marcas, col=c("red", "blue", "pink","green"), ylab="Emisiones de CO2 a la atmosfera")

Contraste de Hipótesis Parametrico

En un estudio sobre las horas de los trabajadores de la hosteleria, se vio que si las horas trabajadas superaban una media de 60 horas (a la semana) o más clasifica al jefe como explotador. Después de obtener las horas medias de una muestra aleatoria de 30 trabajadores se obtuvo una media 53.5 y una desviación típica muestral de 4

Por defecto, sabemos que alpha es 0.05

  1. ¿Que tipo de prueba estadística es la correcta para el estudio anterior?

Como la muestra es muy grande y la desviación típica es conocida, podemso determinar que emplearemos el test z para una sola muestra.

  1. ¿Cuál es la hipótesis nula y cuál es la hipótesis alternativa?.

Como bien sabemos la hipótesis nula (H₀) esla afirmación que quiere ser constrastada y la hipótesis alternativa (H₁) es la opuesta a la hipótesis nula. Por tanto:

H₀: La media de las horas trabajadas por semana de los trabajadores es igual a 60.

H₁: La media de las horas trabajadas por semana de los trabajadores es menor a 60.

  1. ¿Cuál sería el valor del estadístico de contraste y el p-valor?
 #Valor del estadístico de contraste
 n=30
 s=2*sqrt(30/29)
 z=(abs(53.5-60)) / (s/sqrt(n))
 z
## [1] 17.50179
#P-valor
pvalor=2*pnorm(-abs(z))
pvalor
## [1] 1.388472e-68

Como p-valor es menor que alpha, se puede rechazar la hipótesis nula ya que hay evidencia estadistica

  1. ¿Podemos concluir que la mayoría de jefes en la hosteleria no son explotadores?

Podemos concluir que no son explotadores.

Regresión Lineal

En una piscina se midio el contenido de cloro, variable Y,a diferentes profundidades, variable X. Se obtuvieron los siguientes resultados en miligramos por litro.

x=c(15, 20, 30, 40, 50, 60, 70)
y=c(6.5, 5.6, 5.4, 6, 4.6, 1.4, 0.1)

  1. Representa los datos mediante un diagrama de dispersión.¿Que te sugiere con respecto a la relación que pueda existir entre ambas variables?
 x=c(15, 20, 30, 40, 50, 60, 70)
 y=c(6.5, 5.6, 5.4, 6, 4.6, 1.4, 0.1)
plot(x,y)

El diagrama sugiere una realación decreciente entre x e y, es decir a mayor x menor y. Y parece tener cierta relación lineal

  1. Obten la recta de regresión lineal y el coeficiente de correlación lineal.
cor(x,y)
## [1] -0.8958494
summary(lm(y~x))
## 
## Call:
## lm(formula = y ~ x)
## 
## Residuals:
##        1        2        3        4        5        6        7 
## -0.50907 -0.86841  0.01289  1.69419  1.37550 -0.74320 -0.96190 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  8.63102    1.07747   8.010  0.00049 ***
## x           -0.10813    0.02399  -4.508  0.00635 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.204 on 5 degrees of freedom
## Multiple R-squared:  0.8025, Adjusted R-squared:  0.7631 
## F-statistic: 20.32 on 1 and 5 DF,  p-value: 0.006352

El coeficiente de correlación es R= -0.8958494 y la recta es y = 8.63102 - 0.10813x, siendo la constante 8.63102 y la pendiente -0.10813. Como se puede observar en el diagrama del apartado anterior al ser R negativo la pendiente es negativa.

  1. Contrasta si la regresión lineal es significativa entre el contenido de cloro y la profundidad. Realiza también el contraste de hipótesis para ρ
    El enunciado nos pregunta si H0: ρ=0, H1: ρ!=0, siendo ρ la pendiente
summary(lm(y~x))
## 
## Call:
## lm(formula = y ~ x)
## 
## Residuals:
##        1        2        3        4        5        6        7 
## -0.50907 -0.86841  0.01289  1.69419  1.37550 -0.74320 -0.96190 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  8.63102    1.07747   8.010  0.00049 ***
## x           -0.10813    0.02399  -4.508  0.00635 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.204 on 5 degrees of freedom
## Multiple R-squared:  0.8025, Adjusted R-squared:  0.7631 
## F-statistic: 20.32 on 1 and 5 DF,  p-value: 0.006352

La regresión lineal si es significativa porque rechazamos la hipótesis nula de que la pendiente sea 0, además de que el p-valor = 0.00635 es inferior al valor de α que por defecto es α=0.05.