1 Probabilidad (Siempre la buscamos)

Consideremos que se nos ofrecen dos sucesos: “El Real Madrid roba en un partido” y “El Granada desciende a Segunda División”. Para facilitar el trato de ambos sucesos los llamaremos M y G, y serán de un espacio muestral tal que \(P(M \cap G)=0.6\), \(P(M \cup G)=0.85\) y \(P(M)=0.7\).


1. La probabilidad de que el Granada baje a Segunda División.


La formula con la que sacaremos dicha probabilidad es la siguiente: \(P(M \cup G) = P(M) + P(G) - P(M \cap G)\). Ahora, sustituyendo, tenemos: \(0.85 = 0.7 + P(G) - 0.6\). Despejando, obtendríamos el resultado de: \(P(G)=0.75\).


2. La probabilidad de que el Real Madrid no robe y que el Granada no baje de división en la misma temporada (las dos al mismo tiempo).


La probabilidad de que no ocurra ninguno de los dos la podemos sacar desde la probabilidad de que ocurra ambos sucesos y restándole la probabilidad total: \(1-P(M \cap G)\) . Sustituyendo tenemos: \(1-0.6=\) 0.4.


3. La probabilidad de que el Granada baje de división sabiendo que el Real Madrid ha robado en un partido no influyente en el descenso del Granada.


Del enunciado podemos sacar la siguiente traducción a términos matemáticos: \(P(G|M)\) . Observamos que los sucesos son totalmente independientes en este caso ya que no están relacionados el uno con el otro. A sabiendas de eso, tenemos que: \(P(G|M)=P(G)\). Sustituyendo vemos que: \(P(G|M)=\) 0.75.


4. La probabilidad de que el Granada baje de división sabiendo que el Real Madrid le ha robado en un partido al Granada.


En este caso podemos diferenciar del anterior que los sucesos dependen el uno del otro ya que aquí el robado por el Real Madrid es el Granada, provocando su descenso: \(P(G|M)=P(G \cap M)/P(M)\). Sustituyendo obtendremos que: \(0.6/0.7=\) 0.8571429.



2 Variable aleatoria (al conocerla ya no es tan aleatoria)

2. En la siguiente tabla tenemos la funcion de probabilidad del número de triples del jugador MrTartaria de la liga de baloncesto YFEPSTEIN elegidos aleatoriamente de 5 partidos

X 0 1 2 3 4 5
P(X) 0.1 0.2 0.4 0.15 0.1 0.05
  1. Calcula la probabilidad de que MrTartaria consiga menos de dos triples en el partido.


    En este caso estamos buscando la probabilidad de que anote menos de dos triples en el partido, por lo que tenemos que sumar la probabilidad de que meta uno mas la probabilidad de que meta dos para que asi nos quede la probabilidad total de que meta menos de 2.

\(P(X < 2)\) = \(P(X=1)\) + \(P(X=0) = 0.1+0.2= 0.3\)


  1. Calcula la probabilidad de que MrTartaria consiga 3 o mas triples en el partido


    Este caso es parecido al anterior, pero al decirnos 3 o más, tambien tenemos que sumar la probabilidad de que anote 3 triples en el partido a las restantes, tambien lo podiamos hacer con la probabilidad total menos la probabilidad de que anote menos de 3.

\(P(X\geq3) = P(X=3) + P(X=4) + P(X=5) = 0.15+0.1+0.05=0.3\)


  1. Calcula la media de triples que anota MrTartaria


En este caso nos basamos de la formula para calcular la media y sustituimos los valores.

\(Media = 0* P(X=0) + 1* P(X=1) + 2* P(X=2) + 3* P(X=3) + 4* P(X=4) + 5* P(X=5)=\)

\(= [(0*0.1) + (1*0.2) + (2*0.4) + (3*0.15) + (4*0.1) + (5*0.05)]= 2.1\)


  1. Calcula la varianza


    Nos basamos de la formula de la varianza en la que tendremos que saber previamente el valor de la media para calcularla.

\(Varianza= [(0-Media)^2 * P(X=0)) + (1-Media)^2 * P(X=1))\) +

\((2-Media) ^2 * P(X=2)) + (3-Media)^2 * P(X=3)) + (4-Media)^2 - P(X=4)) + (5-Media)^2 * P(X=5))]\)

\(Varianza=[ ((0-2.1)^2 * 0.1)) + ((1-2.1)^2 * 0.2)) + ((2-2.1)^2 * 0.4)) + ((3-2.1)^2 * 0.15)) + (4-2.1)^2 * 0.1)) + ((5-2.1)^2 * 0.05))]=1.59\)


3 Distribuciones de probabilidad (A veces hay uniones y otras distribuciones)

Queremos analizar los siguientes 10 partidos en las eliminatorias de Copa del Rey y Champions League del Real Madrid en los que la posibilidad de ganar es 0.7 y de perder 0.3. Son independientes, es decir, que el Madrid gane los partidos no influye en el siguiente.


1. ¿Cuál la probabilidad de que gane 8 partidos?


\(P(X=8)= dbinom(8,10,0.7) =\)

dbinom(8,10,0.7)
## [1] 0.2334744


2. ¿Cuál es la probabilidad de que no gane ninguno?


\(P(X=0)=dbinom(0,10,0.7)=\)

dbinom(0,10,0.7)
## [1] 5.9049e-06


3. ¿Cuántos partidos nos indica la mediana que ganará el Real Madrid?


Mediana de \(P(X)=qbinom(0.5,10,0.7)=\)

qbinom(0.5,10,0.7)
## [1] 7


4. ¿Probabilidad de que pierda, al menos, 2 partidos?


Tomando aqui, en vez de las posibilidades de ganar, las posibilidades de perder: \(P(X\geq2))=1-P(X\leq1)=1 - pbinom(1,10,0.3)=\)

1 - pbinom(1,10,0.3)
## [1] 0.8506917


4 Distribución normal

Los jugadores del vídeojuego FIFA son bastante agresivos debido a las circunstancias que se pueden dar en el juego, hemos tomado los datos y concluimos que la cantidad de mandos rotos por el FIFA sigue una distribución normal de media 3,5 y de desviación típica de 0,7. Cogemos a un jugador al azar y sabiendo esto


a) Calcula la probabilidad de que la cantidad de mandos rotos sea mayor que 4 mandos

\(P(X>4))=1-P(X<4)=1-pnorm(4,3.5,0.7)=\)

1 - pnorm(4,3.5,0.7)
## [1] 0.2375253


b) Calcula la probabilidad de que la cantidad de mandos rotos sea menor de 2 mandos

\(P(X<2))=pnorm(2,3.5,0.7)\)

 pnorm(2,3.5,0.7)
## [1] 0.01606229


c) Calcula la probabilidad de que la cantidad de mandos rotos se encuentre entre 4 y 6 mandos

\(P(4<X<6)= pnorm(6,3.5,0.7)-pnorm(4,3.5,0.7)\)

 pnorm(6,3.5,0.7)-pnorm(4,3.5,0.7)
## [1] 0.2373477


d) Calcula el percentil del 80% de la cantidad de mandos rotos

\(qnorm(0.8,3.5,0.7)\)

 qnorm(0.8,3.5,0.7)
## [1] 4.089135


e) sabiendo que ha roto ya mas de un mando, la probabilidad de que hayan sido menos de 4

\(P(X<4/X>1)= pnorm(4,3.5,0.7)-pnorm(1,3.5,0.7)/1-pnorm(1,3.5,0.7)\)

 pnorm(4,3.5,0.7)-pnorm(1,3.5,0.7)/1-pnorm(1,3.5,0.7)
## [1] 0.7621197


5 Contraste de Hipotesis 1

Nuestra empresa “Only Informáticos”, buscando las mejores ofertas en dispositivos electrónicos, encontró una que parecía inigualable en diferentes dispositivos, y es que nos ofrecían a mitad de precio la misma calidad que otros fabricantes conocidos. Claro, esto nos extrañó, así que decidimos comprobar la calidad de varios de los dispositivos en algunos aspectos: Nos decían que en los portátiles, la batería se cargaba completamente en una media de 45 minutos. Cuando hicimos las pruebas sobre 30 de ellos elegidos al azar y en las mismas condiciones, registramos las siguientes duraciones:
47, 46.5, 52, 41.5, 43, 44, 49, 42.5, 45, 43.5, 40, 45.5, 47.5, 39, 50, 48.5, 48, 46, 45.5, 44.5, 43.5, 48, 46.5, 45, 43, 42, 40.5, 44.5, 42.5, 48.5.
Después, pusimos a prueba la calidad de unos routers que compramos probando la distancia a la que alcanza la señal wifi de cada uno. Nos decían que de media la señal wifi de esos routers alcanzaba los 35 metros. Probando otros 30 de ellos, hemos recogido las siguientes distancias:
40, 37.2, 34.4, 33.5, 35.3, 36.8, 27.2, 28.4, 29, 31.5, 30, 38.3, 41.2, 33.6, 39.4, 31.7, 30.3, 32.5, 32, 34.2, 29.7, 31.3, 37.6, 36.4, 32.4, 30.7, 28.2, 33.3, 32.5, 35.
Por último decidimos probar cuántos decibelios eran capaces de aislar del exterior los auriculares. Se nos aseguraba que estos aislaban de media hasta 30 decibelios. En nuestras pruebas con 30 de ellos conseguimos los siguientes resultados:
29, 29.1, 30.3, 28.8, 29.3, 28.3, 29.6, 30, 28.4, 30.5, 29.9, 29.4, 30.2, 30.4, 30.8, 28.1, 30.8, 29.8, 30.1, 30.3, 29.5, 29.7, 30, 30.1, 30.2, 29.8, 29.9, 30, 27.7, 30.6.
Como nos han costado un pastizal, queremos asegurarnos de que no hemos sido estafados. Para ello vamos a realizar algunos análisis:

1. Nos han engañado en alguna de las informaciones que se nos han ofrecido? Como también los precios de los productos han sido diferentes, utilizaremos un diferente intervalo de confianza para cada uno: Para los portátiles un 50%, para los routers un 80% y para los auriculares un 70%

Primero vamos a proponer dos teorías: H0: mu1=mu2, H1: mu1!=mu2, que serán las mismas en los 3 casos. Para responder a la pregunta vamos a usar la función que tenemos disponible: t.test. Para ello, introduciremos los valores que nos pide la función:

Primer test: Portátiles: \(p=c(47, 46.5, 52, 41.5, 43, 44, 49, 42.5, 45, 43.5, 40, 45.5, 47.5, 39, 50, 48.5, 48, 46, 45.5, 44.5, 43.5, 48, 46.5, 45, 43, 42, 40.5, 44.5, 42.5, 48.5)\) \(t.test(p,mu=45,conf.level=0.5)\) {r} p=c(47, 46.5, 52, 41.5, 43, 44, 49, 42.5, 45, 43.5, 40, 45.5, 47.5, 39, 50, 48.5, 48, 46, 45.5, 44.5, 43.5, 48, 46.5, 45, 43, 42, 40.5, 44.5, 42.5, 48.5) t.test(p,mu=45,conf.level=0.5)

Como nosotros tomamos un alpha=0.5 y tenemos que p.value=0.8837, podemos decir que no rechazaremos la teoría H0 que dice que la media de las muestras y la media indicada son iguales, ya que el p.value>alpha.

Segundo test: routers: \(r=c(40, 37.2, 34.4, 33.5, 35.3, 36.8, 27.2, 28.4, 29, 31.5, 30, 38.3, 41.2, 33.6, 39.4, 31.7, 30.3, 32.5, 32, 34.2, 29.7, 31.3, 37.6, 36.4, 32.4, 30.7, 28.2, 33.3, 32.5, 35)\) \(t.test(r,mu=35,conf.level=0.8)\) {r} r=c(40, 37.2, 34.4, 33.5, 35.3, 36.8, 27.2, 28.4, 29, 31.5, 30, 38.3, 41.2, 33.6, 39.4, 31.7, 30.3, 32.5, 32, 34.2, 29.7, 31.3, 37.6, 36.4, 32.4, 30.7, 28.2, 33.3, 32.5, 35) t.test(r,mu=35,conf.level=0.8)

Como nosotros tomamos un alpha =0.2 y vemos que el valor de p-value=0.02, podemos afirmar que rechazaremos la teoría H0, ya que el p.value<alpha.

Tercer test: Auriculares: \(a=c(29, 29.1, 30.3, 28.8, 29.3, 28.3, 29.6, 30, 28.4, 30.5, 29.9, 29.4, 30.2, 30.4, 30.8, 28.1, 30.8, 29.8, 30.1, 30.3, 29.5, 29.7, 30, 30.1, 30.2, 29.8, 29.9, 30, 27.7, 30.6)\) \(t.test(a,mu=30, conf.level=0.7)\) {r} a=c(29, 29.1, 30.3, 28.8, 29.3, 28.3, 29.6, 30, 28.4, 30.5, 29.9, 29.4, 30.2, 30.4, 30.8, 28.1, 30.8, 29.8, 30.1, 30.3, 29.5, 29.7, 30, 30.1, 30.2, 29.8, 29.9, 30, 27.7, 30.6) t.test(a,mu=30, conf.level=0.7)

Como podemos observar, aquí tomamos un alpha=0.3, y tenemos que p.value=0.03981. Dados estos valores podemos afirmar que rechazaremos la teoría H0, ya que el p.value<alpha.


2. Hasta que porcentaje podríamos disminuir cada uno de los intervalos de confianza para poder afirmar que las diferencias entre medias de productos se deben al azar?

Para responder esta pregunta tengamos en cuenta que siempre buscamos ver si p.value>alpha, y que alpha=1-intervalo de confianza. En ese caso, sustituyendo tendríamos que, lo que buscamos es que p.value>1-intervalo de confianza. Despejando el intervalo de confianza que es lo que buscaremos, tenemos que: intervalo de confianza>1-p.value. Para eso tomamos los valores de p.value obtenidos en el ejercicio anterior:

p.value de los portátiles: {r} t.test(p,mu=45)$p.value

Observamos que en este caso sería: Intervalo de confianza>1-0.8837256=Intervalo de confianza>0.1162744. Comprobamos: {r} t.test(p,mu=45,conf.level=0.1162744)

p.value de los routers: {r} t.test(r,mu=35)$p.value

Observamos que en este caso sería: Intervalo de confianza>1-0.02863036=Intervalo de confianza>0.97136964. Comprobamos: {r} t.test(r,mu=35,conf.level=0.97136964)


p.value de los auriculares: {r} t.test(a,mu=30)$p.value

Observamos que en este caso sería: Intervalo de confianza>1-0.03981107=Intervalo de confianza>0.96018893. Comprobamos: {r} t.test(a,mu=30,conf.level=0.96018893)


3. Como lo más costoso han sido los portátiles centrémonos en ellos. Cual es el valor del estadístico test para estos en las pruebas que hemos realizado?

Para sacar el estadístico test tenemos a disposición dos formas de sacarlo: {r} t.test(p,mu=45)$statistic

o {r} (mean(p)-45)/(sd(p)/sqrt(length(p)))

Podemos comprobar por nosotros mismos que los resultados de ambos cálculos son iguales.


4. Al igual que en el apartado anterior, centrémonos en los portatiles. De qué otra forma podríamos sacar el p.value para asegurarnos de que el anterior resultado era correcto?

Primero veamos el valor a obtener del p.value: {r} t.test(p,mu=45)$p.value

Ahora, para sacar el mismo valor, haremos uso del valor estadístico test: {r} ts=(mean(p)-45)/(sd(p)/sqrt(length(p))) 2*(1-pt(ts,29))

Como H1 comprueba que mu1!=mu2, es bilateral, por lo cual se multiplica por 2. Como podemos comprobar, los resultados del p.value son iguales con ambas formulas.


6 Contraste de hipotesis

Un asesino en serie de la UCLM trabaja para una empresa que le exige una serie de asesinatos por año en la universidad a base de exámenes, la media de lo que tardan en morirse son de 4000 segundos tras realizar tremendo exámen. Para ello se toma una muestra de 33 estudiantes y se mide cuanto van a tardar en morir por los exámenes, cuya media es 3750 segundos. Sabemos que la desviación es 250 segundos.


a) ¿Puede afirmar el asesino que duran una media de 4000 segundos?

Hipótesis nula H0 : μ = 4000 Hipótesis alternativa H1 : μ ≠ 4000

Nivel de significación α = 0.05 (95%) Tamaño muestral n = 33

Zα/2 = 0.05/2 = 0.025 qnorm(1-α/2) = qnorm(1-0.025) = 1.96 Determinamos una región crítica entre -1.96 y 1.96 (es bilateral)

Calculamos el valor estadistico para la muestra

Zs = x_barra - mean(x) / sd(x)/sqrt(n)

Zs = (3750 - 4000)/(250/sqrt(33)) = -5.7445

Conclusiones -> Como Zs < -Zα/2 se rechaza la hipótesis nula.

-> Por lo tanto no podemos asegurar que la media es de 4000 segundos.

b) ¿Cuánto vale el p-valor? ¿Qué pasaría si quisieramos asegurar que la media sea mayor de 4000? x_barra = 3750

mu = 4000

sd = 250

n = 33

t = (x_barra-mu)/(sd/sqrt(n))

-> pvalor con la fórmula: 2*(1-pt(abs(t), n-1)) = 2.276714e-06

Si la media es mayor de 4000

H0: μ <= 4000

H1: μ > 4000

-> t = (3750-4000)/(250/sqrt(33)) = -5.744563

pvalor: (1-pt(abs(t),32)) = 1.138357e-06 < α

-> En este caso se rechazaría la hipótesis nula. No podemos asegurar que las medias sean mayores de 4000.

c) Ahora nos dan diferentes tiempos de muestras tomadas por dos profesores que matan con sus exámenes, se desea saber si hay evidencia suficiente para afirmar que la variabilidad en los tiempos de muerte de los alumnos es significativamente diferente de la del otro. PA= c(3990.20, 4000.10, 3995.30, 3985.25, 4000.15) PB= c(4000.35, 4001.40, 4003.60, 4004.70, 4005.80)

Calculamos las desviaciones, calculamos var.test y comprobamos con la fórmula

sd(PA)

sd(PB)

var.test(PA,PB)

(sd(PA)2)/(sd(PB)2) = 8.160805

fs=(sd(PA)2)/(sd(PB)2)

pf(fs,4,4) = 0.9668533

p-valor = 2*(1-pf(fs,4,4)) = 0.06629331 -> Al 95% no existe evidencia estadistica en contra de que sean iguales las varianzas.

d) Si queremos estudiar si los dos profesores tienen tiempos similares hasta que asesinan a los alumnos:

PA= c(3990.20, 4000.10, 3995.30, 3985.25, 4000.15)

PB= c(4000.35, 4001.40, 4003.60, 4004.70, 4005.80)

wilcox.test(PA,PB) = 0.007937

Existe evidencia estadistica de que las medianas no son iguales

7 Contraste de hipótesis, parametrico y no parametrico

  1. Contraste de hipotesis no paramétrico.

Queremos saber si los coches eléctricos tienen más potencia que los de combustión con un nivel de significación de 0.06.


1 2 3 4 5 6 7 8 9 10
581 110 125 80 300 255 197 275 95 150 E
———- ——— ——— ——— ———- ——— ———- ———- ———- ———- ——
450 473 503 444 450 398 400 275 360 510 C
———- ——— ——— ——— ———- ——— ———- ———- ———- ———- ——
+ - - - - - - - -
———- ——— ——— ——— ———- ——— ———- ———- ———- ———-

a) Calcula con la prueba de los signos las hipótesis, tamaño muestral, las N y el valor Bs. ¿Se rechaza H0?.

μ1 = potencia eléctricos

μ2 = potencia combustión

α = 0.06

Hipótesis nula (H0): μ1 > μ2

Hipótesis alternativa (H1): μ1 < μ2

-> Tamaño muestral = 9 (hay un empate)

-> N += 1 (suma de rangos de observaciones positivas)

N -= 8 (suma de rangos de observaciones negativas)

-> Bs = 8 (Al ser unilateral “<” solamente se consideran los valores negativos)

  alpha=0.06
  n=9
  df=8
  qt(1-alpha, df)
## [1] 1.740243

Al ser el valor crítico < Bs , entonces rechazamos H0.


b) ¿P-valor?.

Suponiendo que no hay diferencias, el número de negativos sigue una Bi(9,0.5). En este caso será:

  1-pbinom(7,9,0.5)
## [1] 0.01953125

Como el pvalor < 0.06 , existe evidencia estadistica de que las potencias no son iguales, entonces se rechaza H0.


  1. Contraste de hipótesis paramétrico.

c) Compara las medias de potencia entre los motores eléctricos y de combustión. ¿valor del estadístico test?

Hipótesis nula (H0): μ1 = μ2

Hipótesis alternativa (H1): μ1 != μ2

  E = c(581, 110, 125, 80, 300, 255, 197, 275, 95, 150)
  C = c(450, 473, 503, 444, 450, 398, 400, 275, 360, 510)
  t.test(E,C)
## 
##  Welch Two Sample t-test
## 
## data:  E and C
## t = -3.9915, df = 12.831, p-value = 0.001575
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -323.04175  -95.95825
## sample estimates:
## mean of x mean of y 
##     216.8     426.3

t = -3.9915.

Podemos comprobar que al ser pvalor < alpha , rechazamos H0 , por lo que nos indica que las potencias de los motores no son iguales.


d) ¿Y si comparamos las varianzas de ambos?

  E = c(581, 110, 125, 80, 300, 255, 197, 275, 95, 150)
  C = c(450, 473, 503, 444, 450, 398, 400, 275, 360, 510)
  var.test(E,C)
## 
##  F test to compare two variances
## 
## data:  E and C
## F = 4.4748, num df = 9, denom df = 9, p-value = 0.03592
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
##   1.111484 18.015640
## sample estimates:
## ratio of variances 
##            4.47483

Con esto podemos ver que muestran una diferencia significativa en las varianzas, al ser las varianzas diferentes la prueba es menos confiable. Entonces al ser pvalor < alpha , existe evidencia estadística de que las varianzas no son iguales.


8 Anova

En la sede oficial de la Formula uno se ha decidido realizar un estudio en uno de sus pilotos, el piloto elegido ha sido Fernando Alonso Diaz ( El Nano) , en el estudio han medido sus tiempos de reacción en la salida en los circuitos de Barhein, Miami y Brasil, a lo largo de los años 2020,2021,2022,2023. Consideramos que los datos estan medidos en milisegundos y que cumplen las hipótesis de Anova

Año/Circuito Barhein Miami Brasil
2020 20 21 30
2021 23 18 24
2022 25 27 31
2023 21 16 25


a) Si H0 es que todos los tiempos son los mismos y H1 que no lo son, justificar que hipótesis es correcta con un nivel de significación de 0,07

datos=c(20,23,25,21,21,18,27,16,30,24,31,25)
 Ano=factor(rep(c("2020","2021","2022","2023"),3))
 Circuitos=factor(c(rep("Barhein",4),rep("Miami",4),rep("Brasil",4)))
 summary(aov(datos~Circuitos+Ano))
##             Df Sum Sq Mean Sq F value Pr(>F)  
## Circuitos    2 106.17   53.08   9.232 0.0148 *
## Ano          3  86.25   28.75   5.000 0.0452 *
## Residuals    6  34.50    5.75                 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
 qf(1-0.07,2,6)
## [1] 4.279283
 qf(1-0.07,3,6)
## [1] 4.00306

Podemos ver que en los resultados F1>F(0.07,2,6) y que F2>F(0,07,3,6). Asi que sacamos la conclusión de que:

-En el caso de los circuitos se rechaza la hipótesis nula y coincidimos de que hay diferencia significativa en los tiempos.


-En el caso de los años tambien rechazamos la hipótesis nula y coincidimos de que hay diferencia significativa en los tiempos.


b) ¿que pasaría si utilizaramos 0,08 de nivel de significación?, Razonar respuesta.

Si hemos rechazado la hipótesis en ambos bloques con 0,07 significa que el p-valor de los dos se encuentra por debajo de ese valor, por lo que también será menor que 0,08 y en ambos casos se volvería a rechazar la hipótesis nula y tendríamos el mismo resultado que antes.


c) y si utilizamos 0,03 de nivel de significación?, Razonar respuesta


Calculamos los nuevos valores de F

 qf(1-0.03,2,6)
## [1] 6.654894
 qf(1-0.03,3,6)
## [1] 6.072948

-vemos que F1>F(0,03,2,6) por lo que volvemos a rechazar la hipótesis nula

-Por el otro lado vemos que F2<F(0,03,3,6) por lo que aceptamos la hipótesis nula, es decir aceptamos la igualdad de los resultados entre bloques (años).


d) Encontrar un intervalo de confianza del 90% de la media de tiempos del tercer circuito

Utilizamos la formula de t.test

x=c(30, 24, 31, 25)
t.test(x,conf.level=0.9)$conf.int
## [1] 23.36763 31.63237
## attr(,"conf.level")
## [1] 0.9


9 REGRESIÓN LINEAL

Después de tanta tortura y sufrimiento, finalmente hemos conseguido salir de este segundo cuatrimestre del segundo año. En verdad ha salido bien, pero que tan bien? Queremos estudiar eso y sacar algunas conclusiones, ya que el profesor de estadística ha tenido que ayudarnos en muchos aspectos ya que esto es una locura y nos ha ofrecido a cada uno tutorías personales. Sobre ello, queremos estudiar la relacion lineal entre el tiempo dedicado por el profesor en la tutoría con cada alumno para que llegue a entender toda la asigantura y la cantidad posterior de tiempo que cada uno ha invertido en estudiar, ya que, claro, después de entenderlo, uno necesita menos tiempo para estudiar. Gracias a ello, todos los alumnos han aprobado (ojalá y la clase del 2ºB). Tenemos los siguientes datos sobre 15 de los alumnos de la clase que han tenido esta situación:

Tiempo de tutoría en horas: c(0.5, 0.5, 0.8, 0.9, 0.9, 1.0, 1.1, 1.1, 1.4, 1.7, 2.0, 2.0)

Tiempo de estudio en minutos: c(290, 270, 300, 650, 150, 500, 450, 500, 500, 960, 800, 1090)

Lo único que sabemos de antemano es que los valores siguen una distribución normal.


1. Antes de nada, tendremos que ver si cumplen las hipótesis del modelo lineal. Compruébalo en este apartado.

Para saber si cumplen las hipótesis del modelo lineal primero tendremos que conocer cuáles son las hipótesis:

1:Linealidad de los residuos. No deben seguir la forma de una parabólica.

2:Normalidad de los residuos. Al juntarlos y formar un histograma con ellos deben seguir una normal.

3:Homocedasticidad de los residuos. La varianza de estos debe ser constante y no ir cambiando.

Para comprobar la primera vamos a realizar el diagrama de dispersión:

x=c(0.5, 0.5, 0.8, 0.9, 0.9, 1.0, 1.1, 1.1, 1.4, 1.7, 2.0, 2.0)
y=c(290, 270, 300, 650, 150, 500, 450, 500, 500, 960, 800, 1090)
plot(x,y)
abline(lm(y~x))

Como podemos ver, esta hipótesis se cumple ya que en la gráfica los valores tienen forma lineal y no parabólica.

Para comprobar la segunda vamos a realizar un histograma, y después un lillie.test para verlo con el p-valor:

 x=c(0.5, 0.5, 0.8, 0.9, 0.9, 1.0, 1.1, 1.1, 1.4, 1.7, 2.0, 2.0)
  y=c(290, 270, 300, 650, 150, 500, 450, 500, 500, 960, 800, 1090)
  hist(summary(lm(y~x))$residuals)

  residuos=summary(lm(y~x))$residuals
  library('nortest')
  lillie.test(residuos)
## 
##  Lilliefors (Kolmogorov-Smirnov) normality test
## 
## data:  residuos
## D = 0.1031, p-value = 0.9774

Como podemos ver tanto en el histograma, como en la prueba de lillie.test donde el p-value=0.97, no se rechaza la hipotesis de que los residuos siguen una normal.

La homocedasticidad de los residuos la podemos ver graficandolos:

 x=c(0.5, 0.5, 0.8, 0.9, 0.9, 1.0, 1.1, 1.1, 1.4, 1.7, 2.0, 2.0)
  y=c(290, 270, 300, 650, 150, 500, 450, 500, 500, 960, 800, 1090)
  plot(x,summary(lm(y~x))$residuals)

Como podemos ver, la varianza de los residuos no va aumentando si no que es constante.


2. Ahora sabiendo ya que cumplen las hipótesis del modelo lineal, veamos cuál es el porcentaje de variabilidad del tiempo de estudio explicada por el modelo.

Aquí tenemos un comando de R que nos calcula el valor del porcentaje que se nos pide:

 summary(lm(y~x))
## 
## Call:
## lm(formula = y ~ x)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -263.61  -85.17   13.97   88.46  236.39 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   -20.90     112.51  -0.186   0.8564    
## x             482.79      89.35   5.404   0.0003 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 152.9 on 10 degrees of freedom
## Multiple R-squared:  0.7449, Adjusted R-squared:  0.7194 
## F-statistic:  29.2 on 1 and 10 DF,  p-value: 0.0002999

Si observamos el valor de R-squared veremos que es 0.7449. Eso significa que el 74.49% de los valores de y, es decir, del tiempo empleado en estudiar, vienen explicados por la x, es decir, por el tiempo dedicado a tutorías con el profesor, el resto de valores dependerán del azar.


3. Cuál es la ecuación de la recta de regresión?

Si volvemos a realizar el mismo comando de antes podemos sacar los datos necesarios para conocer la ecuacion de la recta de regresión:

 summary(lm(y~x))
## 
## Call:
## lm(formula = y ~ x)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -263.61  -85.17   13.97   88.46  236.39 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   -20.90     112.51  -0.186   0.8564    
## x             482.79      89.35   5.404   0.0003 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 152.9 on 10 degrees of freedom
## Multiple R-squared:  0.7449, Adjusted R-squared:  0.7194 
## F-statistic:  29.2 on 1 and 10 DF,  p-value: 0.0002999

De aqui sacamos que el valor de la constante es -20.90 y el valor de la pendiente es 482.79. La ecuacion es: y= 482.79x - 20.90.


4. Cuál es el coeficiente de correlación entre las variables?

Un simple comando de R nos puede dar este valor:

  cor(x,y)
## [1] 0.863071

En este caso, este valor es igual a 0.863071.