En una caja tenemos un 30% de canicas de cristal y un 70% de canicas de plástico. El 15% de las de cristal y el 40% de las de plástico son defectuosas. Las probabilidades de que se rompan al jugar con ellas son las siguientes:
-De las canicas de cristal, un 20% de romperse si no estan defectuosas y un 45% si lo están.
-De las canicas de plástico, un 15% de romperse si no son están defectuosas y un 35% si lo están.
DATOS:
\(P(C)=0.4\) \(P(P)=0.7\) \(P(D/C)=0.15\) \(P(D/P)=0.4\) \(P(R/C \cap D)=0.45\) \(P(R/P \cap D)=0.45\) \(P(R/C \cap ND)=0.35\) \(P(R/P \cap ND)=0.15\)
Si cogemos una canica al azar, calcula:
\[P(R \cap D)= P(C \cap R \cap D)+P(P \cap R \cap D)=0.3*0.15*0.45+0.7*0.4*0.35=0.11825\]
\(P(R)=P(C \cap D
\cap R) + P(C \cap ND \cap R) + P(P \cap D \cap R) + P(P \cap ND \cap
R)=\)
\(=0.3*0.15*0.45+0.3*0.85*0.35+0.7*0.4*0.35 +
0.7*0.6*0.15=0.2705\)
\[P(P \cap D/R)= \frac{P(P \cap D \cap
R)}{P(R)}= \frac{0.7*0.4*0.35}{0.2705}=0.36229\]
\[P(C/R)= \frac{P(C \cap R)}{P(R)}= \frac{0.3*0.15*0.45+0.3*0.85*0.35}{0.2705}=0.4081\]
\[P(R/D)= \frac{P(R \cap D)}{P(D)}= \frac{0.3*0.15*0.45+0.7*0.4*0.35}{0.325}=0.36385\]
El tiempo que tarda el profesor de Estadística en llegar a la universidad viene dado por la siguiente función de densidad de probabilidad: \[f(x)=c \text{ si } 15 \le x \le 25\]
\[\int_{15}^{25}
c ~dx=25c-15c=10c=1; c=0.1\]
Para que sea una función de densidad, el valor de c tiene que ser
0.1
Para calcular la probabilidad de que tarde entre 17 y 22 minutos, calculamos la integral definida de \(f(x)\) entre 17 y 22. \[\int_{17}^{22} 0.1~dx=\frac{22}{10}-\frac{17}{10}=\frac{5}{10}=0.5\]
Para calcular el percentil 10, calculamos
la ecuación de la integral definida entre 15 (extremo inferior) y ‘a’
(extremo superior) sabiendo que esa integral es igual a 0.1
\[\int_{15}^{a} 0.1~dx=0.1\]
\[\frac{a}{10}-\frac{15}{10}=0.1;a-15=1;
a=16\]
Los tiempos que estan por debajo de 16 segundos están en el percentil
10
La función de distribución para un x entre
15 y 25, viene dada por: \[F(x)=\int_{15}^{x}0.1~dt=\frac{x}{10}-\frac{15}{10}=\frac{x-15}{10}\]
Por lo que
\[
F(x)=\left\{\begin{array}{c}
0, \text{ si } x<15\\ \frac{x-15}{10}, \text{ si } 15\le x\le 25 \\
1, \text{ si } x>25
\end{array}\right.
\] La media viene dada por \(\int_{15}^{25}f(x)*x~dx\): \[\mu=\int_{15}^{25}f(x)*x~dx=
\int_{15}^{25}0.1x~dx=
\frac{25^2}{20}-\frac{15^2}{20}=\frac{400}{20}=20; \mu=20
\] ***
El profesor de estadística tiene que corregir los exámenes. Si está de buen humor, hay un 70% de posibilidades que lo apruebe, y si está de mal humor, baja hasta un 20%. Si tiene que corregir 30 30 exámenes, calcula:
\[P(x=19) = \left(\begin{array}{r}30\\19\end{array}\right)*0.7^{19}*0.3^{11}=\frac{30!}{11!*19!}*0.7^{19}*0.3^{11}=0.1103 \] O también
dbinom(19,30,0.7)
## [1] 0.1103078
\[P(x=30)=0.2^{30}=1.07*10^{-21}\]
\[P(x \ge6/x <10)= \frac{P(6\le x \le 9)}{P(x\le9)}= \frac{P(x\le9)-P(x\le6)}{P(x\le9)}=0.3535\] O también
(pbinom(9,30,0.2)-pbinom(6,30,0.2))/pbinom(9,30,0.2)
## [1] 0.3535397
4.El profesor decide poner en práctica lo explicado y ahora va a poner la nota a los alumnos siguiendo una distribución normal de media 6,8 y desviación estándar de 0.4 puntos. ¿Cuál es la probabilidad de sacar menos de un 5?
\(X\text{~}N(6.8,0.4)\) \[P(X<5)=P(X\le5)=3.398*10^{-6}\] O también
pnorm(5,6.8,0.4)
## [1] 3.397673e-06
En un país de estadísticos (admiradores de Platón) llega el día de las votaciones. Estas son un tanto peculiares, ya que cada ciudadano puede emitir su voto una única vez, pero este voto puede o no contar dependiendo del nivel educativo del votante. En este país un 40% de los habitantes pertenecen al nivel educativo 1, 35% al nivel 2 y 25% al nivel 3. Los porcentajes de que el voto sea válido son un 10,30 y 65%, respectivamente.
\(P(N1)=0.4\) \(P(N2)=0.35\) \(P(N3)=0.25\)
\(P(V/N1)=0.1\) \(P(V/N2)=0.3\) \(P(V/N3)=0.65\)
1.Probabilidad de que un voto aleatorio sea válido y del partido A, los porcentajes de votación a este partido son 25,45 y 80% respectivamente.
\[P(A/N1)=0.25, P(A/N2)=0.4, P(A/N3)=0.8\] \[P(A\cap V)=P(N1\cap A\cap V) +P(N2\cap A\cap V) +P(N3\cap A\cap V)=\] \[0.4*0.25*0.1+0.35*0.4*0.3+0.25*0.8*0.65=0.182\]
2.¿Probabilidad de que un votante elegido al azar tenga un voto válido?.
\[P(V)=P(N1\cap V) +P(N2\cap V) +P(N3\cap V)=\] \[0.4*0.1+0.35*0.3+0.25*0.65=0.3075\]
3.¿Probabilidad de que un ciudadano sea de nivel 2, dado que tiene un voto válido?.
\[P(N2/V)= \frac{P(N2 \cap V)}{P(V)}= \frac{0.105}{0.3075}=0.341463\]
4.Un ciudadano de nivel 2 encuentra un vacío legal mediante el cual puede votar más de una vez. Si vota 10 veces, ¿Cuál es la probabilidad de que su voto cuente en al menos 3 de ellas?
\[X\text{~}Bi(10,0.3)\] \[P(x\ge 3)=1-P(x\le 2)=1-\text{pbinom(2,10,0.3)}=0.61717\]
pbinom(2,10,0.3)
## [1] 0.3827828
Se desea realizar un estudio sobre el peso de los recién nacidos de determinado hospital. Sabemos que el peso sigue una distribución normal con una desviación típica de 0.6 kg
1.¿Cuál es el número mínimo de individuos que hemos de seleccionar de dicho hospital para tener una probabilidad del 80% de que el peso medio de dicha muestra difiera de la población en menos de 0.3 kg?
\[P(|\overline x -\mu|<0.3)=0.8\] \[\overline x\text{~}N(\mu,\frac{0.6}{\sqrt n})\] \[P(\frac{|\overline x -\mu|}{0.6/\sqrt n}< \frac{0.3}{0.6/\sqrt n})=P(|Z|<\frac{0.3 \sqrt n}{0.6})\] \[=P(|Z|< Z_{\alpha /2})=0.9 =>Z_{\alpha /2}=qnorm(1-\frac{0.2}{2})=1.2815\] \[\frac{0.3 \sqrt n}{0.6}=1.28150=> n=6.569\approx 7\]
qnorm(1-(0.2/2))
## [1] 1.281552
2.¿Y para que difiera de 0.1 kg con una probabilidad del 95%?
\[P(|\overline x -\mu|<0.1)=0.95\] \[\overline x\text{~}N(\mu,\frac{0.6}{\sqrt n})\] \[P(\frac{|\overline x -\mu|}{0.6/\sqrt n}< \frac{0.1}{0.6/\sqrt n})=P(|Z|<\frac{0.1 \sqrt n}{0.6})\] \[=P(|Z|< Z_{\alpha /2})=0.95 =>Z_{\alpha /2}=qnorm(1-\frac{0.05}{2})=1.96\] \[\frac{0.1 \sqrt n}{0.6}=1.96=> n=138.2976\approx 139\]
qnorm(1-(0.05/2))
## [1] 1.959964
3.Si ahora contamos con el dato de que la media de los recién nacidos es 3.1kg, ¿qué probabilidad hay de que la media de una muestra de tamaño 50 esté entre 2.5 y 3.5 kg?
\[P(2.5 \le \overline x \le 3.5)=P(\overline x \le 3.5)-P(\overline x\le 2.5)=\] \[pnorm(3.5,3.1, \frac{0.6}{\sqrt 50})-pnorm(2.5,3.1, \frac{0.6}{\sqrt 50})=0.9999\]
pnorm(3.5,3.1,0.6/sqrt(50))
## [1] 0.9999988
pnorm(2.5,3.1,0.6/sqrt(50))
## [1] 7.687299e-13
\[\overline x \text{~}N(3.1,\frac{0.6}{\sqrt n})\] \[P(3.1-t \le \overline x\le 3.1+t)=0.95\] \[P(\overline x\le3.1+t)-P(\overline x\le3.1-t)=P(Z\le\frac{t}{0.6/\sqrt 60})-P(Z\le\frac{-t}{0.6/\sqrt 60})=\] \[2P(Z\le \frac{t}{0.6/\sqrt 60})-1=0.95=> P(Z\le12.91t)=0.975\] \[12.91t=qnorm(0.975,3.1,\frac{0.6}{\sqrt 60})=>t=0.2519\] El intervalo es \((2.977,3.223)\)
qnorm(0.975,3.1,0.6/sqrt(60))
## [1] 3.251818
Un fabricante de cámaras de fotos instantáneas realiza un estudio sobre el tiempo que tardan en revelarse sus fotografías. Para ello, selecciona una muestra aleatoria de 100 fotos y determina que la duración de revelado media es de 8 minutos, con una desviación típica de 1.5 minutos
1.¿Podemos afirmar con una confianza del 95% que la duración de revelado media de las fotos es de al menos 7 minutos?
\[\overline x=8; \sigma=1,5; n=100\] \[\text{IC}=(\overline x\pm Z_{\alpha/2} \frac{\sigma}{\sqrt n})\] \[P(Z\le Z_{0.05/2})=1.96\] \[\text{IC}=8\pm1.96*\frac{1.5}{\sqrt 100}=(7.706,8.294)\] No, ya que el 7 no se encuentra dentro del Intervalo de confianza
qnorm(1-(0.05/2))
## [1] 1.959964
2.Halla el intervalo de confianza del 90% para el tiempo de revelado medio de las fotografías \[\text{IC}=(\overline x\pm Z_{\alpha/2} \frac{\sigma}{\sqrt n})\] \[P(Z\le Z_{0.1/2})=1.64\] \[\text{IC}=8\pm1.64*\frac{1.5}{\sqrt 100}=(7.754,8.246)\]
qnorm(1-(0.1/2))
## [1] 1.644854
3.¿Cuántas fotografías deberíamos tomar como muestra para que un intervalo de confianza del 98% especifique la media dentro de \(\pm 1\) minuto? \[Z_{\alpha/2}*SE_{\overline x}<1\] \[2.33 *\frac{\sqrt 1.5^2}{\sqrt n}<1=> (\frac{2.33*1.5}{1})^2<n=>n>12.215\approx13\] Debemos tomar 13 fotografías
qnorm(1-(0.02/2))
## [1] 2.326348
4.¿A qué nivel de confianza corresponde el intervalo de estimación de la media poblacional (7.4,8.4) \[(\overline x-Z_{\alpha/2}\frac{5}{\sqrt n},\overline x+Z_{\alpha/2}\frac{5}{\sqrt n})=(7.4,8.4)=>\] \[8.4-7.4=1.5* Z_{\alpha/2}\frac{5}{\sqrt n}=>\frac{10}{1.5*1.5}=Z_{\alpha/2}=>4=Z_{\alpha/2}\] \[\frac{\alpha}{2}=1-pnorm(4)=1-0.9999683=0.00003167=>\alpha=0.00006334\] \[1-\alpha=99.99367%\]
pnorm(4)
## [1] 0.9999683
Un fabricante de consolas quiere realizar un estudio sobre la vida útil de sus consolas, para averiguar si realmente duran lo que se anunció en su lanzamiento, unas 4000 horas de uso. Se escoge una muestra de 20 consolas y se mide el tiempo que funcionan sin presentar fallos graves, cuya media es de 3600 horas. Sabemos que la desviación poblacional es de 400 horas y tomamos un nivel de significación \(\alpha=0.05\).
\[H_0:\mu=4000\] \[H_1:\mu\neq4000\] La hipótesis nula nos dice que la vida útil media de las consolas es de 4000 horas de uso, mientras que la hipótesis alternativa es que no podemos afirmar que la vida útil media de las consolas es de 4000 horas.
Como conocemos el valor de la media y la desviación es conocida, usamos la siguiente fórmula: \[Z_s=\frac{\bar{x} - \mu}{\frac{\sigma}{\sqrt(n)}}\] Aplicamos los datos que tenemos, que son: \[n=20\] \[\bar{x}=3600\] \[\mu=4000\] \[\sigma=400\] Obtenemos:
\[Z_s=\frac{3600 - 4000}{\frac{400}{\sqrt(20)}}=-4.472136\]
(3600-4000)/(400/sqrt(20))
## [1] -4.472136
p_valor= 2 * pt(-4.472136,19)
p_valor
## [1] 0.0002611934
Tenemos que determinar la región crítica, es decir, calcular \(Z_\frac{\alpha}{2}\)
qnorm(1-0.05/2)
## [1] 1.959964
\[Z_\frac{\alpha}{2}=1.96\]
Como \(Z_s<-Z_\frac{\alpha}{2}\) rechazamos la hipótesis nula. Por lo tanto, no podemos afirmar que la consola tenga una vida útil de 4000 horas.
Cada año se celebra una carrera solidaria muy famosa. Supongamos que queremos comparar el tiempo que tardan dos grupos de corredores en completar una carrera de 10 km. Tenemos los siguientes datos:
| DATOS | |
|---|---|
| grupo1 <- c(48.2, 50.5, 51.1, 49.8, 52.0, 50.1, 50.9, 48.9, 49.5, 51.2) |
grupo2 <- c(46.5, 47.8, 48.9, 47.1, 49.2, 48.7, 47.5, 47.9, 50.0, 48.3)
1.Queremos realizar el contraste de Wilcoxon-Mann-Whitney, que compara la mediana de dos grupos independientes,pero para ello primero, debemos comprobar si se cumplen los supuestos de normalidad y homogeneidad de varianzas. En este caso, como tenemos un tamaño de muestra pequeño y no podemos asumir normalidad, utilizaremos un contraste no paramétrico.
1.1 Comprobar la normalidad
[ Los p-valores de los test de Shapiro-Wilk para ambos grupos son mayores que 0.05, por lo que no podemos rechazar la hipótesis nula de normalidad
]{style=“color: blue”}
1.2 Comprobar homogeneidad de Varianzas
El p-valor del test mayor que 0.05, por lo que no podemos rechazar la hipótesis nula de homogeneidad de varianzas.
grupo1=c(48.2, 50.5, 51.1, 49.8, 52.0, 50.1, 50.9, 48.9, 49.5, 51.2)
grupo2=c(46.5, 47.8, 48.9, 47.1, 49.2, 48.7, 47.5, 47.9, 50.0, 48.3)
datos=c(grupo1,grupo2)
grupos=factor(c(rep("1",length(grupo1)),rep("2",length(grupo2))))
shapiro.test(grupo1) #Para comprobar que grupo1 cumpla una distribución normal
##
## Shapiro-Wilk normality test
##
## data: grupo1
## W = 0.98284, p-value = 0.9785
shapiro.test(grupo2) #Para comprobar que grupo2 cumpla una distribución normal
##
## Shapiro-Wilk normality test
##
## data: grupo2
## W = 0.99385, p-value = 0.9995
bartlett.test(datos~grupos) #Para comprobar que las varianzas sean iguales
##
## Bartlett test of homogeneity of variances
##
## data: datos by grupos
## Bartlett's K-squared = 0.083067, df = 1, p-value = 0.7732
boxplot(grupo1,grupo2)
# resultado <- wilcox.test(grupo1,grupo2) ESTOS SON LOS RESULTADOS QUE SE OBTIENEN
# Wilcoxon rank sum test
#
# data: grupo1 and grupo2
# W = 26, p-value = 0.2673
#alternative hypothesis: true location shift is not equal to 0
3.Supongamos que queremos saber si en el grupo 1 los corredores van más rápido que en el grupo 2, con un nivel de confianza del 95%
Tenemos que utilizar el intervalo de confianza para la mediana de cada grupo, utilizando la función wilcox.test() con el parámetro conf.int = TRUE:
#resultado <- wilcox.test(grupo1, grupo2, conf.int = TRUE, conf.level = 0.95)
#Wilcoxon rank sum test with continuity correction
#data: grupo1 and grupo2
#W = 26, p-value = 0.2673
#alternative hypothesis: true location shift is not equal to 0
#95 percent confidence interval:
#-1.82506 6.12506
#sample estimates:
#difference in location
#2.2
Observando el resultado podemos ver que el intervalo de confianza para la mediana del grupo 1 está entre -1.82506 y 6.12506. Como el intervalo incluye el valor cero, no podemos afirmar con un nivel de confianza del 95% que en el grupo 1 los corredores van más rápido que en el grupo 2.
Podemos ver que el p-valor es mayor que 0.05, por lo que no podemos rechazar la hipótesis nula de que el grupo 1 es igual o más lento que el grupo 2.
# resultado <- wilcox.test(grupo1, grupo2, conf.int = TRUE, alternative = "less", conf.level = 0.95)
# Wilcoxon rank sum test with continuity correction
#data: grupo1 and grupo2
#W = 26, p-value = 0.2673
#alternative hypothesis: true location shift is less than 0
#95 percent confidence interval:
# -Inf 0.6666095
#sample estimates:
#difference in location
# -2.1
Se quiere comparar la eficacia en el frenado de 3 prototipos de pastillas de freno que están a la espera de salir al mercado en 2025. La empresa está buscando que el auto recorra la menor distancia posible en cuanto el conductor presione el pedal de freno. Para las pruebas se han instalado los 3 prototipos en el mismo coche y se han realizado 5 pruebas con cada una, a una velocidad de 120 km/h. Se han obtenido éstos datos:
| Tipo de pastilla | Distancia de frenado (m) |
|---|---|
| Pastilla 1 | 142 149 147 145 144 |
| Pastilla 2 | 152 145 149 142 148 |
| Pastilla 3 | 137 142 143 140 135 |
1.Comprueba que en los 3 grupos, las varianzas son iguales y siguen una distribución normal
Las 3 pastillas de frenos cumplen una distribución normal, ya que p-valor>0.05 en el test de shapiro. Además no hay evidencias estadísticas de que las 3 varianzas no sean iguales, ya que en el test de bartlett p-valor>0.05
Pastilla1=c(142,149,147,145,144)
Pastilla2=c(152,145,149,142,148)
Pastilla3=c(137,142,143,140,135)
datos=c(Pastilla1,Pastilla2,Pastilla3)
grupos=factor(c(rep("1",length(Pastilla1)),rep("2",length(Pastilla2)),rep("3",length(Pastilla3))))
shapiro.test(Pastilla1) #Para comprobar que la pastilla 1 cumpla una distribución normal
##
## Shapiro-Wilk normality test
##
## data: Pastilla1
## W = 0.98998, p-value = 0.9796
shapiro.test(Pastilla2) #Para comprobar que la pastilla 2 cumpla una distribución normal
##
## Shapiro-Wilk normality test
##
## data: Pastilla2
## W = 0.98537, p-value = 0.9611
shapiro.test(Pastilla3) #Para comprobar que la pastilla 3 cumpla una distribución normal
##
## Shapiro-Wilk normality test
##
## data: Pastilla3
## W = 0.94163, p-value = 0.6774
bartlett.test(datos~grupos) #Para comprobar que las 3 varianzas sean iguales
##
## Bartlett test of homogeneity of variances
##
## data: datos by grupos
## Bartlett's K-squared = 0.43312, df = 2, p-value = 0.8053
boxplot(Pastilla1,Pastilla2,Pastilla3)
2.¿Existe alguna diferencia en el tipo de pastilla utilizada en la
distancia de frenado?
\(H_0:\mu1=\mu2=\mu3\)
\(H1:\text{Que alguna media sea
diferente}\)
Como p-valor=0.0076 es menor que 0.05. Rechazamos \(H_0\) y podemos afirmar que si que hay
diferencia en el tipo de pastilla utilizada
summary(aov(datos~grupos))
## Df Sum Sq Mean Sq F value Pr(>F)
## grupos 2 166.8 83.4 7.514 0.00766 **
## Residuals 12 133.2 11.1
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
3.Construye un intervalo del 90% para la estimación de la media de la
pastilla 1:
En la tabla anterior podemos saber que
MSD=11.1, entonces: \[(\overline x_1\pm
t_{12,\alpha/2}*\sqrt{\frac{MSD}{5}})\] \[(145.4\pm
t_{12,0.1/2}*\sqrt{\frac{11.1}{5}})=(142.74,148.05)\]
4.Construye un intervalo del 95% para la estimación de la diferencia
de medias entre la pastilla 1 y la pastilla 3
Ya que las poblaciones son normales y las
varianzas son iguales, el intervalo es: \[(\overline x_1-\overline x_3\pm
t_{12,\alpha/2}*\sqrt{MSD*(\frac{1}{n_1}+\frac{1}{n_3})})\] \[(145.4-139.4\pm
t_{12,0.05/2}*\sqrt{11.1*(\frac{1}{5}+\frac{1}{5})})=(1.41,10.59)\]
La base de datos Arrests del paquete
carData recoge datos sobre los arrestados por posesión en
pequeñas cantidades de marihuana en Toronto. La base de datos consta de
8 variables, que explicaremos a continuación:
library(carData)
summary(Arrests)
## released colour year age sex
## No : 892 Black:1288 Min. :1997 Min. :12.00 Female: 443
## Yes:4334 White:3938 1st Qu.:1998 1st Qu.:18.00 Male :4783
## Median :2000 Median :21.00
## Mean :2000 Mean :23.85
## 3rd Qu.:2001 3rd Qu.:27.00
## Max. :2002 Max. :66.00
## employed citizen checks
## No :1115 No : 771 Min. :0.000
## Yes:4111 Yes:4455 1st Qu.:0.000
## Median :1.000
## Mean :1.636
## 3rd Qu.:3.000
## Max. :6.000
pairs(Arrests)
*(
released): Si han sido puestos en libertad tras ser
detenidos
summary(Arrests$released)
## No Yes
## 892 4334
barplot(table(Arrests$released))
*(
colour): La etnia del arrestado
summary(Arrests$colour)
## Black White
## 1288 3938
barplot(table(Arrests$colour))
*(
year): Año en el que fue arrestado
summary(Arrests$year)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1997 1998 2000 2000 2001 2002
barplot(table(Arrests$year))
*(
age): Edad del arrestado
summary(Arrests$age)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 12.00 18.00 21.00 23.85 27.00 66.00
hist(Arrests$age,main=paste("Histograma de la distribución de la edad"),xlab="Edad")
*(
sex): Sexo del arrestado
summary(Arrests$sex)
## Female Male
## 443 4783
barplot(table(Arrests$sex))
*(
employed): Si el arrestado tenía trabajo o no
summary(Arrests$employed)
## No Yes
## 1115 4111
barplot(table(Arrests$employed))
*(
citizen): Si el arrestado era ciudadano de Toronto
summary(Arrests$citizen)
## No Yes
## 771 4455
barplot(table(Arrests$employed))
*(
checks): Número de antecedentes penales previos del
arrestado
summary(Arrests$checks)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.000 0.000 1.000 1.636 3.000 6.000
hist(Arrests$checks,main=paste("Antecedentes previos"),xlab="Antecedentes",breaks=seq(min(Arrests$checks),max(Arrests$checks),by = 1))
Queremos estudiar el impacto de los distintos factores que intervienen en los arrestos por posesión de marihuana. Estos datos son específicos de Toronto.
Debemos observar la cantidad de hombres y mujeres que han sido
arrestadas, dicho dato está almacenado en la variable
sex.
plot(Arrests$sex)
Como podemos observar en el diagrama de barras, un 91.52% de los
arrestados son hombres.
\(H_0\): Existe relación entre la edad y el número de antecedentes \(H_1\): No existe relación entre la edad y el número de antecedentes
Establecemos como variable independiente (x) la edad y la variable dependiente (y) será el número de antecedentes
x=Arrests$age
y=Arrests$checks
regresion <- lm(y ~ x, data = Arrests)
Vamos a calcular el coeficiente de correlación con la funcion
cor
cor(x,y)
## [1] 0.1350794
summary(regresion)
##
## Call:
## lm(formula = y ~ x, data = Arrests)
##
## Residuals:
## Min 1Q Median 3Q Max
## -2.6403 -1.4903 -0.4403 1.3597 4.4847
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1.040227 0.064080 16.233 <2e-16 ***
## x 0.025002 0.002537 9.853 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.525 on 5224 degrees of freedom
## Multiple R-squared: 0.01825, Adjusted R-squared: 0.01806
## F-statistic: 97.09 on 1 and 5224 DF, p-value: < 2.2e-16
Aparentemente no hay relación lineal entre la edad y el número de antecedentes. Vamos a confirmar nuestra teoría, dibujando la gráfica y observándola
plot(x,y,xlab='edad',ylab='antedecentes')
abline(regresion)
Por tanto, tomamos como verdadera la hipótesis alternativa.
\(H_0: \mu = 23\)
\(H_1: \mu \neq 23\)
#Fijamos la semilla a 11
set.seed(11)
#Seleccionamos una muestra de 100 elementos
muestra=Arrests[sample(nrow(Arrests),100),]
#Ejecutamos t.test para averiguar el intervalo de confianza
t.test(muestra$age,mu=23)
##
## One Sample t-test
##
## data: muestra$age
## t = -0.93775, df = 99, p-value = 0.3507
## alternative hypothesis: true mean is not equal to 23
## 95 percent confidence interval:
## 20.75653 23.80347
## sample estimates:
## mean of x
## 22.28
Interpretamos el resultado del test:
Como 23 está dentro del intervalo de confianza, acepatamos la hipótesis nula planteada inicialmente, por lo que podemos afirmar que la media de edad de la muestra es 23.