Trabajo 1

1.Probabilidad

En una caja tenemos un 30% de canicas de cristal y un 70% de canicas de plástico. El 15% de las de cristal y el 40% de las de plástico son defectuosas. Las probabilidades de que se rompan al jugar con ellas son las siguientes:

-De las canicas de cristal, un 20% de romperse si no estan defectuosas y un 45% si lo están.

-De las canicas de plástico, un 15% de romperse si no son están defectuosas y un 35% si lo están.

DATOS:

\(P(C)=0.4\) \(P(P)=0.7\) \(P(D/C)=0.15\) \(P(D/P)=0.4\) \(P(R/C \cap D)=0.45\) \(P(R/P \cap D)=0.45\) \(P(R/C \cap ND)=0.35\) \(P(R/P \cap ND)=0.15\)

Si cogemos una canica al azar, calcula:

  1. La probabilidad de que se rompa y sea defectuosa.

\[P(R \cap D)= P(C \cap R \cap D)+P(P \cap R \cap D)=0.3*0.15*0.45+0.7*0.4*0.35=0.11825\]

  1. Si se ha roto, la probabilidad de que la canica fuese de plástico y estuviese defectuosa.

\(P(R)=P(C \cap D \cap R) + P(C \cap ND \cap R) + P(P \cap D \cap R) + P(P \cap ND \cap R)=\)
\(=0.3*0.15*0.45+0.3*0.85*0.35+0.7*0.4*0.35 + 0.7*0.6*0.15=0.2705\)
\[P(P \cap D/R)= \frac{P(P \cap D \cap R)}{P(R)}= \frac{0.7*0.4*0.35}{0.2705}=0.36229\]

  1. Si se rompe, la probabilidad de que fuese de cristal.

\[P(C/R)= \frac{P(C \cap R)}{P(R)}= \frac{0.3*0.15*0.45+0.3*0.85*0.35}{0.2705}=0.4081\]

  1. La probabilidad de que se rompa al jugar con ella, sabiendo que es defectuosa.

\[P(R/D)= \frac{P(R \cap D)}{P(D)}= \frac{0.3*0.15*0.45+0.7*0.4*0.35}{0.325}=0.36385\]


2.Variable aleatoria

El tiempo que tarda el profesor de Estadística en llegar a la universidad viene dado por la siguiente función de densidad de probabilidad: \[f(x)=c \text{ si } 15 \le x \le 25\]

  1. Calcula c, si ésta es una constante.

\[\int_{15}^{25} c ~dx=25c-15c=10c=1; c=0.1\]
Para que sea una función de densidad, el valor de c tiene que ser 0.1

  1. Si al profesor le gusta tardar entre 17 y 22 minutos, calcula la probabilidad de que tarde este tiempo.

Para calcular la probabilidad de que tarde entre 17 y 22 minutos, calculamos la integral definida de \(f(x)\) entre 17 y 22. \[\int_{17}^{22} 0.1~dx=\frac{22}{10}-\frac{17}{10}=\frac{5}{10}=0.5\]

  1. Calcula el percentil 10.

Para calcular el percentil 10, calculamos la ecuación de la integral definida entre 15 (extremo inferior) y ‘a’ (extremo superior) sabiendo que esa integral es igual a 0.1
\[\int_{15}^{a} 0.1~dx=0.1\]
\[\frac{a}{10}-\frac{15}{10}=0.1;a-15=1; a=16\]
Los tiempos que estan por debajo de 16 segundos están en el percentil 10

  1. Determina la función de distribución y la media.

La función de distribución para un x entre 15 y 25, viene dada por: \[F(x)=\int_{15}^{x}0.1~dt=\frac{x}{10}-\frac{15}{10}=\frac{x-15}{10}\]
Por lo que
\[ F(x)=\left\{\begin{array}{c} 0, \text{ si } x<15\\ \frac{x-15}{10}, \text{ si } 15\le x\le 25 \\ 1, \text{ si } x>25 \end{array}\right. \] La media viene dada por \(\int_{15}^{25}f(x)*x~dx\): \[\mu=\int_{15}^{25}f(x)*x~dx= \int_{15}^{25}0.1x~dx= \frac{25^2}{20}-\frac{15^2}{20}=\frac{400}{20}=20; \mu=20 \]
***

3.Distribuciones de probabilidad

El profesor de estadística tiene que corregir los exámenes. Si está de buen humor, hay un 70% de posibilidades que lo apruebe, y si está de mal humor, baja hasta un 20%. Si tiene que corregir 30 30 exámenes, calcula:

  1. La probabilidad de que apruebe 19 de los 30 exámenes estando de buen humor.

\[P(x=19) = \left(\begin{array}{r}30\\19\end{array}\right)*0.7^{19}*0.3^{11}=\frac{30!}{11!*19!}*0.7^{19}*0.3^{11}=0.1103 \] O también

dbinom(19,30,0.7)
## [1] 0.1103078

  1. La probabilidad de aprobar a todos los alumnos estándo de mal humor

\[P(x=30)=0.2^{30}=1.07*10^{-21}\]

  1. La probabilidad de que apruebe al menos 6 exámenes, si sabemos que han aprobado menos de 10 y está de mal humor

\[P(x \ge6/x <10)= \frac{P(6\le x \le 9)}{P(x\le9)}= \frac{P(x\le9)-P(x\le6)}{P(x\le9)}=0.3535\] O también

(pbinom(9,30,0.2)-pbinom(6,30,0.2))/pbinom(9,30,0.2)
## [1] 0.3535397

4.El profesor decide poner en práctica lo explicado y ahora va a poner la nota a los alumnos siguiendo una distribución normal de media 6,8 y desviación estándar de 0.4 puntos. ¿Cuál es la probabilidad de sacar menos de un 5?

\(X\text{~}N(6.8,0.4)\) \[P(X<5)=P(X\le5)=3.398*10^{-6}\] O también

pnorm(5,6.8,0.4)
## [1] 3.397673e-06

Trabajo 2

Tema 1 y 2

En un país de estadísticos (admiradores de Platón) llega el día de las votaciones. Estas son un tanto peculiares, ya que cada ciudadano puede emitir su voto una única vez, pero este voto puede o no contar dependiendo del nivel educativo del votante. En este país un 40% de los habitantes pertenecen al nivel educativo 1, 35% al nivel 2 y 25% al nivel 3. Los porcentajes de que el voto sea válido son un 10,30 y 65%, respectivamente.

\(P(N1)=0.4\) \(P(N2)=0.35\) \(P(N3)=0.25\)
\(P(V/N1)=0.1\) \(P(V/N2)=0.3\) \(P(V/N3)=0.65\)

1.Probabilidad de que un voto aleatorio sea válido y del partido A, los porcentajes de votación a este partido son 25,45 y 80% respectivamente.

\[P(A/N1)=0.25, P(A/N2)=0.4, P(A/N3)=0.8\] \[P(A\cap V)=P(N1\cap A\cap V) +P(N2\cap A\cap V) +P(N3\cap A\cap V)=\] \[0.4*0.25*0.1+0.35*0.4*0.3+0.25*0.8*0.65=0.182\]

2.¿Probabilidad de que un votante elegido al azar tenga un voto válido?.

\[P(V)=P(N1\cap V) +P(N2\cap V) +P(N3\cap V)=\] \[0.4*0.1+0.35*0.3+0.25*0.65=0.3075\]

3.¿Probabilidad de que un ciudadano sea de nivel 2, dado que tiene un voto válido?.

\[P(N2/V)= \frac{P(N2 \cap V)}{P(V)}= \frac{0.105}{0.3075}=0.341463\]

4.Un ciudadano de nivel 2 encuentra un vacío legal mediante el cual puede votar más de una vez. Si vota 10 veces, ¿Cuál es la probabilidad de que su voto cuente en al menos 3 de ellas?

\[X\text{~}Bi(10,0.3)\] \[P(x\ge 3)=1-P(x\le 2)=1-\text{pbinom(2,10,0.3)}=0.61717\]

pbinom(2,10,0.3)
## [1] 0.3827828

Tema 3

Se desea realizar un estudio sobre el peso de los recién nacidos de determinado hospital. Sabemos que el peso sigue una distribución normal con una desviación típica de 0.6 kg

1.¿Cuál es el número mínimo de individuos que hemos de seleccionar de dicho hospital para tener una probabilidad del 80% de que el peso medio de dicha muestra difiera de la población en menos de 0.3 kg?

\[P(|\overline x -\mu|<0.3)=0.8\] \[\overline x\text{~}N(\mu,\frac{0.6}{\sqrt n})\] \[P(\frac{|\overline x -\mu|}{0.6/\sqrt n}< \frac{0.3}{0.6/\sqrt n})=P(|Z|<\frac{0.3 \sqrt n}{0.6})\] \[=P(|Z|< Z_{\alpha /2})=0.9 =>Z_{\alpha /2}=qnorm(1-\frac{0.2}{2})=1.2815\] \[\frac{0.3 \sqrt n}{0.6}=1.28150=> n=6.569\approx 7\]

qnorm(1-(0.2/2))
## [1] 1.281552

2.¿Y para que difiera de 0.1 kg con una probabilidad del 95%?

\[P(|\overline x -\mu|<0.1)=0.95\] \[\overline x\text{~}N(\mu,\frac{0.6}{\sqrt n})\] \[P(\frac{|\overline x -\mu|}{0.6/\sqrt n}< \frac{0.1}{0.6/\sqrt n})=P(|Z|<\frac{0.1 \sqrt n}{0.6})\] \[=P(|Z|< Z_{\alpha /2})=0.95 =>Z_{\alpha /2}=qnorm(1-\frac{0.05}{2})=1.96\] \[\frac{0.1 \sqrt n}{0.6}=1.96=> n=138.2976\approx 139\]

qnorm(1-(0.05/2))
## [1] 1.959964

3.Si ahora contamos con el dato de que la media de los recién nacidos es 3.1kg, ¿qué probabilidad hay de que la media de una muestra de tamaño 50 esté entre 2.5 y 3.5 kg?

\[P(2.5 \le \overline x \le 3.5)=P(\overline x \le 3.5)-P(\overline x\le 2.5)=\] \[pnorm(3.5,3.1, \frac{0.6}{\sqrt 50})-pnorm(2.5,3.1, \frac{0.6}{\sqrt 50})=0.9999\]

pnorm(3.5,3.1,0.6/sqrt(50))
## [1] 0.9999988
pnorm(2.5,3.1,0.6/sqrt(50))
## [1] 7.687299e-13
  1. Si quiero un intervalo centrado en la media donde tengamos un 95% con un tamaño muestral de 60, ¿cuáles serían los extremos del intervalo?

\[\overline x \text{~}N(3.1,\frac{0.6}{\sqrt n})\] \[P(3.1-t \le \overline x\le 3.1+t)=0.95\] \[P(\overline x\le3.1+t)-P(\overline x\le3.1-t)=P(Z\le\frac{t}{0.6/\sqrt 60})-P(Z\le\frac{-t}{0.6/\sqrt 60})=\] \[2P(Z\le \frac{t}{0.6/\sqrt 60})-1=0.95=> P(Z\le12.91t)=0.975\] \[12.91t=qnorm(0.975,3.1,\frac{0.6}{\sqrt 60})=>t=0.2519\] El intervalo es \((2.977,3.223)\)

qnorm(0.975,3.1,0.6/sqrt(60))
## [1] 3.251818

Tema 4

Un fabricante de cámaras de fotos instantáneas realiza un estudio sobre el tiempo que tardan en revelarse sus fotografías. Para ello, selecciona una muestra aleatoria de 100 fotos y determina que la duración de revelado media es de 8 minutos, con una desviación típica de 1.5 minutos

1.¿Podemos afirmar con una confianza del 95% que la duración de revelado media de las fotos es de al menos 7 minutos?

\[\overline x=8; \sigma=1,5; n=100\] \[\text{IC}=(\overline x\pm Z_{\alpha/2} \frac{\sigma}{\sqrt n})\] \[P(Z\le Z_{0.05/2})=1.96\] \[\text{IC}=8\pm1.96*\frac{1.5}{\sqrt 100}=(7.706,8.294)\] No, ya que el 7 no se encuentra dentro del Intervalo de confianza

qnorm(1-(0.05/2))
## [1] 1.959964

2.Halla el intervalo de confianza del 90% para el tiempo de revelado medio de las fotografías \[\text{IC}=(\overline x\pm Z_{\alpha/2} \frac{\sigma}{\sqrt n})\] \[P(Z\le Z_{0.1/2})=1.64\] \[\text{IC}=8\pm1.64*\frac{1.5}{\sqrt 100}=(7.754,8.246)\]

qnorm(1-(0.1/2))
## [1] 1.644854

3.¿Cuántas fotografías deberíamos tomar como muestra para que un intervalo de confianza del 98% especifique la media dentro de \(\pm 1\) minuto? \[Z_{\alpha/2}*SE_{\overline x}<1\] \[2.33 *\frac{\sqrt 1.5^2}{\sqrt n}<1=> (\frac{2.33*1.5}{1})^2<n=>n>12.215\approx13\] Debemos tomar 13 fotografías

qnorm(1-(0.02/2))
## [1] 2.326348

4.¿A qué nivel de confianza corresponde el intervalo de estimación de la media poblacional (7.4,8.4) \[(\overline x-Z_{\alpha/2}\frac{5}{\sqrt n},\overline x+Z_{\alpha/2}\frac{5}{\sqrt n})=(7.4,8.4)=>\] \[8.4-7.4=1.5* Z_{\alpha/2}\frac{5}{\sqrt n}=>\frac{10}{1.5*1.5}=Z_{\alpha/2}=>4=Z_{\alpha/2}\] \[\frac{\alpha}{2}=1-pnorm(4)=1-0.9999683=0.00003167=>\alpha=0.00006334\] \[1-\alpha=99.99367%\]

pnorm(4)
## [1] 0.9999683

Trabajo 3

Contraste paramétrico

Un fabricante de consolas quiere realizar un estudio sobre la vida útil de sus consolas, para averiguar si realmente duran lo que se anunció en su lanzamiento, unas 4000 horas de uso. Se escoge una muestra de 20 consolas y se mide el tiempo que funcionan sin presentar fallos graves, cuya media es de 3600 horas. Sabemos que la desviación poblacional es de 400 horas y tomamos un nivel de significación \(\alpha=0.05\).

  1. ¿Cuáles son la hipótesis nula y la alternativa?

\[H_0:\mu=4000\] \[H_1:\mu\neq4000\] La hipótesis nula nos dice que la vida útil media de las consolas es de 4000 horas de uso, mientras que la hipótesis alternativa es que no podemos afirmar que la vida útil media de las consolas es de 4000 horas.

  1. Calcula el estadístico.

Como conocemos el valor de la media y la desviación es conocida, usamos la siguiente fórmula: \[Z_s=\frac{\bar{x} - \mu}{\frac{\sigma}{\sqrt(n)}}\] Aplicamos los datos que tenemos, que son: \[n=20\] \[\bar{x}=3600\] \[\mu=4000\] \[\sigma=400\] Obtenemos:

\[Z_s=\frac{3600 - 4000}{\frac{400}{\sqrt(20)}}=-4.472136\]

(3600-4000)/(400/sqrt(20))
## [1] -4.472136
  1. Calcula el p-valor.
p_valor= 2 * pt(-4.472136,19)
p_valor
## [1] 0.0002611934
  1. ¿Se puede entonces afirmar que la consola tiene una vida útil de 4000 horas?

Tenemos que determinar la región crítica, es decir, calcular \(Z_\frac{\alpha}{2}\)

qnorm(1-0.05/2)
## [1] 1.959964

\[Z_\frac{\alpha}{2}=1.96\]

Como \(Z_s<-Z_\frac{\alpha}{2}\) rechazamos la hipótesis nula. Por lo tanto, no podemos afirmar que la consola tenga una vida útil de 4000 horas.

Constraste no paramétrico

Cada año se celebra una carrera solidaria muy famosa. Supongamos que queremos comparar el tiempo que tardan dos grupos de corredores en completar una carrera de 10 km. Tenemos los siguientes datos:

DATOS
grupo1 <- c(48.2, 50.5, 51.1, 49.8, 52.0, 50.1, 50.9, 48.9, 49.5, 51.2)

grupo2 <- c(46.5, 47.8, 48.9, 47.1, 49.2, 48.7, 47.5, 47.9, 50.0, 48.3)

1.Queremos realizar el contraste de Wilcoxon-Mann-Whitney, que compara la mediana de dos grupos independientes,pero para ello primero, debemos comprobar si se cumplen los supuestos de normalidad y homogeneidad de varianzas. En este caso, como tenemos un tamaño de muestra pequeño y no podemos asumir normalidad, utilizaremos un contraste no paramétrico.

1.1 Comprobar la normalidad

[ Los p-valores de los test de Shapiro-Wilk para ambos grupos son mayores que 0.05, por lo que no podemos rechazar la hipótesis nula de normalidad

]{style=“color: blue”}

1.2 Comprobar homogeneidad de Varianzas

El p-valor del test mayor que 0.05, por lo que no podemos rechazar la hipótesis nula de homogeneidad de varianzas.

  1. Realizamos el contraste de Wilcoxon-Mann-Whitney Podemos observar que el estadístico W es igual a 26 y el p-valor es 0.2673. Como el p-valor es mayor que 0.05, no podemos rechazar la hipótesis nula de que no hay diferencia en el tiempo que tardan en completar la carrera los dos grupos de corredores
grupo1=c(48.2, 50.5, 51.1, 49.8, 52.0, 50.1, 50.9, 48.9, 49.5, 51.2)
grupo2=c(46.5, 47.8, 48.9, 47.1, 49.2, 48.7, 47.5, 47.9, 50.0, 48.3)

datos=c(grupo1,grupo2)
grupos=factor(c(rep("1",length(grupo1)),rep("2",length(grupo2))))
 shapiro.test(grupo1) #Para comprobar que grupo1 cumpla una distribución normal
## 
##     Shapiro-Wilk normality test
## 
## data:  grupo1
## W = 0.98284, p-value = 0.9785
shapiro.test(grupo2) #Para comprobar que grupo2 cumpla una distribución normal
## 
##     Shapiro-Wilk normality test
## 
## data:  grupo2
## W = 0.99385, p-value = 0.9995
bartlett.test(datos~grupos) #Para comprobar que las  varianzas sean iguales
## 
##     Bartlett test of homogeneity of variances
## 
## data:  datos by grupos
## Bartlett's K-squared = 0.083067, df = 1, p-value = 0.7732
 boxplot(grupo1,grupo2)

# resultado <- wilcox.test(grupo1,grupo2) ESTOS SON LOS RESULTADOS QUE SE OBTIENEN 
# Wilcoxon rank sum test
#
# data:  grupo1 and grupo2
# W = 26, p-value = 0.2673
#alternative hypothesis: true location shift is not equal to 0

3.Supongamos que queremos saber si en el grupo 1 los corredores van más rápido que en el grupo 2, con un nivel de confianza del 95%

Tenemos que utilizar el intervalo de confianza para la mediana de cada grupo, utilizando la función wilcox.test() con el parámetro conf.int = TRUE:

#resultado <- wilcox.test(grupo1, grupo2, conf.int = TRUE, conf.level = 0.95)
#Wilcoxon rank sum test with continuity correction

#data: grupo1 and grupo2
#W = 26, p-value = 0.2673
#alternative hypothesis: true location shift is not equal to 0
#95 percent confidence interval:
#-1.82506 6.12506
#sample estimates:
#difference in location
#2.2

Observando el resultado podemos ver que el intervalo de confianza para la mediana del grupo 1 está entre -1.82506 y 6.12506. Como el intervalo incluye el valor cero, no podemos afirmar con un nivel de confianza del 95% que en el grupo 1 los corredores van más rápido que en el grupo 2.

  1. Comparar la mediana de los grupos y obtener un intervalo de confianza para la diferencia de medianas

Podemos ver que el p-valor es mayor que 0.05, por lo que no podemos rechazar la hipótesis nula de que el grupo 1 es igual o más lento que el grupo 2.

#  resultado <- wilcox.test(grupo1, grupo2, conf.int = TRUE, alternative = "less", conf.level = 0.95)
  
#  Wilcoxon rank sum test with continuity correction

#data:  grupo1 and grupo2
#W = 26, p-value = 0.2673
#alternative hypothesis: true location shift is less than 0
#95 percent confidence interval:
#     -Inf 0.6666095
#sample estimates:
#difference in location 
#                  -2.1

Ejercicio ANOVA

Se quiere comparar la eficacia en el frenado de 3 prototipos de pastillas de freno que están a la espera de salir al mercado en 2025. La empresa está buscando que el auto recorra la menor distancia posible en cuanto el conductor presione el pedal de freno. Para las pruebas se han instalado los 3 prototipos en el mismo coche y se han realizado 5 pruebas con cada una, a una velocidad de 120 km/h. Se han obtenido éstos datos:

Tipo de pastilla Distancia de frenado (m)
Pastilla 1 142 149 147 145 144
Pastilla 2 152 145 149 142 148
Pastilla 3 137 142 143 140 135

1.Comprueba que en los 3 grupos, las varianzas son iguales y siguen una distribución normal

Las 3 pastillas de frenos cumplen una distribución normal, ya que p-valor>0.05 en el test de shapiro. Además no hay evidencias estadísticas de que las 3 varianzas no sean iguales, ya que en el test de bartlett p-valor>0.05

Pastilla1=c(142,149,147,145,144)
Pastilla2=c(152,145,149,142,148)
Pastilla3=c(137,142,143,140,135)

datos=c(Pastilla1,Pastilla2,Pastilla3)
grupos=factor(c(rep("1",length(Pastilla1)),rep("2",length(Pastilla2)),rep("3",length(Pastilla3))))
shapiro.test(Pastilla1) #Para comprobar que la pastilla 1 cumpla una distribución normal
## 
##    Shapiro-Wilk normality test
## 
## data:  Pastilla1
## W = 0.98998, p-value = 0.9796
shapiro.test(Pastilla2) #Para comprobar que la pastilla 2 cumpla una distribución normal
## 
##    Shapiro-Wilk normality test
## 
## data:  Pastilla2
## W = 0.98537, p-value = 0.9611
shapiro.test(Pastilla3) #Para comprobar que la pastilla 3 cumpla una distribución normal
## 
##    Shapiro-Wilk normality test
## 
## data:  Pastilla3
## W = 0.94163, p-value = 0.6774
bartlett.test(datos~grupos) #Para comprobar que las 3 varianzas sean iguales
## 
##    Bartlett test of homogeneity of variances
## 
## data:  datos by grupos
## Bartlett's K-squared = 0.43312, df = 2, p-value = 0.8053
boxplot(Pastilla1,Pastilla2,Pastilla3)

2.¿Existe alguna diferencia en el tipo de pastilla utilizada en la distancia de frenado?
\(H_0:\mu1=\mu2=\mu3\)
\(H1:\text{Que alguna media sea diferente}\)
Como p-valor=0.0076 es menor que 0.05. Rechazamos \(H_0\) y podemos afirmar que si que hay diferencia en el tipo de pastilla utilizada

summary(aov(datos~grupos))
##             Df Sum Sq Mean Sq F value  Pr(>F)   
## grupos       2  166.8    83.4   7.514 0.00766 **
## Residuals   12  133.2    11.1                   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

3.Construye un intervalo del 90% para la estimación de la media de la pastilla 1:
En la tabla anterior podemos saber que MSD=11.1, entonces: \[(\overline x_1\pm t_{12,\alpha/2}*\sqrt{\frac{MSD}{5}})\] \[(145.4\pm t_{12,0.1/2}*\sqrt{\frac{11.1}{5}})=(142.74,148.05)\]

4.Construye un intervalo del 95% para la estimación de la diferencia de medias entre la pastilla 1 y la pastilla 3
Ya que las poblaciones son normales y las varianzas son iguales, el intervalo es: \[(\overline x_1-\overline x_3\pm t_{12,\alpha/2}*\sqrt{MSD*(\frac{1}{n_1}+\frac{1}{n_3})})\] \[(145.4-139.4\pm t_{12,0.05/2}*\sqrt{11.1*(\frac{1}{5}+\frac{1}{5})})=(1.41,10.59)\]

Trabajo banco de datos

Descripción del banco de datos

La base de datos Arrests del paquete carData recoge datos sobre los arrestados por posesión en pequeñas cantidades de marihuana en Toronto. La base de datos consta de 8 variables, que explicaremos a continuación:

library(carData)
summary(Arrests)
##  released     colour          year           age            sex      
##  No : 892   Black:1288   Min.   :1997   Min.   :12.00   Female: 443  
##  Yes:4334   White:3938   1st Qu.:1998   1st Qu.:18.00   Male  :4783  
##                          Median :2000   Median :21.00                
##                          Mean   :2000   Mean   :23.85                
##                          3rd Qu.:2001   3rd Qu.:27.00                
##                          Max.   :2002   Max.   :66.00                
##  employed   citizen        checks     
##  No :1115   No : 771   Min.   :0.000  
##  Yes:4111   Yes:4455   1st Qu.:0.000  
##                        Median :1.000  
##                        Mean   :1.636  
##                        3rd Qu.:3.000  
##                        Max.   :6.000
pairs(Arrests)

*(released): Si han sido puestos en libertad tras ser detenidos

summary(Arrests$released)
##   No  Yes 
##  892 4334
barplot(table(Arrests$released))

*(colour): La etnia del arrestado

summary(Arrests$colour)
## Black White 
##  1288  3938
barplot(table(Arrests$colour))

*(year): Año en el que fue arrestado

summary(Arrests$year)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    1997    1998    2000    2000    2001    2002
barplot(table(Arrests$year))

*(age): Edad del arrestado

summary(Arrests$age)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   12.00   18.00   21.00   23.85   27.00   66.00
hist(Arrests$age,main=paste("Histograma de la distribución de la edad"),xlab="Edad")

*(sex): Sexo del arrestado

summary(Arrests$sex)
## Female   Male 
##    443   4783
barplot(table(Arrests$sex))

*(employed): Si el arrestado tenía trabajo o no

summary(Arrests$employed)
##   No  Yes 
## 1115 4111
barplot(table(Arrests$employed))

*(citizen): Si el arrestado era ciudadano de Toronto

summary(Arrests$citizen)
##   No  Yes 
##  771 4455
barplot(table(Arrests$employed))

*(checks): Número de antecedentes penales previos del arrestado

summary(Arrests$checks)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.000   0.000   1.000   1.636   3.000   6.000
hist(Arrests$checks,main=paste("Antecedentes previos"),xlab="Antecedentes",breaks=seq(min(Arrests$checks),max(Arrests$checks),by = 1))

Objetivo del trabajo

Queremos estudiar el impacto de los distintos factores que intervienen en los arrestos por posesión de marihuana. Estos datos son específicos de Toronto.

¿Importa el sexo en la posesión de marihuana?

Debemos observar la cantidad de hombres y mujeres que han sido arrestadas, dicho dato está almacenado en la variable sex.

plot(Arrests$sex)

Como podemos observar en el diagrama de barras, un 91.52% de los arrestados son hombres.

¿Hay relación entre la edad y el número de antecedentes?

\(H_0\): Existe relación entre la edad y el número de antecedentes \(H_1\): No existe relación entre la edad y el número de antecedentes

Establecemos como variable independiente (x) la edad y la variable dependiente (y) será el número de antecedentes

x=Arrests$age
y=Arrests$checks
regresion <- lm(y ~ x, data = Arrests)

Vamos a calcular el coeficiente de correlación con la funcion cor

cor(x,y)
## [1] 0.1350794
summary(regresion)
## 
## Call:
## lm(formula = y ~ x, data = Arrests)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -2.6403 -1.4903 -0.4403  1.3597  4.4847 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 1.040227   0.064080  16.233   <2e-16 ***
## x           0.025002   0.002537   9.853   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.525 on 5224 degrees of freedom
## Multiple R-squared:  0.01825,    Adjusted R-squared:  0.01806 
## F-statistic: 97.09 on 1 and 5224 DF,  p-value: < 2.2e-16

Aparentemente no hay relación lineal entre la edad y el número de antecedentes. Vamos a confirmar nuestra teoría, dibujando la gráfica y observándola

plot(x,y,xlab='edad',ylab='antedecentes')
abline(regresion)

Por tanto, tomamos como verdadera la hipótesis alternativa.

Dada una muestra de 100 casos, ¿podemos afirmar con un nivel de confianza del 95% que la edad media de los detenidos es de 23 años?

\(H_0: \mu = 23\)

\(H_1: \mu \neq 23\)

#Fijamos la semilla a 11
set.seed(11)
#Seleccionamos una muestra de 100 elementos
muestra=Arrests[sample(nrow(Arrests),100),]
#Ejecutamos t.test para averiguar el intervalo de confianza
t.test(muestra$age,mu=23)
## 
##  One Sample t-test
## 
## data:  muestra$age
## t = -0.93775, df = 99, p-value = 0.3507
## alternative hypothesis: true mean is not equal to 23
## 95 percent confidence interval:
##  20.75653 23.80347
## sample estimates:
## mean of x 
##     22.28

Interpretamos el resultado del test:

Como 23 está dentro del intervalo de confianza, acepatamos la hipótesis nula planteada inicialmente, por lo que podemos afirmar que la media de edad de la muestra es 23.